1 面试背景

面试公司：牵手未来
面试岗位：算法实习生
面试类型：技术一面
面试时间：2024-12-05 16:00~17:00
面试结果：不通过 😊

2 整体感受

在面试之前，HR 说要做一个笔试题，我以为是机考，结果是下面这种：

当时感觉这个公司还挺专业，提前让你做题。其他公司都没有，但是我后来又想，那这样不就可以很充分的去准备这些题吗？包括查资料等。那面试的时候问你的肯定你都提前准备了，还怎么拉齐面试时的背景知识？

我当时就给做完了，然后进行面试。面试官问我是哪个学院的，我说软微，他说他也是软微的。

面试的过程特别奇怪，一般会进行简历面，针对简历上的内容提问。但是面试官看到我弄过棋类博弈，直接开始想这个能不能用到他们的业务中？然后几乎全是围绕着他们公司的场景来交流的。

反正面试感受特别差，还问我简历上有哪些亮眼的地方（你是面试官还是我是面试官 😂）。

晚上的时候 HR 说没有通过，我当时很震惊，我感觉我没有什么致命的失误，当时很纳闷，因为如果表现不好的话我自己也会感觉出来。

之后我上网查了一下，有一个回答：

当时突然好像明白了，好像知道为什么要做那个笔试题了，好像知道为什么面试简历一点不问了……只能说长见识了。

3 笔试题

Hey，高兴认识优秀的你：

我们是牵手app的算法团队，致力打造陌生人社交算法领域顶级算法，曾经我们负责过探探每日十亿次以上的滑卡推荐，现在我们负责中国牵手、东南亚市占第一的omi、以及在美国、日韩等新创app推荐算法工作。

深耕多年的经验告诉我们，陌生人社交领域的算法的业务难度极高，也极具价值，与传统推荐算法领域的底层逻辑截然不同。为了找到更合适的夥伴，我们希望用几个看似简单却有深度的问题来提前让您思考，主要目的是提前理解业务，拉齐面试时的背景知识，同时期待高水平的同学能提出有洞见的结果。

面试前请提前下载“牵手app”，完成注册流程并滑卡体验，请告知注册手机号，并提前准备以下问题交给HR，面试官可能以场景题出发询问技术问题。

一、请解释在牵手app里面，一个男生和女生“配对”（意指产生对话窗，非交往），需要经过哪些环节？（请务必了解）

主要有以下途径：

“推荐”页面寻找意向异性 → 送对方小红花
“喜欢”页面找到对我有意向的异性

二、请解释“提升右滑喜欢率”、“提升配对率”、“提升配对后聊天率”，你认为哪个对于用户脱单最为重要？请为什么？

“提升配对后聊天率”对于用户脱单最为重要，原因如下：

**实际互动：**尽管高的右滑喜欢率和配对率意味着更多的匹配机会，但如果匹配后没有有效的沟通，用户将无法建立真正的关系。
**用户体验：**若用户在匹配后能够顺利聊天，会增强他们对平台的满意度，从而增加他们继续使用该应用的意愿，同时也会增强信心。
**长期关系的可能性：**有效的沟通是建立信任和理解的基础，特别是脱单过程中沟通至关重要。

三、就上题你认为最为重要的指标，提供一套建模思路，会选用什么特征？什么模型？如何定义样本？

首先，需要收集用户个人信息、历史匹配和聊天记录相关数据。并对收集到的数据进行清洗（处理缺失值、异常值等），之后进行特征工程和编码。

使用的特征可以包含以下几种：

用户行为数据：用户行为在APP中可以分为显性反馈行为和隐性反馈行为。在牵手未来的场景中，显性反馈行为有：“推荐”页面的喜欢和不合适、主动“喜欢”一个异性、对异性送花、帖子点赞等。隐性反馈行为有：帖子进行评论、在一个异性主页停留的时间、点击哪个标签最多、和异性聊天的频率、登录时长、是否为活跃用户等。
用户关系数据：这一部分主要考虑对于用户A来说，喜欢B和C，同时用户D喜欢B的同时也喜欢C，那就说明用户B和用户C有很大的相似之处，所以可以对这部分信息进行挖掘。
属性、标签类数据：这一部分数据是直接描述用户的特征。可以通过 multi-hot 编码的方式将其转换成特征向量。
内容类数据：每个用户的主页以及发过的图文帖子都是描述用户的数据。对于文字，可以通过 BERT 等NLP模型进行处理，对于图片可以使用CNN模型进行处理提取内容特征。
上下文信息：可以统计用户通常在什么时间登录APP的时间信息以及地点信息，如果用户A通常在中午登录，而配对的用户B通常晚上登录，那么配对后聊天率就会降低。
统计类特征：可以统计每个用户的活跃程度以及受欢迎程度，如果一个用户A配对后聊天的次数很多，那么下次和用户B配对后，也有很多概率会聊天。以及统计配对的用户之间的相似度，相似度越高，则聊天概率越高。

上述特征主要分为连续型特征和类别型特征。对于连续型特征，通常经过归一化、加非线性函数方式进行变换。类别型特征使用独热编码等方式转化为数值型，之后可以使用Word2Vec等方式对稀疏特征进行Embedding，捕捉不同属性之间的语义信息。

构建一个二分类模型，预测每一个配对后聊天的概率，比如 XGBoost、DIN模型等，然后对上述模型预测结果使用集成学习方法进行加权融合，得到最终的配对聊天率的预测值。