面试记录4:牵手未来技术一面
1 面试背景
- 面试公司:牵手未来
- 面试岗位:算法实习生
- 面试类型:技术一面
- 面试时间:2024-12-05 16:00~17:00
- 面试结果:不通过 😊
2 整体感受
在面试之前,HR 说要做一个笔试题,我以为是机考,结果是下面这种:
当时感觉这个公司还挺专业,提前让你做题。其他公司都没有,但是我后来又想,那这样不就可以很充分的去准备这些题吗?包括查资料等。那面试的时候问你的肯定你都提前准备了,还怎么拉齐面试时的背景知识?
我当时就给做完了,然后进行面试。面试官问我是哪个学院的,我说软微,他说他也是软微的。
面试的过程特别奇怪,一般会进行简历面,针对简历上的内容提问。但是面试官看到我弄过棋类博弈,直接开始想这个能不能用到他们的业务中?然后几乎全是围绕着他们公司的场景来交流的。
反正面试感受特别差,还问我简历上有哪些亮眼的地方(你是面试官还是我是面试官 😂)。
晚上的时候 HR 说没有通过,我当时很震惊,我感觉我没有什么致命的失误,当时很纳闷,因为如果表现不好的话我自己也会感觉出来。
之后我上网查了一下,有一个回答:
当时突然好像明白了,好像知道为什么要做那个笔试题了,好像知道为什么面试简历一点不问了……只能说长见识了。
3 笔试题
Hey,高兴认识优秀的你:
我们是牵手app的算法团队,致力打造陌生人社交算法领域顶级算法,曾经我们负责过探探每日十亿次以上的滑卡推荐,现在我们负责中国牵手、东南亚市占第一的omi、以及在美国、日韩等新创app推荐算法工作。
深耕多年的经验告诉我们,陌生人社交领域的算法的业务难度极高,也极具价值,与传统推荐算法领域的底层逻辑截然不同。为了找到更合适的夥伴,我们希望用几个看似简单却有深度的问题来提前让您思考,主要目的是提前理解业务,拉齐面试时的背景知识,同时期待高水平的同学能提出有洞见的结果。
面试前请提前下载“牵手app”,完成注册流程并滑卡体验,请告知注册手机号,并提前准备以下问题交给HR,面试官可能以场景题出发询问技术问题。
一、请解释在牵手app里面,一个男生和女生“配对”(意指产生对话窗,非交往),需要经过哪些环节?(请务必了解)
主要有以下途径:
- “推荐”页面寻找意向异性 → 送对方小红花
- “喜欢”页面找到对我有意向的异性
二、请解释“提升右滑喜欢率”、“提升配对率”、“提升配对后聊天率”,你认为哪个对于用户脱单最为重要?请为什么?
“提升配对后聊天率”对于用户脱单最为重要,原因如下:
- 实际互动:尽管高的右滑喜欢率和配对率意味着更多的匹配机会,但如果匹配后没有有效的沟通,用户将无法建立真正的关系。
- 用户体验:若用户在匹配后能够顺利聊天,会增强他们对平台的满意度,从而增加他们继续使用该应用的意愿,同时也会增强信心。
- 长期关系的可能性:有效的沟通是建立信任和理解的基础,特别是脱单过程中沟通至关重要。
三、就上题你认为最为重要的指标,提供一套建模思路,会选用什么特征?什么模型?如何定义样本?
首先,需要收集用户个人信息、历史匹配和聊天记录相关数据。并对收集到的数据进行清洗(处理缺失值、异常值等),之后进行特征工程和编码。
使用的特征可以包含以下几种:
- 用户行为数据:用户行为在APP中可以分为显性反馈行为和隐性反馈行为。在牵手未来的场景中,显性反馈行为有:“推荐”页面的喜欢和不合适、主动“喜欢”一个异性、对异性送花、帖子点赞等。隐性反馈行为有:帖子进行评论、在一个异性主页停留的时间、点击哪个标签最多、和异性聊天的频率、登录时长、是否为活跃用户等。
- 用户关系数据:这一部分主要考虑对于用户A来说,喜欢B和C,同时用户D喜欢B的同时也喜欢C,那就说明用户B和用户C有很大的相似之处,所以可以对这部分信息进行挖掘。
- 属性、标签类数据:这一部分数据是直接描述用户的特征。可以通过 multi-hot 编码的方式将其转换成特征向量。
- 内容类数据:每个用户的主页以及发过的图文帖子都是描述用户的数据。对于文字,可以通过 BERT 等NLP模型进行处理,对于图片可以使用CNN模型进行处理提取内容特征。
- 上下文信息:可以统计用户通常在什么时间登录APP的时间信息以及地点信息,如果用户A通常在中午登录,而配对的用户B通常晚上登录,那么配对后聊天率就会降低。
- 统计类特征:可以统计每个用户的活跃程度以及受欢迎程度,如果一个用户A配对后聊天的次数很多,那么下次和用户B配对后,也有很多概率会聊天。以及统计配对的用户之间的相似度,相似度越高,则聊天概率越高。
上述特征主要分为连续型特征和类别型特征。对于连续型特征,通常经过归一化、加非线性函数方式进行变换。类别型特征使用独热编码等方式转化为数值型,之后可以使用Word2Vec等方式对稀疏特征进行Embedding,捕捉不同属性之间的语义信息。
构建一个二分类模型,预测每一个配对后聊天的概率,比如 XGBoost、DIN模型等,然后对上述模型预测结果使用集成学习方法进行加权融合,得到最终的配对聊天率的预测值。
四、您主观认为图像占牵手整体所有信息的百分比是多少?例如70%
65%左右。
五、假想一种特殊的情况,假设牵手app除了图以外,其余信息完全没有,就第二题您觉得最重要的指标,您要如何依靠挖掘图像信息提升指标?请提供一套挖掘的的思路。
可以使用CV模型对图片进行目标检测,抽取图片特征,再把这些特征转换成标签类数据,供推荐系统使用。
同时也可以提取图片内容特征,把模型中间层的特征向量提取出来,作为用户图像的表示送入排序模型中。