计算机岗位双选会调研感悟
1 前言东秦在 2024年10月25日 举办了秋季双选会,秋季双选会是一个为大学生提供就业机会的招聘活动,为应届生与用人单位进行面对面交流,了解职业发展方向和行业动态,并与企业达成就业意向。同时老师给我一个任务:对一部分企业针对我们学院(计算机与通信工程学院)的相关专业的招聘情况进行一下调研。
刚接到这个任务的时候我感觉这是一个很好的机会,想趁着这个机会了解一下现在计算机专业应届生的求职情况。从大概九点多开始,一直调研到下午一点,这个时间段也是双选会最火爆的一个时间段,人特别多,摩肩接踵,很多企业的摊位前排了很长的队伍。
当时在想,如果我也直接工作的话肯定也成为这十万大军中的一员,能明显感受到求职者对于找工作的热情。三年之后我也要找工作,我就在想,为什么不从现在就开始为找工作做准备呢?为什么大二的时候不确定自己以后是工作还是考研?如果工作的话为什么不早点准备呢?人这一辈子不论上多少年的学,总是要找一份工作的,我们上学的目的不就是为了找工作吗?
经过对大概20多家企业的调研和这个过程中自己的所见所闻,感受颇深,将这些感想写下,希望对自己的人生规划有帮助。
2 企业岗位需求在我调研的企 ...
WSS推荐系统学习笔记12:涨指标的方法2
1 提升多样性可以通过提升多样性来提高指标,包括排序多样、召回多样性和探索流量。
1.1 排序多样性1.1.1 精排多样性精排阶段,结合兴趣分数和多样性分数对物品 $i$ 排序。
$s_i$:兴趣分数,即融合点击率等多个预估目标
$d_i$:多样性分数,即物品 $i$ 与已经选中的物品的差异
根据加和 $s_i+d_i$ 对物品做排序。
常用 MMR、DPP 等方法计算多样性分数,精排使用滑动窗口,粗排不使用滑动窗口。因为精排决定最终的曝光,曝光页面上邻近的物品相似度应该小,所以计算精排多样性要使用滑动窗口。粗排要考虑整体的多样性,而非一个滑动窗口中的多样性。
除了多样性分数,精排还使用打散策略增加多样性。
类目:当前选中物品 $i$,之后 5 个位置不允许跟 $i$ 的二级类目相同
多模态:事先计算物品多模态内容向量表征,将全库物品聚为 1000 类;在精排阶段,如果当前选中物品 $i$,之后 10 个位置不允许跟 $i$ 同属一个聚类,因为一个聚类中的图片和文字相似,应该被打散
1.1.2 粗排多样性粗排给 5000 个物品打分,选出 500 个物品送入精排。提升粗排和精排 ...
WSS推荐系统学习笔记11:涨指标的方法1
1 概述1.1 推荐系统的评价指标日活用户数(DAU)和留存是最核⼼的指标,目前工业界最常用 LT7 和 LT30 衡量留存。
假设某用户今天($t_0$)登录 APP,未来 7 天($t_0 \sim t_6$)中有 4 天登录 APP,那么该用户今天($t_0$)的 LT7 等于 4。对于所有今天登录的用户,取 LT7 的平均就是整个 APP 今天的 LT7指标。LT30 的定义也是类似的,很显然有 $1 ≤ \operatorname{LT7} ≤ 7$ 和 $1 ≤ \operatorname{LT30} ≤ 30$。
像抖音小红书这样的推荐系统,算法工程师最重要的目标就是提升 LT。LT 的增长通常意味着用户体验提升(除非 LT 增长且 DAU下降)。假设 APP 禁止低活用户登录,则 DAU 下降,LT 增长。由于 LT 存在这种问题,所以如果模型或者策略的 LT 有所提升,还要看一下 DAU,要确保 DAU 不下降。
其他核⼼指标:用户使用时长、总阅读数(即总点击数)、总曝光数。这些指标的重要性低于 DAU 和留存。比如时长增长,LT 通常会增长。但是时长增长,阅读数、曝 ...
读书记录2:月亮与六便士
《月亮和六便士》是英国小说家威廉·萨默赛特·毛姆创作的长篇小说,成书于1919年。
1 前言在十月初的时候就读完了这本书,第一次了解到这本书是在高中,当时书店里有卖这本书,而且很火,但是自己一直没有读书的习惯,所以从来没看过。现在读完之后给我带来的感受是非常深刻的,一个人可以为自己的理想付出到什么地步,这是让我震惊的。而我的理想又是什么呢?不禁让我发问,最后看到毛姆对斯特里克兰在墙壁上作画的描写,感觉是这本书的高潮。
现在有时间写下此文,希望能一直激励我不断前进。希望我有一个自由的灵魂,随便飞到哪里都可以。
2 经典语录
满地都是六便士,他却抬头看见了月亮。
凡是他维护体面的,都被说成虚伪;凡是他铺陈渲染的,都被当作谎言;凡是对某些事保持沉默的,干脆被斥为背叛。
为了使灵魂安宁,一个人每天至少该做两件他不喜欢的事。
我们为自己荒诞不经的行为,蒙上一层体面的缄默,并不觉得虚伪。
同情心应该像一口油井;惯爱表现同情的人却让它喷涌而出,反而让不幸的人受不了。
文明人践行一种奇怪的才智:他们把短暂的生命浪费在烦琐的事务上。
卑鄙与高尚,邪恶与善良,仇恨与热爱, ...
WSS推荐系统学习笔记10:物品冷启动2
1 Look-Alike 人群扩散1.1 在互联网广告中的应用Look-Alike 起源于互联网广告。假设一个广告主是特斯拉,它们知道Tesla Model 3 典型用户有以下特点:
年龄 25~35
本科学历以上
关注科技数码
喜欢苹果电子产品
把具有上述特点的用户给圈起来,重点在这些用户中投放广告。满足所有条件的用户被称为种子用户,这样的用户数量不是很多。广告主想给一百万个人投放广告,但是我们只圈出几万人,该如何找到其他的目标用户?
可以用到 Look-Alike 人群扩散,对种子用户进行人群扩散找到 Look-Alike 用户,Look-Alike 是一个框架,如何进行扩散,有各种各样的方法。
最重要的问题在于如何计算两个用户的相似度,有一些简单的方法:
UserCF:两个用户有共同的兴趣点
Embedding:两个用户向量的cosine较大
1.2 用于新笔记召回在冷启动中,如果用户有点击、点赞、收藏、转发等行为,说明用户对笔记可能感兴趣。把有交互的用户作为新笔记的种子用户,如果一个用户和种子用户相似,可以把这个笔记推荐给他,用 Look-Alike 在相似用户中扩散 ...
WSS推荐系统学习笔记9:物品冷启动1
1 优化目标&评价指标UGC 比 PGC 更难,因为用户上传的内容质量良莠不齐,而且量很大,很难用人工去评判,很难让运营人员去调控。
为什么要特殊对待新笔记?因为新笔记刚刚那个发布,缺少与用户的交互,导致推荐的难度大、效果差。此外,扶持新发布、低曝光的笔记,可以增强作者发布意愿。
优化冷启的目标:
精准推荐:克服冷启的困难,把新笔记推荐给合适的用户,不引起用户反感。
激励发布:流量向低曝光新笔记倾斜,激励作者发布。
挖掘高潜:通过初期小流量的试探,找到高质量的笔记,给予流量倾斜。
冷启动的评价指标主要包含作者侧、用户侧和内容侧:
作者侧指标:发布渗透率、人均发布量。
用户侧指标:
新笔记指标:新笔记的点击率、交互率。
大盘指标:消费时长、日活、月活。
内容侧指标:高热笔记占比,可以反应出冷启是否能挖掘出优质笔记。
作者侧和用户侧指标是工业界通用的,技术比较好的大厂都会用这两类指标。内容侧指标只有少数几家在用。
冷启动的优化点为优化全链路(包括召回和排序)和流量调控(流量怎么在新物品、老物品中分配)。
1.1 作者侧指标作者侧指标主要有发布渗透率和人均发布量。
1.1 ...
WSS推荐系统学习笔记8:重排
1 推荐系统中的多样性1.1 物品相似性的度量可以基于物品属性标签:类目、品牌、关键词……如果两个物品相同的属性标签越多,那么两个物品就越相似。
也可以使用基于物品的向量表征,用召回的双塔模型学到的物品向量表征效果不太好,但是使用基于内容的向量表征效果比较好,也就是使用 CV 和 NLP 模型提取图片和文字的特征向量。
1.2 基于物品属性标签物品属性标签通常是 CV 和 NLP 算法根据物品内容推断出的,不一定准确,可以根据一级类目、二级类目、品牌等标签计算相似度。例如有两个物品:
物品 $i$:美妆、彩妆、香奈儿
物品 $j$:美妆、香水、香奈儿
则相似度为 $\operatorname{sim}_{1}(i, j)=1, \operatorname{sim}_{2}(i, j)=0, \operatorname{sim}_{3}(i, j)=1$,对三个分数求加权和,即可得到相似度的总分,其中的权重需要根据经验设置。
1.3 基于向量表征计算相似度双塔模型的两个塔分别把用户特征和物品特征映射成向量,记作 $a$ 和 $b$,两个向量的余弦相似度 ...
WSS推荐系统学习笔记7:用户行为序列建模
1 LastN 特征LastN 表示用户最近的 $n$ 次交互(点击、点赞等)的物品 ID,可以反应出来用户最近对什么物品感兴趣。召回的双塔模型、粗排的三塔模型和精排模型都可以使用 LastN 特征,LastN 特征很有效。
如下图所示,对 LastN 物品 ID 做 embedding,得到 $n$ 个向量。把 $n$ 个向量取平均得到一个向量,这个向量作为用户的⼀种特征,表示用户曾经对什么样的物品感兴趣。
小红书的召回、粗排和精排都用到了 LastN 特征。可以对用户的最近点击过的、点赞过的和收藏过的物品 ID 做嵌入,然后取平均后得到相应的向量,把这些向量拼起来作为一种特征,用于召回等步骤。
2 DIN 模型(注意力机制)2.1 工作原理上面介绍的 LastN 特征是对嵌入后的向量取平均,但是取平均不是最好的方法。最近几年有很多论文提出了对 LastN 特征序列建模更好的方法。其中 DIN 是阿里在 2018 年提出的。
想法很简单,就是用加权平均代替平均,即注意力机制(attention)。其中权重是候选物品与用户 LastN 物品的相似度,哪个 LastN 物品和候选物 ...
读书记录1:许三观卖血记
《许三观卖血记》是中国当代作家余华创作的长篇小说,首次发表于《收获》1995年第6期。
1 前言最近刚读完了余华的《许三观卖血记》,在之前读过了余华的《活着》,当时读《活着》的时候就感触很深,福贵很惨,他的家人不断离他而去:父母、伴侣、孩子、孙子,最后只有一头老牛和他相依为命。所以在读《许三观卖血记》的时候,一看到这个名就知道肯定和《活着》的内容差不多,讲一个人命运很苦的,而且最后的下场很惨。但是《许三观卖血记》是余华笔下为数不多的幸福大结局的书籍,接下来就写下读完这本书的一些感悟。
2 经典句子
事情都是被逼出来的,人只有被逼上绝路了,才会有办法,没上绝路以前,不是没想到办法,就是想到了也不知道该不该去做。
就算是你不是我的儿子,就算再骂你,你饿了还是要给你买面吃。
我今天算是知道什么叫血汗钱了,我在工厂里挣的是汗钱,今天挣的是血钱。
这苦日子什么时候能完?小崽子苦得都忘记什么是甜,吃了甜的都想不起来这就是糖。
他的泪水在他的脸上纵横交错地流,就像雨水打在窗玻璃上,就像裂缝爬上快要破碎到碗,就像蓬勃生长出去的树枝,就像渠水流进了田地,就像街道布满了城镇,泪水在他 ...
WSS推荐系统学习笔记6:特征交叉
1 Factorized Machine(FM)1.1 线性模型设模型有 $d$ 个特征,记作 $\mathbf{x}=\left[x_{1}, \cdots, x_{d}\right]$,则线性模型:
$$p=b+\sum_{i=1}^{d} w_{i} x_{i}$$
模型有 $d+1$ 个参数:$\mathbf{w}=\left[w_{1}, \cdots, w_{d}\right]$ 和 $b$(偏移项),预测是特征的加权和(只有加,没有乘)。
1.2 二阶交叉特征线性模型 + 二阶交叉特征,其中的 $x_{i} x_{j}$ 是两个特征的交叉,$u_{ij}$ 是两个特征交叉的权重,两个特征不仅能够相加,还能够相乘:
$$p=b+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=i+1}^{d} u_{i j} x_{i} x_{j}$$
模型有 $O\left(d^{2}\right)$ 个参数,如果 $d$ 比较小,那么这样的模型没有什么问题。 ...