WSS推荐系统学习笔记8:重排
1 推荐系统中的多样性
1.1 物品相似性的度量
可以基于物品属性标签:类目、品牌、关键词……如果两个物品相同的属性标签越多,那么两个物品就越相似。
也可以使用基于物品的向量表征,用召回的双塔模型学到的物品向量表征效果不太好,但是使用基于内容的向量表征效果比较好,也就是使用 CV 和 NLP 模型提取图片和文字的特征向量。
1.2 基于物品属性标签
物品属性标签通常是 CV 和 NLP 算法根据物品内容推断出的,不一定准确,可以根据一级类目、二级类目、品牌等标签计算相似度。例如有两个物品:
- 物品 $i$:美妆、彩妆、香奈儿
- 物品 $j$:美妆、香水、香奈儿
则相似度为 $\operatorname{sim}_{1}(i, j)=1, \operatorname{sim}_{2}(i, j)=0, \operatorname{sim}_{3}(i, j)=1$,对三个分数求加权和,即可得到相似度的总分,其中的权重需要根据经验设置。
1.3 基于向量表征计算相似度
双塔模型的两个塔分别把用户特征和物品特征映射成向量,记作 $a$ 和 $b$,两个向量的余弦相似度 $\cos(a, b)$ 记作用户对物品的兴趣。
在多样性问题上,我们只需要物品塔的输出,物品塔把每个物品表征为一个向量 $b$,如果两个物品相似,则向量表征的内积相似度比较大,或者余弦相似度比较大。
把物品塔学习到的物品表征用在多样性问题上是可以的,但是效果一般,原因是推荐系统中的头部现象很严重,曝光和点击都集中在少数物品,新物品和长尾物品的曝光和点击都很少,双塔模型学不好它们的向量表征。
1.4 基于图文内容的物品表征
在多样性问题上,最好的办法还是基于图文内容的向量表征。分别使用 CNN 和 BERT 对图片和文本内容进行处理,得到两个向量。
但是如何训练这两个模型呢?CLIP 是当前公认最有效的预训练⽅法。
- 思想: 对于图片—文本二元组,预测图文是否匹配
- 优势:无需人工标注。小红书的笔记天然包含图片+文字,大部分笔记图文相关
做训练的时候,同一个笔记的图片和文字作为正样本,图片的向量和文字的向量应该高度相似,如果图片和文字来自不同的笔记,那么可以当作负样本。可以使用 batch 内负样本,一个 batch 内有 $m$ 对正样本,一张图片和 $m - 1$ 条文本组成负样本,则这个 batch 内一共有 $m(m-1)$ 对负样本。
1.5 提升多样性的方法
推荐系统的链路
粗排和精排用多目标模型对物品做 pointwise 打分,而不用考虑物品之间的关联。对于物品 $i$,模型输出点击率、交互率的预估,融合成分数 $\operatorname{reward}_i$。
$\operatorname{reward}_i$ 表示用户对物品 $i$ 的兴趣,在排序中,$\operatorname{reward}_i$ 是物品本⾝对用户的价值。
给定 $n$ 个候选物品,排序模型打分,得到:
$$
\text{reward}_1 ,\operatorname{reward}_{2} , \cdots, \operatorname{reward}_{n}
$$
对于粗排,$n$ 为几千;对于精排,$n$ 为几百。后处理的主要作用是提高多样性,需要从 $n$ 个候选物品中选出 $k$ 个,既要它们的总分高,也需要它们有多样性。如果不考虑多样性,那么只需要根据 $\operatorname{reward}_i$ 对 $n$ 个物品排序选出 TopK。在实践中,增加物品的多样性有利于增加指标。
精排的后处理被称为重排,粗排后也需要多样性算法。
2 MMR
2.1 原理
MMR(Maximal Marginal Relevance)搜索的结果主要就是根据相关性做排序,MMR 是先被用到搜索排序,后被用到推荐排序。
精排给 $n$ 个候选物品打分,融合之后的分数为:
$$
\operatorname{reward}_{1} ,\operatorname{reward}_{2} , \cdots, \operatorname{reward}_{n}
$$
精排中 $n$ 的大小通常是几百,把第 $i$ 和 $j$ 个物品的相似度记作 $\operatorname{sim}(i, j)$,可以是用物品标签计算出的,也可以是用向量表征计算出的。在精排的后处理阶段也就是重排,需要从 $n$ 个候选物品中选出 $k$ 个,选出的物品既要有高精排分数,也要有多样性。
下面介绍 MMR 多样性算法,下图中左边的物品是选中的物品,右边是未选中的物品。
计算集合 ℛ 中每个物品 $i$ 的 Marginal Relevance 分数,也就是给未选中的物品打分:
$$
\mathrm{MR}_{i}=\theta \cdot \operatorname{reward}_{i}-(1-\theta) \cdot \max _{j \in \mathcal{S}} \operatorname{sim}(i, j)
$$
MR 由两项组成:
- $\operatorname{reward}_i$ 表示物品 $i$ 的精排分数
- $\max _{i \in S} \operatorname{sim}(i, j)$ 表示物品 $i$ 的多样性分数,计算 $i$ 与 $j$ 的相似度,再关于 $j$ 求最大化,这样可以衡量 $i$ 与集合 $\mathcal{S}$ 的相似度
- $\theta$ 越大,则物品价值对排序的影响越大;反之越小,则对排序的影响越小
MMR 就是对 MR 分数求最大化,对于所有未选中的物品 $i$,计算出它的 $\operatorname{MR}_i$,并选出分数最高的物品:
$$
\underset{i \in \mathcal{R}}{\operatorname{argmax}} \mathrm{MR}_{i}
$$
每一轮都需要计算出集合 $\mathcal{R}$ 中所有物品的分数,然后选出分数最高的物品,把这个物品从集合 $\mathcal{R}$ 移动到集合 $\mathcal{S}$。
2.2 总结
总体步骤如下:
- 选中的物品 $\mathcal{S}$ 初始化为空集,未选中的物品 ℛ 初始化为全集 ${1, \cdots, n}$。
- 选择精排分数 $\operatorname{reward}_{i}$ 最高的物品,从集合 ℛ 移到 $\mathcal{S}$。
- 做 $k-1$ 轮循环:
- 计算集合 ℛ 中所有物品的分数 $\{\mathrm{MR}_{i} \}_{i \in \mathcal{R}}$。
- 选出分数最高的物品,将其从 ℛ 移到 $\mathcal{S}$。
2.3 滑动窗口
$$
\text{MMR}: \underset{i \in \mathcal{R}}{\operatorname{argmax}}\{\theta \cdot \operatorname{reward}_{i}-(1-\theta) \cdot \max _{j \in \mathcal{S}} \operatorname{sim}(i, j)\}
$$
使用上述公式存在的问题:已选中的物品越多(即集合 $\mathcal{S}$ 越大),越难找出物品 $i \in \mathcal{R}$,使得 $i$ 与 $\mathcal{S}$ 中的物品都不相似。设 sim 的取值范围是 $[0, 1]$。当 $\mathcal{S}$ 很大时,多样性分数 $\max _{j \in \mathcal{S}} \operatorname{sim}(i, j)$ 总是约等于 1,导致 MMR 算法失效。
解决方案是使用滑动窗口:设置一个滑动窗口 $\mathcal{W}$,比如最近选中的 10 个物品,用 $\mathcal{W}$ 代替 MMR 公式中的 $\mathcal{S}$,这样就可以解决上述问题。
改进后的公式如下,上面的公式用集合 $\mathcal{S}$,下面的公式用集合 $\mathcal{W}$。
工业界实际的重排都是用滑动窗口。
3 重排的规则
规则:最多连续出现 $k$ 篇某种笔记
小红书推荐系统的物品分为图文笔记、视频笔记。最多连续出现 $k=5$ 篇图文笔记,最多连续出现 $k=5$ 篇视频笔记。如果排 $i$ 到 $i+4$ 的全都是图文笔记,那么排在 $i+5$ 的必须是视频笔记。
规则:每 $k$ 篇笔记最多出现 1 篇某种笔记
运营推广笔记的精排分会乘以大于 1 的系数(boost),帮助笔记获得更多曝光。为了防⽌ boost 影响体验,限制每 $k=9$ 篇笔记最多出现 1 篇运营推广笔记。如果排第 $i$ 位的是运营推广笔记,那么排 $i+1$ 到 $i+8$ 的不能是运营推广笔记。
规则:前 $t$ 篇笔记最多出现 $k$ 篇某种笔记
排名前 $t$ 篇笔记最容易被看到,对用户体验最重要(小红书的 top 4 为⾸屏)。小红书推荐系统有带电商卡片的笔记,过多可能会影响体验。
- 前 $t=1$ 篇笔记最多出现 $k=0$ 篇带电商卡片的笔记
- 前 $t=4$ 篇笔记最多出现 $k=1$ 篇带电商卡片的笔记
MMR 每一轮选出一个物品:
工业界推荐系统在做重排的时候需要结合 MMR 与规则,在满⾜规则的前提下最大化 MR。每一轮先用规则排除掉 $\mathcal{R}$ 中的部分物品,得到⼦集 $\mathcal{R}’$。MMR 公式中的 $\mathcal{R}$ 替换成⼦集 $\mathcal{R}’$,选中的物品符合规则。
4 DPP 数学基础
4.1 超平面体
2 维空间的超平行体为平行四边形,平行四边形中的点可以表示为:
$$
\boldsymbol{x}=\alpha_{1} \boldsymbol{v}_1 +\alpha_{2} \boldsymbol{v}_{2}
$$
- 系数 $\alpha_1$ 和 $\alpha_2$ 的取值范围是 $[0, 1]$
3 维空间的超平行体为平行六面体,平行六面体中的点可以表示为:
$$
\boldsymbol{x}=\alpha_{1} \boldsymbol{v}_1 +\alpha_{2} \boldsymbol{v}_{2} +\alpha_{3} \boldsymbol{v}_{3}
$$
一组向量 $\boldsymbol{v}_{1} , \cdots, \boldsymbol{v}_{k} \in \mathbb{R}^{d}$ 可以确定一个 $k$ 维超平行体:
$$
\mathcal{P}(\boldsymbol{v}_{1}, \cdots, \boldsymbol{v}_{k})=\{\alpha_{1} \boldsymbol{v}_{1}+\cdots+\alpha_{k} \boldsymbol{v}_{k} \mid 0 \leq \alpha_{1}, \cdots, \alpha_{k} \leq 1\}
$$
要求 $k \leq d$,比如 $d=3$ 维空间中有 $k=2$ 维平行四边形。如果 $v_{1}, \cdots, v_{k}$ 线性相关,则体积 $\operatorname{vol}(\mathcal{P})=0$。例如,有 $k=3$ 个向量,落在一个平面上,则平行六面体的体积为 0。
4.2 如何衡量物品多样性
平行四边形的面积
计算公式如下,即以 $v_1$ 为底,计算高 $q_2$,两个向量必须正交。
$$
面积 =| 底 \left|_{2} \times\right| 高 |_{2}
$$
以 $v_1$ 为底,如何计算高 $q_2$?首先计算 $v_2$ 在 $v_1$ 上的投影:
$$
\operatorname{Proj}_{v_{1}}\left(v_{2}\right)=\frac{v_{1}^{T} v_{2}}{\left|v_{1}\right|_{2}^{2}} \cdot v_{1}
$$
然后 $\boldsymbol{q}_{2}=\boldsymbol{v}_{2}-\operatorname{Proj}_{\boldsymbol{v}_{1}}\left(\boldsymbol{v}_{2}\right)$,此时底 $v_1$ 与高 $q_2$ 正交。
给定 $k$ 个物品,把它们表征为单位向量 ${v}_{1}, \cdots, {v}_{k} \in \mathbb{R}^{d} (d \geq k)$。用超平行体的体积衡量物品的多样性,体积介于 0 和 1 之间。
- 如果 $v_{1}, \cdots, v_{k}$ 两两正交(多样性好),则体积最大化 $\mathrm{vol}=1$
- 如果 $v_{1}, \cdots, v_{k}$ 线性相关(多样性差),则体积最小化 $\mathrm{vol}=0$
把上述单位向量 $v_{1}, \cdots, v_{k} \in \mathbb{R}^{d}$ 作为矩阵 $\boldsymbol{V} \in \mathbb{R}^{d \times k}$ 的列,设 $d \geq k$,则行列式与体积满足:
$$
\operatorname{det}\left({V}^{T} {V}\right)=\operatorname{vol}\left(\mathcal{P}\left({v}_{1}, \cdots, {v}_{k}\right)\right)^{2}
$$
因此可以用行列式 $\operatorname{det}\left({V}^{T} {V}\right)$ 衡量向量 $v_{1}, \cdots, v_{k}$ 的多样性。
5 DPP 多样性算法
5.1 多样性问题
精排给 $n$ 个候选物品打分为 $\operatorname{reward}_{1}, \cdots, \operatorname{reward}_{n}$ 表示物品的价值,$n$ 个物品的向量表征为 $\boldsymbol{v}_{1}, \cdots, \boldsymbol{v}_{n} \in \mathbb{R}^{d}$,之后从 $n$ 个物品中选出 $k$ 个物品,组成集合 $\mathcal{S}$,做选择要考虑两个因素:
- 价值大:分数之和 $\sum_{j \in \mathcal{S}} \operatorname{reward}_{j}$ 越大越好
- 多样性好:$\mathcal{S}$ 中 $k$ 个向量组成的超平形体 $\mathcal{P}(\mathcal{S})$ 的体积越大越好,体积越大,多样性越好
集合 $\mathcal{S}$ 中的 $k$ 个物品的向量作为列,组成矩阵 ${V}_{\mathcal{S}} \in \mathbb{R}^{d \times k}$。以这 $k$ 个向量作为边,组成超平形体 $\mathcal{P}(\mathcal{S})$。体积 $\operatorname{vol}(\mathcal{P}(\mathcal{S}))$ 可以衡量 $\mathcal{S}$ 中物品的多样性。
设 $k \leq d $,行列式与体积满⾜:
$$
\operatorname{det}\left({V}_{\mathcal{S}}^{T} {V}_{\mathcal{S}}\right)=\operatorname{vol}(\mathcal{P}(\mathcal{S}))^{2}
$$
5.2 行列式点过程
DPP 是一种传统的统计机器学习⽅法:
$$
\underset{\mathcal{S} :\mid \mathcal{S | = k}}{\operatorname{argmax}} \log \operatorname{det}\left({V}_{\mathcal{S}}^{T} {V}_{\mathcal{S}}\right)
$$
Hulu 的论文(Fast greedy map inference for determinantal point process to improve recommendation diversity)将 DPP 应用在推荐系统:
$$
\underset{S:|S |=k}{\operatorname{argmax}} \theta \cdot\left(\sum_{j \in S} \operatorname{reward}_{j}\right)+(1-\theta) \cdot \log \operatorname{det}\left({V}_{S}^{T} {V}_{S}\right)
$$
把上面 ${V}_{S}^{T} {V}_{S}$ 记作 $A_S$,它的大小是 $k\times k$,则上述公式可以替换成下面这种形式:
$$
\underset{S:|S |=k}{\operatorname{argmax}} \theta \cdot\left(\sum_{j \in S} \operatorname{reward}_{j}\right)+(1-\theta) \cdot \log \operatorname{det}\left(A_S\right)
$$
DPP 是个组合优化问题,从集合 ${1, \cdots, n}$ 中选出一个大小为 $k$ 的⼦集 $\mathcal{S}$。用 $\mathcal{S}$ 表示已选中的物品,用 $\mathcal{R}$ 表示未选中的物品,贪⼼算法求解:
$$
\underset{i \in \mathcal{R}}{\operatorname{argmax}} \theta \cdot \operatorname{reward}_{i}+(1-\theta) \cdot \log \operatorname{det}\left({A}_{\mathcal{S} \cup{i}}\right)
$$
${A}_{\mathcal{S} \cup{i}}$ 表示在矩阵 $A_S$ 基础上增加 $i$ 这一行和一列,目的是让增加后的矩阵的行列式尽量大,这样可以保证选出的物品与物品 $i$ 尽量不相似,如果有物品和 $i$ 相似,那么行列式就会接近 0。
5.3 求解 DPP
5.3.1 暴力算法
对于单个 $i$,计算 ${A}_{\mathcal{S} \cup {i}}$ 的行列式需要 $O\left(|\mathcal{S}|^{3}\right)$时间。对于所有的 $i \in \mathcal{R}$,计算行列式需要时间 $O\left(|\mathcal{S}|^{3} \cdot|\mathcal{R}|\right)$。
需要求解上式 $k$ 次才能选出 $k$ 个物品。如果暴力计算行列式,那么总时间复杂度为:
$$
O\left(n^2d\right) + O\left(|\delta|^{3} \cdot|\mathcal{R}| \cdot k\right)=O\left(n^2d\right)+O\left(n k^{4}\right)
$$
- $O(n^2d)$ 是计算矩阵 $A$ 的时间
- $O(nk^4)$ 是计算行列式的时间
$n$ 的量级是几百,$k$ 和 $d$ 的量级都是几十,这个时间复杂度看起来可行,但是由于系统留给多样性算法的时间也就是 10ms 左右,所以太慢了。
5.3.2 Hulu的快速算法
Hulu 的论文设计了一种数值算法,仅需 $O\left(n^{2} d+n k^{2}\right)$ 的时间从 $n$ 个物品中选出 $k$ 个物品。
- 给定向量 ${v}_{1}, \cdots, {v}_{n} \in \mathbb{R}^{d}$,需要 $O\left(n^{2} d\right)$ 时间计算 $A$
- 用 $O(nk^2)$ 的时间计算所有的行列式(利用 Cholesky 分解)
Cholesky 分解 ${A}_{\delta}={L} {L}^{T}$,其中 $L$ 是下三角矩阵(对角线以上的元素全零)。Cholesky 分解可供计算 $A_S$ 的行列式:
- 下三角矩阵 $L$ 的行列式 $\operatorname{det}({L})$ 等于 $L$ 对角线元素乘积
- $A_S$ 的行列式为 $\operatorname{det}\left({A}_{S}\right)=\operatorname{det}({L})^{2}=\prod_{i} l_{i i}^{2}$
已知 ${A}_{\delta}={L} {L}^{T}$,则可以快速求出所有 ${A}_{\mathcal{S} \cup {i}}$ 的 Cholesky 分解,因此可以快速算出所有 ${A}_{\mathcal{S} \cup {i}}$ 的行列式。
$$
\underset{i \in \mathcal{R}}{\operatorname{argmax}} \theta \cdot \operatorname{reward}_{i}+(1-\theta) \log \operatorname{det}\left(\boldsymbol{A}_{S \cup{i}}\right)
$$
初始时 $\mathcal{S}$ 中只有一个物品,$A_S$ 是 1×1 的矩阵,之后每一轮循环,基于上一轮算出的 ${A}_{\delta}={L} {L}^{T}$,快速求出增加一行一列后的 ${A}_{\mathcal{S} \cup \{i\}}$ 的 Cholesky 分解 $(\forall i \in \mathcal{R})$,从⽽求出 $\log \operatorname{det}\left({A}_{S\cup\{i\}}\right)$ 。
5.4 DPP 的扩展
5.4.1 滑动窗口
随着集合 $\mathcal{S}$ 增大,其中相似物品越来越多,物品向量会趋近线性相关。则行列式 $\operatorname{det}\left({A}_{S}\right)$ 会坍缩到零,对数趋于负无穷,此时 DPP 就失效了。
用滑动窗口 $\mathcal{W}$ 代替集合 $\mathcal{S}$,只考虑最近选中的一批物品,不考虑很久之前的物品。
5.4.2 规则约束
贪⼼算法每轮从 $\mathcal{R}$ 中选出一个物品:
$$
\underset{i \in \mathcal{R}}{\operatorname{argmax}} \theta \cdot \operatorname{reward}_{i}+(1-\theta) \cdot \log \operatorname{det}\left({A}_{\mathcal{W} \cup\{i\}}\right)
$$
实际的推荐系统中有很多规则约束,例如最多连续出 5 篇视频笔记(如果已经连续出了 5 篇视频笔记,下一篇必须是图文笔记)。由于存在这些规则,算法不能从集合 $\mathcal{R}$ 中选择物品,只能从符合规则约束的物品中进行选择。
首先用规则排除掉 $\mathcal{R}$ 中的部分物品,得到⼦集 $\mathcal{R}’$,然后求解下面的公式:
$$
\underset{i \in \mathcal{R}’}{\operatorname{argmax}} \theta \cdot \operatorname{reward}_{i}+(1-\theta) \cdot \log \operatorname{det}\left({A}_{\mathcal{W} \cup\{i\}}\right)
$$