1 Factorized Machine(FM)

1.1 线性模型

设模型有 $d$ 个特征,记作 $\mathbf{x}=\left[x_{1}, \cdots, x_{d}\right]$,则线性模型:

$$
p=b+\sum_{i=1}^{d} w_{i} x_{i}
$$

模型有 $d+1$ 个参数:$\mathbf{w}=\left[w_{1}, \cdots, w_{d}\right]$ 和 $b$(偏移项),预测是特征的加权和(只有加,没有乘)。

1.2 二阶交叉特征

线性模型 + 二阶交叉特征,其中的 $x_{i} x_{j}$ 是两个特征的交叉,$u_{ij}$ 是两个特征交叉的权重,两个特征不仅能够相加,还能够相乘:

$$
p=b+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=i+1}^{d} u_{i j} x_{i} x_{j}
$$

模型有 $O\left(d^{2}\right)$ 个参数,如果 $d$ 比较小,那么这样的模型没有什么问题。如果 $d$ 比较大,那么参数数量就太大了,计算代价会很大,而且很容易出现过拟合。

1.3 如何减少特征数量

重点关注交叉特征的权重 $u_{ij}$,可以把所有的小 $u$ 矩阵构成矩阵 $U$。矩阵 $U$ 有 $d$ 行和 $d$ 列,是一个对称矩阵,所以可以做矩阵近似。用矩阵 $V$ 乘 $V^T$ 来近似矩阵 $U$,其中矩阵 $V$ 是 $d$ 行 $k$ 列,$k$ 越大,则乘积越接近于矩阵 $U$。

则公式可以转换成以下:

$$
\begin{array}{l}p=b+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=i+1}^{d} u_{i j} x_{i} x_{j} . \\\approx b+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=i+1}^{d} \mathbf{v}_{i}^{T} \mathbf{v}_{j} b x_{i} x_{j} . \end{array}
$$

Factorized Machine(FM):

$$
p=b+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=i+1}^{d}\left(\mathbf{v}_{i}^{T} \mathbf{v}_{j}\right) x_{i} x_{j}
$$

FM 模型有 $O(kd)$ 个参数($k \ll d$),这样使得推理的计算量更小,而且不容易出现过拟合。

总结:FM 是线性模型的替代品,能用线性回归、逻辑回归的场景,都可以用 FM。FM 使用二阶交叉特征,表达能力比现行模型更强。FM 通过做近似 $u_{i j} \approx \mathbf{v}_{i}^{T} \mathbf{v}_{j}$,FM 把二阶交叉权重的数量从 $O(d^2)$ 降低到 $O(kd)$。


2 深度交叉网络(DCN)

2.1 召回、排序框架

双塔模型:后期融合,两个塔计算出向量之后再计算余弦相似度,其中的网络结构可以任意配置。双塔是一种框架,而不是具体的网络。

多目标排序:网络结构可以任意配置,这个神经网络可以被多个任务共享,称为 shared bottom。

MMoE:网络结构可以任意配置。

2.2 交叉层

由下图可知,这个网络的参数都在全连接层中,其余的操作没有可学习的参数。

上述过程可以表示为以下公式,其中把输入和输出相加是残差网络中的跳跃连接:

2.3 交叉网络

向量 $x_o$ 是 Cross Network 的输入,之后送入上面介绍的交叉层,交叉层输出向量 $x_1$,之后把 $x_0$ 和 $x_1$ 再送入下一个交叉层,以此类推可以加入多个交叉层。

2.4 深度交叉网络

推荐系统的输入是将用户特征、物品特征和其他特征做拼接后送入神经网络,上面的是全连接网络,下面的是交叉网络,两个网络并联。两个网络各输出一个向量,之后把这两个向量做拼接,再送入全连接层,最后再输出一个向量。

以上模型架构就是 DCN,可以用于召回和排序,现在在工业界中已经被广泛应用。


3 LHUC 网络结构

Learning Hidden Unit Contributions(LHUC)起源于语音识别,快手将 LHUC 应用在推荐精排,称作 PPNet。目前 LHUC 只能用于精排。

3.1 语音识别中的 LHUC

语音识别的输入是一段语音信号,我们希望通过对语音信号进行处理,对特征进行变化,然后得到语音中的文字。语音是人说的,不同的人声音会有所区别,所以最好加入一些说话者的特征。

将说话者的特征送入神经网络,这个神经网络是多个全连接层和 Sigmoid 乘以 2,这样神经网络的输出介于 $[0, 2]$ 之间。之后与语音信号通过全连接层的输出做哈达玛积,这样有的语音信号被放大,有的被缩小。

把哈达玛积再送入下一个网络,之后再和另一个向量做哈达玛乘积,最后作为 LHUC 的输出。

3.2 推荐系统排序模型中的 LHUC

在推荐系统中,两个特征变成了物品特征和用户特征,其他和上面介绍的相同。


4 SENet & Bilinear Cross

4.1 SENet

SENet 发表在2018年的 CVPR,应用在 CV 领域上,可以将其应用到推荐系统领域。推荐系统用到的离散特征有用户 ID、物品 ID、物品类目和物品关键词等,之后对这些离散特征做 Embedding。设一共有 $m$ 个特征,每个特征是一个 $k$ 维向量,可以把所有特征表示成一个 $m \times k$ 的矩阵。

之后对 $m \times k$ 的矩阵做 AvgPool,得到一个 $m \times 1$ 的向量,向量的每一个元素对应一个离散特征。用一个全连接层和 ReLU 激活函数把 $m$ 维的向量压缩为 $\frac{m}{r}$ 维的向量,再恢复到 $m$ 维的向量。之后把这个向量和最初的 $m \times k$ 的矩阵相乘,还是得到一个 $m \times k$ 的矩阵。

在对每个特征做嵌入时,嵌入的维度可以不同:

SENet 的本质是对离散特征做 field-wise 加权。例如,用户 ID Embedding 是 64 维向量,64 个元素算⼀个 field,获得相同的权重。如果有 $m$ 个 fields,那么权重向量是 $m$ 维。

4.1.1 特征交叉:内积和哈达玛积

如果用向量内积做交叉, 最终得到 $m^2$ 个实数。如果用哈达玛乘积做交叉,最终得到 $m^2$ 个向量,必须要人工选一些 pair 做交叉,不能对所有的特征做交叉。在做内积和哈达玛乘积的时候,必须要求两个向量形状相同,如果不同,就不能做内积和哈达玛乘积。

4.1.2 特征交叉:Bilinear Cross

在上述基础上增加了 $W_{ij}$ 矩阵,最终得到 $m^2$ 个实数,同时也会有 $\frac{m^2}{2}$ 个参数矩阵,

用哈达玛乘积替换内积操作,同时也要人工指定一部分特征做交叉:

4.2 FiBiNet

把 SENet 和 Bilinear Cross 结合起来就是 FiBiNet,文章发表在 2019 年。FiBiNet 用 SENet 加权和 BiLinear 用在精排模型上确实有收益。