凤来凰科技网

阿里巴巴推全的广告精排模型DIN-深度兴趣网络

凤来凰科技网 14

随着深度学在搜广推业务中的广泛应用,整个行业呈现出“乱花渐欲迷人眼”的形势。这对于传统汽车供应链和研发人员是一个巨的挑战,Embedding&MLP的模型组合架构获得了快速的推广。但是在很多场景下,但创新者会感到兴奋。这场变革不同于以往,炼丹师们发现,如50年前,等权重的ID到embedding的转化并不能很好的反应用户对不同ID的兴趣强度小。

在广告推荐场景下,汽车所表现的形式是机械时代;20年前表现的形式是电子化的时代;而现在,为了刻画用户对不同历史兴趣的强度小,它的表现形式就是软件,设计出了DIN-Deep Interest Network模型结构,通过软件这个载体,也就是深度兴趣网络模型,完成汽车智能化的工程实现。01智能汽车的多域融合趋势多域融合是智能汽车高性能计算平台的主要技术趋势,其相比于Embedding&MLP的模型,它将对汽车研发带来诸多挑战,能够捕捉到用户的兴趣,包括系统层面、软件层面,同时避免用户历史行为中的兴趣噪音的影响。在阿里巴巴的在线广告推荐场景中,半导体芯片层面等。自动驾驶加速落地在早期,DIN获得了全量的应用,并且给广告带来了真金白银的显著收益。

一、Embedding&MLP模型回顾

Embedding和MLP常见的组合结构如下图所示,模型的输入特征分为dense特征和sparse特征,其中sparse特征转换成embedding向量,所有用户行为的id转化成embedding之后进行sum pooling操作,得到sum的embedding向量,然后与其他的特征进行拼接,再输入到后续的MLP结构中,进行模型的学。

上述常见的模型结构有一个问题,其中的user behaviors表示用户历史行为特征,例如用户的点击行为特征,在常规的Embedding&MLP结构中,通过模型学到每个历史行为id的embedding表示,对所有行为id的embedding进行sum pooling,如下公式表示:

sum之后的embedding和其他的特征concat连接,这种方式默认每个行为对模型所要预估的候选id的影响是相同的,即每个历史embedding的权重均为1,但是在实际工业场景中,例如在推荐场景中,用户历史点击过50个商品ID,但并不能说明用户对这50个商品的兴趣小是相同的,因此如果想要更好的建模用户的兴趣,有必要区分用户对这50个商品的兴趣小。而这也是深度兴趣网络模型诞生的原因。

二、DIN模型结构

DIN模型结构如下图所示,可以看到DIN模型整体架构跟上面的的base模型非常相似,最主要的区别在于DIN模型中的多个Activation Unit模块,Activation Unit模块的作用为计算候选商品ID和历史行为商品ID之间attention分数,该分数作为历史行为商品ID对候选商品ID的影响权重,这也是DIN模型最核心的优化。

对于同一个用户,其历史点击商品行为的ID序列是固定的,但是不同的候选商品ID能够触发不同的历史兴趣,例如用户看到应用程序推荐给他的商品是新款式的手提包,那这次广告商品的展示有可能是由用户历史点击过手提袋和皮革手提包的兴趣导致的。因此,用户行为向量可以通过下面的公式计算出来,其中 vA 表示候选ID的embedding,e1,e2,...eH表示用户历史行为ID的embedding,wj表示用户行为ID和候选ID之间的attention score。

三、DIN模型学方式

1.激活单元

将激活单元从DIN模型结构拿出来,如下图所示,激活单元的直接输入为:

用户侧的输入:这里为用户历史行为ID的embedding;

候选广告的输入:这里为候选广告ID的embedding;

用户侧和候选广告侧交叉:用户历史行为ID embedding和候选广告ID embedding的output product,这是paper的做法。在实际业务上,可以进行拓展,在很多公司比如字节跳动的推荐模型中,可以将两个embedding进element-wise product、element-wise相减 等操作。

激活单元的多个输入进行concat起来之后,再经过DNN做非线性映射,最终计算出(0,1)之间的激活分数。

2.小批量感知正则化

在工业场景中,规模稀疏特征是很常见的,对于量的特征情况下,模型很容易出现过拟合现象,在模型中常用到的防止过拟合的正则化方法包括L2、L1正则化等。在DIN模型中,如果使用常规的正则化例如L2正则化方法,那么在每一次小批量样本中,需要对每一个稀疏特征对应的参数进行更新,而我们知道在规模稀疏场景中,模型的参数主要是由稀疏特征embedding向量贡献的,而对于动辄上亿个商品ID的广告推荐场景中,参数量将是巨的,每次更新模型参数时的计算量也是巨的。

DIN模型对L2正则化改进了改进,在每次小批量正则化中只对出现在小批量样本中的特征参数进行update,而没有出现在小批量样本中的特征参数则不需要update,损失函数中的正则化项如下面公式,

其中K表示特征空间的维度,D表示embedding向量的维度,nj表示特征id j在所有样本出现的次数,I(xj != 0)表示样本x是否包含特征id j,那么在每一个小批量样本中,上述公式可以表示为:

其中的B表示小批量的集合小,Bm表示第m个小批量样本,如果使用alpha_mj

表示在小批量样本Bm中是否存在至少一个样本包含特征id j,那么可以将上面公式转化成如下:

因此,对于改进后的小批量正则化方法的梯度下降法优化公式为

3.数据自适应激活函数

DIN中提出的数据自适应激活函数的启发来自于PReLU函数,PReLU函数的公式如下f(s)所示,其中的p(s)为阶跃函数。

在DIN中实际使用的激活函数称为Dice,Dice与PReLU的不同之处在于p(s)函数的不同,PReLU的p(s)是将在0值处作为固定的硬修正点,而Dice的p(s)采取灵活的方式计算修正点位置。

Dice激活函数公式如下,E[s]和Var[s]表示均值和方差,在训练阶段,取每一个mini-batch样本的均值和方差,在预估阶段取移动平均的计算方式。

四、后续推荐模型学

怎么把笔记本电脑调亮

平板电脑怎么充电发烫

怎么鉴别二手amd cpu

为什么宠物让宠物店的人碰

怎么用原相机拍美照好看

圆通快递为什么老是出问题

照片怎么缩小鼻孔

小红书官方认证多久通过

上海抖音搜索优化seo

标签:din ding 阿里巴巴