AFM 网络介绍与源码浅析

网友投稿 272 2022-09-19

AFM 网络介绍与源码浅析

AFM 网络介绍与源码浅析

前言

分享一篇上上个星期看过的论文, 记录下重点吧~

广而告之

Attentional Factorization Machines (AFM)

文章信息

论文标题: Attentional Factorization Machines:Learning the Weight of Feature Interactions via Attention Networks论文地址:​​这是作者提供的代码; 另外在​​我看到了另外的精彩的实现, 后面分析实现时用的是这个代码.发表时间: IJCAI 2017论文作者: Jun Xiao, Hao Ye, Xiangnan He, Hanwang Zhang, Fei Wu, Tat-Seng Chua作者单位: Zhejiang University, National University of Singapore

请注意

后面在博文中介绍的代码主要以 ​​中的为主; 原作者的代码结构也是类似的, 所以没有关系.

核心观点

核心观点介绍

Pair-wise Interaction Layer

代码实现也很简单:

## embeddings 是特征对应的 emb, 大小为 B * F * K## F 为 field 的大小, 即 field_size## K 为 embedding 的大小element_wise_product_list = [] for i in range(field_size): for j in range(i+1, field_size): element_wise_product_list.append(tf.multiply(embeddings[:,i,:], embeddings[:,j,:])) # B * Kelement_wise_product = tf.stack(element_wise_product_list) # (F * F - 1 / 2) * B * Kelement_wise_product = tf.transpose(self.element_wise_product,perm=[1,0,2],name='element_wise_product') # B * (F * F - 1 / 2) * K

Attention-based Pooling Layer

从而解决了因样本稀疏而导致的参数无法及时更新的问题, 更为具体的讨论可以查看 ​​FM 算法介绍以及 libFM 源码简析​​)

下面看看 Attention-based Pooling Layer 的实现代码:

## field_size 为 Field 的个数, 记为 F## num_interactions 为交叉特征的个数 (F - 1) * F / 2## 为了方便, 我后面简记为 P, 表示 pair 的个数; 即 P = (F - 1) * F / 2num_interactions = int(field_size * (field_size - 1) / 2)## wx+b -> relu(wx+b) -> h*relu(wx+b)## element_wise_product 为 Pair-wise Interaction Layer 的输出结果## 大小为 B * P * K, 其中 K 为 embedding 的大小 ## weights['attention_w'] 为 Attention 网络的权重, 大小为 (K, A),## 其中 A 表示 attention size, 使用论文中的数学符号, 表示的是 t## weights['attention_b'] 为 Attention 网络的偏置, 大小为 (A,)## 那么 attention_wx_plus_b 的结果为 wx + battention_wx_plus_b = tf.reshape( tf.add(tf.matmul( tf.reshape(element_wise_product, # B * P * K shape=(-1, embedding_size) # (B * P) * K ), weights['attention_w'] # (K, A) ), weights['attention_b'] # (A,) ), shape=[-1,num_interactions, attention_size] ) # N * P * A## weights['attention_h'] 表示公式中的 h, 大小为 (A,)## reduce_sum 相当于做 h 和 relu(Wx + b) 的内积attention_exp = tf.exp(tf.reduce_sum( tf.multiply( tf.nn.relu(attention_wx_plus_b), weights['attention_h']), axis=2, keep_dims=True) ) # N * P * 1## 求 sum(alpha)attention_exp_sum = tf.reduce_sum(attention_exp, axis=1, keep_dims=True) # N * 1 * 1## 相当于求 softmax(alpha)attention_out = tf.div(attention_exp, attention_exp_sum, name='attention_out') # N * P * 1## 完成对 P 个特征的加权求和attention_x_product = tf.reduce_sum( tf.multiply(attention_out, # N * P * 1 element_wise_product # N * P * K ), axis=1, name='afm') # N * K## 输出之前还要和 p 向量进行内积## weights['attention_p'] 大小为 (K,)## 注意这里使用的是 matmul, 表示矩阵的乘法attention_part_sum = tf.matmul(attention_x_product, # N * K weights['attention_p'] # K ) # N * 1

总结

OK, 下午 5 点前写完了, 出门吃烧烤! ???????????? 罪恶的周末~

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:C语言编写Linux终端环境下无缓冲键盘输入 ,并识别上下左右光标键键盘中上、下、左、右四个光标键所对应的ASCII码值为多少
下一篇:阿里腾讯面试一二
相关文章

 发表评论

暂时没有评论,来抢沙发吧~