郑州大学-机器学习 因子分解机(libFM).docx.pptx

郑州大学-机器学习 因子分解机(libFM).docx.pptx

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

汇报人:李婧霞宋梦晗

推荐系统:一种自动联系用户和物品的工具,它能够帮助用户在信息过载的环境中发现令他们感兴趣的信息。比如:抖音、淘宝、美团、头条等等推荐算法:基于内容的推荐(通过分析产品的内容信息来对用户进行推荐)协同过滤(通过分析用户的历史行为和偏好来进行推荐)混合算法(结合多方面的信息来进行推荐)

TF-IDF,表示综合重要度,文章通过关键字进行分类,可以根据TF-IDF的取值然后把文章推荐给用户。PageRank,互联网网页重要度的计算方法。PageRank值越高,网页就越重要,在互联网搜索的排序中可能就排在前面,推荐给大众的概率就大。

CTR预估:(二分类问题)根据历史数据,预测用户是否点击。同样也可以运用到广告中,预测广告的点击率等。根据CTR预估的点击率来决定是否将一个物品推荐给用户。方法:人工特征工程+LR梯度下降决策树+LR因子分解机(FM)

FactorizationMachineswithlibFM01.介绍Introduction02.因子分解模型FACTORIZATIONMACHINEMODEL03.FM的训练方法LEARNINGFACTORIZATIONMACHINES带有libFM的因子分解机

01介绍Introduction/

因子分解机(FM)是一种基于矩阵分解的机器学习算法,以解决大规模稀疏矩阵中特征组合问题。FM是将特征工程的灵活性与因子分解模型相结合,一般用于CTR的预估以及推荐的召回。libFM是一种因子分解机的软件实现,它具有随机梯度下降(SGD)和交替最小二乘(ALS)的优化,以及使用马尔可夫链蒙特卡罗(MCMC)的贝叶斯推理。研究内容:总结了近年来(2010年)关于因子分解机在建模和学习方面的研究,提出了三种基于SGD、ALS和MCMC的高效推理方法,并提供了ALS和MCMC算法的扩展。

沿梯度向量的反方向进行迭代以达到函数的极值点,每次迭代使用一个样本来对参数进行更新,使得训练速度加快。感知机学习的损失函数:损失函数的梯度:随机选取一个误分类点,对,进行更新:随机梯度下降法(SGD):

交替最小二乘法(ALS):通过矩阵分解的方法来实现基于模型的协同过滤。例如:将用户对商品的评分矩阵分解为两个矩阵,一个是用户矩阵,另一个是商品矩阵。在矩阵分解的过程中,评分缺失项得到了填充,根据这个填充的评分来给用户推荐商品。

奇异值分解(SVD):该方法在矩阵分解之前需要先把评分矩阵R的缺失值补全,补全之后稀疏矩阵R变为稠密矩阵缺点:1、补全成稠密矩阵之后需要巨大的存储空间。但在实际中,用户对物品的信息是非常多的,对这样的稠密矩阵的存储是不现实的。2、SVD的计算复杂度是很高的,只适用于小数据集。

随机初始化的方式固定一个矩阵,如U通过最小化等式两边差的平方来更新另一个矩阵I得到矩阵I之后,又可以固定I用相同的方法求U,如此交替进行直到最后收敛或者达到用户指定的迭代次数为止思想:对于的矩阵,ALS旨在找到两个低维矩阵和来近似逼近,即:R代表用户对商品的评分矩阵U代表用户对隐含特征的偏好矩阵I代表商品所包含隐含特征的矩阵

马尔可夫链蒙特卡罗法(MCMC):是以马尔可夫链为概率模型的蒙特卡罗积分方法。基本想法:构建一个马尔可夫链,使其平稳分布就是要进行抽样的分布,基于该马尔可夫链进行随机游走,产生样本序列,之后使用该平稳分布的样本进行近似数值计算。

02因子分解模型FACTORIZATIONMACHINEMODEL

One-hot编码:(通过编码转换成数值型特征)1、经过one-hot编码之后,大部分样本数据特征是比较稀疏的。每个样本有4维特征,但平均仅有2维具有非零值。2、特征具有关联性,“男性”与“篮球”,“女性”与“化妆品”这样的关联特征,对用户的点击有着正向的影响。因此,预测用户是否点击时我们需要引入特征组合。

二阶多项式回归模型:(任意两个参数之间是独立的)存在的问题:在数据非常稀疏的实际应用场景中,交叉项参数的学习是很困难的。交叉项的每个参数的学习过程需要大量的同时非零的训练样本数据。但由于样本数据稀疏,使得训练样本不充分,导致不准确。其中,代表样本特征数,表示样本第i个特征的取值

因子分解机(FM)的核心思想:把多项式模型中的交叉项参

文档评论(0)

h17773168846 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档