郑州大学-机器学习因子分解机（libFM).docx.pptx

下载文档

0
0
约3.76千字
约 40页
2024-05-17 发布于湖南
举报
版权申诉
保障服务

郑州大学-机器学习因子分解机（libFM).docx.pptx

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

汇报人：李婧霞宋梦晗

推荐系统：一种自动联系用户和物品的工具，它能够帮助用户在信息过载的环境中发现令他们感兴趣的信息。比如：抖音、淘宝、美团、头条等等推荐算法：基于内容的推荐（通过分析产品的内容信息来对用户进行推荐)协同过滤（通过分析用户的历史行为和偏好来进行推荐）混合算法（结合多方面的信息来进行推荐）

TF-IDF，表示综合重要度，文章通过关键字进行分类，可以根据TF-IDF的取值然后把文章推荐给用户。PageRank，互联网网页重要度的计算方法。PageRank值越高，网页就越重要，在互联网搜索的排序中可能就排在前面，推荐给大众的概率就大。

CTR预估：（二分类问题）根据历史数据，预测用户是否点击。同样也可以运用到广告中，预测广告的点击率等。根据CTR预估的点击率来决定是否将一个物品推荐给用户。方法：人工特征工程+LR梯度下降决策树+LR因子分解机（FM)

FactorizationMachineswithlibFM01.介绍Introduction02.因子分解模型FACTORIZATIONMACHINEMODEL03.FM的训练方法LEARNINGFACTORIZATIONMACHINES带有libFM的因子分解机

01介绍Introduction/

因子分解机（FM）是一种基于矩阵分解的机器学习算法，以解决大规模稀疏矩阵中特征组合问题。FM是将特征工程的灵活性与因子分解模型相结合，一般用于CTR的预估以及推荐的召回。libFM是一种因子分解机的软件实现，它具有随机梯度下降(SGD)和交替最小二乘(ALS)的优化，以及使用马尔可夫链蒙特卡罗(MCMC)的贝叶斯推理。研究内容：总结了近年来（2010年）关于因子分解机在建模和学习方面的研究，提出了三种基于SGD、ALS和MCMC的高效推理方法，并提供了ALS和MCMC算法的扩展。

沿梯度向量的反方向进行迭代以达到函数的极值点，每次迭代使用一个样本来对参数进行更新，使得训练速度加快。感知机学习的损失函数：损失函数的梯度：随机选取一个误分类点，对，进行更新：随机梯度下降法（SGD)：

交替最小二乘法（ALS)：通过矩阵分解的方法来实现基于模型的协同过滤。例如：将用户对商品的评分矩阵分解为两个矩阵，一个是用户矩阵，另一个是商品矩阵。在矩阵分解的过程中，评分缺失项得到了填充，根据这个填充的评分来给用户推荐商品。

奇异值分解（SVD)：该方法在矩阵分解之前需要先把评分矩阵R的缺失值补全，补全之后稀疏矩阵R变为稠密矩阵缺点：1、补全成稠密矩阵之后需要巨大的存储空间。但在实际中，用户对物品的信息是非常多的，对这样的稠密矩阵的存储是不现实的。2、SVD的计算复杂度是很高的，只适用于小数据集。

随机初始化的方式固定一个矩阵，如U通过最小化等式两边差的平方来更新另一个矩阵I得到矩阵I之后，又可以固定I用相同的方法求U，如此交替进行直到最后收敛或者达到用户指定的迭代次数为止思想：对于的矩阵，ALS旨在找到两个低维矩阵和来近似逼近，即：R代表用户对商品的评分矩阵U代表用户对隐含特征的偏好矩阵I代表商品所包含隐含特征的矩阵

马尔可夫链蒙特卡罗法（MCMC):是以马尔可夫链为概率模型的蒙特卡罗积分方法。基本想法：构建一个马尔可夫链，使其平稳分布就是要进行抽样的分布，基于该马尔可夫链进行随机游走，产生样本序列，之后使用该平稳分布的样本进行近似数值计算。

02因子分解模型FACTORIZATIONMACHINEMODEL

One-hot编码：(通过编码转换成数值型特征）1、经过one-hot编码之后，大部分样本数据特征是比较稀疏的。每个样本有4维特征，但平均仅有2维具有非零值。2、特征具有关联性，“男性”与“篮球”，“女性”与“化妆品”这样的关联特征，对用户的点击有着正向的影响。因此，预测用户是否点击时我们需要引入特征组合。

二阶多项式回归模型：（任意两个参数之间是独立的）存在的问题：在数据非常稀疏的实际应用场景中，交叉项参数的学习是很困难的。交叉项的每个参数的学习过程需要大量的同时非零的训练样本数据。但由于样本数据稀疏，使得训练样本不充分，导致不准确。其中，代表样本特征数，表示样本第i个特征的取值

因子分解机（FM）的核心思想：把多项式模型中的交叉项参

您可能关注的文档

文档评论（0）

h17773168846 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

郑州大学-机器学习因子分解机（libFM).docx.pptx