SDCC2015机器学习在美团用户画像中的应用付晴川V2.pptx

SDCC2015机器学习在美团用户画像中的应用付晴川V2.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
机器学习在美团用户画像中的应用付晴川fuqingchuan@meituan 2021-11-21 3W什么是用户画像?为什么要做用户画像?如何做用户画像? 什么是用户画像? 什么是用户画像? 什么是用户画像?数据签化 为什么需要用户画像? 为什么需要用户画像?用户用户体验商户营收提升工程师自动化美团运营效率在对的时间获取对的效劳!获取更多的潜在优质客户!更精准高效的活动策略制定!数据应用接口标准化/通用化! 如何来做用户画像?架构算法特征模型实践问题 架构 – 系统概览 架构——细节解读MT dmspa项目统一特征提取框架动机 1. 多工程师/多个模型“自给自足”,特征分散。 2. 存在人力/计算资源冗余。实现 1. 特征统一提取/集中存储——大一统特征库。 2. 支持no-coding/配置化提特征。效果 1. 建模周期: 3~4周下降到1~2周。 2. 人力/计算冗余减少2倍(估算值) 架构——细节解读MT utvs系列项目用户画像统一接口多系统项目动机 1.数据挖掘成果需要友好统一的输出接口: 可视化+API实现 1. 用户标签体系WEB可视化 2. 用户标签索引/实时查询 3. 报表自动化效果 1. 成果推广加速/沟通成本降低 2. 传统用户问卷调查报报告周期1个月,utvs系统10分钟! 算法 – 用户特征需要做横跨多个产品线的特征提取! 算法 – 用户特征体系用户特征体系一级/业务基本团购外卖酒店电影上门…… 二级/行为注册登陆浏览下单搜索收藏评论消费分享LBS……三级/时间年月日周早中晚周末工作日节假日……+ 每+ 最近自由级/可选品类品牌词条…M x N x K x L = ? 特征膨胀算法 – 用户特征 算法 – 用户特征 算法 – 特征与效果实例用户职业标签: 学生身份识别 算法 - 问题及常用模型 实践 - 问题及常用模型---实例模型实例一项目有车一族标签挖掘需求 1. 汽车服务推广活动需要精准圈定有车人群降低营销成本。实现 1. 样本:问卷调查正样本+随机负样本 2. 特征:信息增益特征离散化+卡方/信息增益/互信息等特征选择 3. 模型: try SVM/MaxEnt/LR => SVM效果 1. 离线评测:P93%,R85% 2. 线上对比:推送打开率提升3倍,下单率提升5倍! 实践 - 问题及常用模型---实例模型实例一项目常住地标签挖掘需求 1. 决策支持:酒店需要分析用户下单与地域关系,决定是否上异地推荐模块。实现 1. 样本:问卷调查 2. 模型: try LR/SVM/RF/GBDT=> LR 3. 多个LR模型组合效果 1. 离线评测:P96%, R73% 2. 线上对比:新上异地模块点击率超越历史最佳“名店抢购”1个百分点! 实践 - 关于算法工程师的段子……理想中的算法工程师提出假设->收集数据->训练模型->解释结果?实际中的算法工程师提出假设->收集数据->预处理->预处理->训练模型->调试->调试->重新收集数据->预处理->收集更多数据->调试->调试->调试->…>放弃? 实践 - 分享:那些年踩过的坑……目标效果现实效果分享一数据挖掘的天花板实数据本身!ToDo:努力逼近这个效果而不是较劲! 实践 - 分享:那些年踩过的坑……分享二实际应用中特征作用远大于模型!ToDo:在深度优化模型之前,先榨干数据特征的增益吧!特征至少带来80%+的收益。模型LR SVM特征浏览次数消费频次下单品类搜索分词 实践 - 分享:那些年踩过的坑……分享三关于样本:样本少/不均衡!ToDo:1) SVM或TSVM, 2) under sampling/over sampling/SMOTE。不均衡?实在无样本:可以考虑随机+规则过滤方法挑样本!Smote要用到KNN,高维不靠谱!收集样本才是王道! 实践 - 分享:那些年踩过的坑……分享四训练集特征分布和自然待测数据不一致。ToDo:特征如果跟Label有直接关联就不要用了。建模训/测效果好的离谱自然结果一塌糊涂 实践 - 分享:那些年踩过的坑……分享五不要有把锤子,就把所有的问题当钉子。ToDo:多了解模型的优缺点,选择合适的模型!考察点分类/回归/…样本大小异常点敏感度效果/性能 tradeoff容易过拟合?线性/非线性 Q&AThe mere formulation of a problem is far more essential than its solution. --Albert Einstein Thank You !

文档评论(0)

189****5087 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档

相关课程推荐