Spark大数据技术与应用 第2版 第9章 项目案例—广告检测的流量作弊识别.ppt

Spark大数据技术与应用 第2版 第9章 项目案例—广告检测的流量作弊识别.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1 探索分析广告流量数据 目录 分析需求 2 预处理数据并构建特征 3 构建与评估分类模型 4 在上一小节的数据探索分析中,了解到一些数据字段存在大量的缺失值,同时一些字段为说明性数据字段,不足以直接作为特征进行训练并构建模型。 本节的任务如下。 根据上一小节的探索分析结果对数据进行处理,删除缺失率较高的数据字段; 构建相应的新特征; 对特征进行数据标准化。 任务描述 为了减小缺失数据对模型产生的影响,删除缺失率过高的mac、creativeid、mobile_os、mobile_type、app_key_md5、app_name_md5、os_type等字段。 删除缺失率高的字段。 将处理后的数据保存至Hive中。先在Hive中创建数据库ad_traffic,使用saveAsTable()方法将处理后的数据保存至Hive的ad_traffic数据库中,表名为AdData,通过mode()方法设置保存模式为覆盖保存。 删除缺失值字段 分别构建N、N1、N2、N3特征,如下表。 构建广告流量作弊识别特征 特征 构建方法 说明 N 统计在5小时内,原始数据集中,同一ip、cookie的记录的出现次数 ip和cookie不变的情况下,出现的记录次数指标:N N1 统计在5小时内,原始数据集中,同一个ip对应的不同cookie的数量 ip不变,对应的不同cookie出现的次数指标:N1 N2 统计在5小时内,原始数据集中,ip前2段相同的记录的出现次数 ip前2段相同的次数指标:N2 N3 统计在5小时内,原始数据集中,ip前3段相同的记录的出现次数 ip前3段相同的次数指标:N3 range()方法可以在自定义的区间内,以规定的间隔将自定义的区间等分切割成不同的小区间。 选取timestamps字段,并将其转换为Int类型数据,使用max()和min()方法分别求出数据中的最大时间点和最小时间点,使用range()方法对区间进行分割,最终得到一个时间分割点列表,结果如下图。 构建广告流量作弊识别特征 1.划分时间区间 得到时间分割点列表后,需要根据时间分割点列表取出前25小时的数据。使用for循环,再通过filter()方法筛选出timestamps字段在相应区间内的数据。 筛选得到前25小时内的数据后,以5小时的区间对数据进行特征构建,构建特征N、N1、N2、N3。 在得到4个特征数据集后,将这些数据集根据ranks字段进行合并得到含ranks和4个特征的完整特征数据集,将此数据集以Append的方式写入Hive表中,这时Hive表中就会存在前5小时数据的特征数据集。之后进行下一次的循环,4个独立的特征数据集将会被重新赋值、合并,添加至Hive表中。 构建广告流量作弊识别特征 2.构建特征 在Hive的ad_traffic数据库中查询TimeFeatures表的前10行,并查看表中的字段名称及类型结果。 构建广告流量作弊识别特征 完成特征构建后,读取TimeFeatures表和AdData表的数据并根据ranks字段进行连接,选取4个特征字段、dt字段和label字段,并保存至FeaturesData表中。 在Hive中查询FeaturesData表的数据、字段名称及类型。 构建广告流量作弊识别特征 将需要进行归一化的字段合并至同一个向量中,再使用MinMaxScaler()方法对其进行处理。 进行数据归一化后,使用randomSplite()方法将数据按7:3进行划分,分别保存为modelData模型训练数据和testData模型测试数据,modelData用于后续的模型构建与评估,testData则用于模拟真实的模型应用阶段。 构建广告流量作弊识别特征 3.特征标准化 1 探索分析广告流量数据 目录 分析需求 2 预处理数据并构建特征 3 构建与评估分类模型 4 本节的任务如下。 使用逻辑回归算法和随机森林算法构建分类模型; 进行模型预测与评估; 经过对不同模型的效果对比,选择效果较好的模型并应用至实际的模型加载及预测中。 任务描述 通过观察label字段可以看出,广告流量作弊识别为经典的二分类问题,即该广告访问记录是否为作弊访问记录。 逻辑回归是解决二分类问题的一个经典模型,而且逻辑回归的原理简单,对于二分类问题的预测准确率也较高。 在模型构建与评估中,编写的Spark程序将不以本地模式运行,而是对Spark程序进行编译打包,使用集群模式将程序上传至集群中运行,因此在IntelliJ IDEA中的SparkSession的实例化和部分参数的设置将会被调整。 构建与评估逻辑回归模型 使用LogisticRegression()方法设置相关正则化系数和最大迭代次数等相关参数。经过参数调优,发现将最大迭代次数设置为15,正则化系数

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001
认证主体丁**

1亿VIP精品文档

相关文档

相关课程推荐