- 1、本文档共127页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息分析实验教程第一编 获取编第1编_获取编.pptx第2编_处理编.pptx第3编_分析编.pptx第4编_可视化编.pptx全套可编辑PPT课件
第1章 数据获取
基础知识 数据获取概述数据获取是在不触犯相关法律法规的基础上,通过一定的技术手段、方式方法所开展的搜集、捕获原始数据资料以支撑相关研究或业务开展的系列活动的统称。可能受到的限制可能受到获取数据的工具、渠道、外界的数据封锁、数据量太大而无法容纳的限制;客观事物反映在数据上是模糊的,难以清晰描述或界定边界;信息模型的局限或者获取信息的成本太高的限制等。
基础知识 数据获取来源与方法数据获取来源
基础知识 数据获取来源与方法数据获取方法线上数据获取方法网络数据采集电子邮件采集线下数据获取方法调查实验
基础知识 数据获取来源与方法数据获取流程
基础知识 数据隐私与数据资源共享隐私:“单个用户的某一些属性”公开群体用户的信息不属于隐私泄漏但若能从数据中能准确推测出个体的信息,则属于隐私泄漏讨论隐私保护的情景为学术研究和数据交流开放用户数据服务提供商为了提高服务质量,主动收集用户的数据
软件工具序号工具名称开发者技术特性功能简述类型1CrawleyCamporezPython爬虫框架;跨平台可个性定制化开发,用于网页中任意类型数据的采集开源,支持二次开发2ScrapyScrapinghub开源,支持二次开发3SkyCaiji南昌卓蓝科技有限公司跨平台;支持本地或云端采集;需要PHP环境用于网页中多种数据的采集开源,部分支持二次开发4后羿采集器杭州快忆科技有限公司图形化界面;更贴近使用者的选择;一键傻瓜式操作,适合初学者用于网页中多种数据的采集提供有个人免费版,但功能受限5八爪鱼采集器深圳视界信息技术有限公司图形化界面;更贴近使用者的选择;一键傻瓜式操作,适合初学者用于网页中多种数据的采集部分功能免费6火车采集器合肥乐维信息技术有限公司图形化界面;用户需要掌握一定的HTML知识部分功能免费7Web ScraperWeb ScraperChrome浏览器插件,一键傻瓜式操作用于网页中多种数据的采集商业免费8Excel微软 “数据”选项卡提供网页数据采集功能多用于采集网页中的表格型数据商业收费常见的网络数据采集软件
实验1:网络数据采集实验操作流程详见教材实验原理将分散的、各种类型的互联网数据获取到本地需要借助网络爬虫关键在于搜寻目标数据在互联网上的位置(即网址)并分析被采数据所在页面的分布特征,继而设置相应的采集规则本实验的核心工作流程
实验1:网络数据采集实验操作流程详见教材注意事项使用Web Scraper采集网页数据时,Chrome开发者模式必须处于上下分屏的显示状态中,且不能处于模拟移动设备的模式中。每个选择器及全局预留给页面加载的延迟时间值必须充足,否则将可能造成无法采集数据,或采集到的数据不完整;可根据实际网络通畅情况,进行个性化设置。启动采集后自动弹出的小窗口不能手动关闭,否则会造成采集中止。
信息分析实验教程第二编 处理编
第2章 数据处理
数据预处理活动及其效果示意基础知识 数据预处理的范畴数据清洗数据集成数据变换数据规约
基础知识数据预处理的必要性数据质量评估数据准确性数据完整性数据一致性数据及时性数据覆盖性数据可信性数据质量问题数据不完整数据不一致数据重复噪声
基础知识 数据预处理活动简述数据清洗缺失值处理删除缺失值填补法噪声数据处理分箱聚类回归数据集成模式集成和对象匹配冗余检测数据值冲突检测与处理数据变换数据规范化数据离散化数据泛化属性构造
基础知识数据预处理活动简述数据规约维规约小波变换主成分分析数值规约参数化数据规约非参数化数据规约小波变换示意主成分分析示意
软件工具编号工具名称开发者技术特性功能简述类型1OpenRefine(Google Refine)谷歌跨平台;B/S架构;需要Java环境一类数据转换工具,对数据进行可视化操作处理(面向列和字段),用于数据的清洗与整合开源免费2NumPyNumPy团队Python包;跨平台用于数值型数据的清洗、缺失值处理和异常值检测处理开源免费3pandaspandas团队开源免费4plyrHadley WickhamR包;跨平台开源免费5dplyrHadley Wickham等开源免费6tidyr开源免费7Power Query微软Excel插件,需要Excel用于多种数据的清洗、缺失值处理和异常值检测处理商业免费8Quality KnowledgeBaseSAS工业级产品;图形化界面软件提供11种清洗流程,每种流程包括若干处理算法,用于多种数据的清洗商业收费常见的数值型数据清洗处理软件
实验2:数据清洗实验操作流程详见教材实验原理主要环节去重纠错统一规格修正逻辑转换构造数据压缩……本实验的核心工作流程导
您可能关注的文档
- 美术鉴赏与实践中职全套教学课件.pptx
- 汽车车身电气设备检修全套教学课件.pptx
- 汽车底盘构造与拆装中职全套教学课件.pptx
- 汽车涂装基础全套教学课件.pptx
- 学前比较教育(学前教育专业)第3版全套教学课件.pptx
- 学前比较教育全套教学课件.pptx
- 学前儿童保育学(学前教育专业)全套教学课件.pptx
- 艺术导论(公共艺术通识课)第二版全套教学课件.pptx
- 幼儿语言教育与活动指导第二版全套教学课件.pptx
- 幼儿园教玩具设计与制作全套教学课件.pptx
- 2023年08月云南曲靖市公安局经济技术开发区分局交通警察大队警务辅助人员招考聘用笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月云南文山麻栗坡县林业和草原局城镇公益性岗位招考聘用笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月云南中共曲靖市委党校青年人才专项引进6人笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月共青团河源市委员会编外人员2人笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月四川资阳安岳县公安局常态化招考聘用警务辅助人员笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月吉林长白山保护开发区池西区管委会临时用工人员笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月厦门市集美区园博学校招聘非在编语文数学教师及顶产假语文教师笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月厦门市集美区灌南小学招聘2名非在编教师笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月安徽淮南市寿县第二次选调教师26人笔试历年(2016-2023年)真题荟萃带答案解析.pdf
- 2023年08月四川省矿产资源储量评审中心考核公开招聘专业技术人员笔试历年(2016-2023年)真题荟萃带答案解析.pdf
1亿VIP精品文档
相关文档
最近下载
- 巴黎欧莱雅:可持续发展报告.pdf
- 医疗设备维护与维修项目可行性分析报告.pptx
- 2024年广东省2024届高三一模数学试卷(含官方标准答案).docx
- 古诗三首 第一课时 从军行 逐字稿 五年级下册语文 智慧中小学.pdf VIP
- 2022年08月北京市丰台区卫生健康委所属事业单位面向社会公开招聘306名工作人员笔试参考题库含答案.docx
- tia护理查房ppt课件.pptx
- GB∕T 5169.2-2021 电工电子产品着火危险试验 第2部分:着火危险评定导则 总则.pdf
- 山西高职院校单招职测近年考试真题题库汇总(含答案).docx
- GB T 13290-2014 工业用丙烯和丁二烯液态采样法.pdf
- 2024年华为HCIP云计算H13-527认证备考试题库资料(附答案).pdf
文档评论(0)