数据采集-课程标准.docxVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据采集》课程整体设计 《数据采集》课程标准 一、课程设计思路 本课程依据课程标准,以软件技术专业学生的就业岗位群能力目标为导向,以数据采集技术为主线,把整个课程分成知识技能篇和技术应用篇,培养学生使其具备大数据采集的专业能力和技能。 二、课程目标设计 数据采集是大数据技术不可缺少的环节,将不同来源的数据使用各种数据采集组件将数据采集到各文件系统进行存储,以便于后续的数据分析以及数据处理。 通过本课程的学习,使学生逐步掌握主流数据采集组件,包括爬虫采集、flume、datax、sqoop等组件,并且使学生具有对不同数据采集场景能够灵活选择采集组件的能力,以及培养学生细致缜密的工作态度和团结协作的良好品质。 (一)知识目标 掌握数据采集的概念、任务和流程; 掌握Python程序进行爬虫采集; 掌握爬虫采集框架Scrapy 掌握数据采集组件flume的使用; 熟练掌握flume属性文件的编写; 掌握datax进行数据同步; 熟练掌握datax任务文件的编写; 熟练掌握sqoop数据迁移的参数设置; 掌握canal组件的使用。 (二)能力目标 能够对数据进行采集,更好地设计不同场景下数据采集架构; 能够独立完成对flume组件属性文件的编写; 能够基本了解flume程序报错原因,能独立调试错误并及时发现错误原因; 能够熟练的使用datax采集数据; 能够独立完成datax组件任务文件的编写; 能够独立完成sqoop采集数据的命令参数设置; 掌握数据采集能力。 (三)素质目标 养成善于思考、深入研究的良好习惯; 培养程序设计思想; 培养细致缜密的工作态度、团结协作的良好品质、沟通交流和书面表达能力; 养成爱岗敬业、遵守职业道德规范、诚实、守信的高尚品质。 三、课程内容设计 本课程的教学内容分为知识技能篇和技术应用篇。 知识技能篇分为数据采集与数据迁移,其中包括爬虫数据采集,Flume数据采集,Sqoop数据迁移,Datax数据迁移等章节。通过对本篇的学习,使学生循序渐进地掌握数据采集的设计思想,达到具有从不同数据源采集数据的能力。 技术应用篇完成多个实际案例:通过完成数据采集案例使学生初步掌握数据采集的全过程。具体内容设计如下 课程内容总体设计 单元 单元名称 参考学时 单元1 爬虫采集 18 单元2 flume采集 20 单元3 sqoop采集 8 单元4 datax采集 10 单元5 canal同步 4 单元6 数据采集综合案例 4 合计 64 课程内容详细设计 单元名称 单元内容 知识目标 学时安排 单元1 爬虫采集 认识爬虫与复杂HTML解析 实验 1.认识爬虫 2.复杂HTML解析 (1) 理解python的Urllib2模拟浏览器原理 4 (2) 掌握Urllib2爬虫代码编写 (3) 掌握使用BeautifulSoup中的find()和findALL() (4) 掌握使用BeautifulSoup进行标签处理 使用API与数据存储 实验 1.使用API 2.存储数据 (1) 1)掌握Python的Urllib2 API应用 4 (2) 掌握Python的bs4 API应用 (3) 掌握爬虫如何爬取页面 (4) 掌握数据保存 正则表达式与图像识别 实验 1.正则表达式 2.图像识别 (1) 掌握正则表达式的分析过程 4 (2) 掌握正则表达式的处理过程 (3) 理解OCR图像识别的原理 (4) 掌握OCR图像处理方法 Scrapy介绍与Scrapy案例 实验 1.Scrapy介绍 2.分布式爬虫(上) 3.分布式爬虫(下) (1) 理解爬虫框架的业务流程 6 (2) 掌握爬虫框架的使用 (3) 理解Scrapy框架的构成 (4) 掌握Scrapy框架的抓取方法 小计 18 单元2 flume采集 1.微信ID数据采集与电商数据采集 实验 1.微信ID数据采集案例 2.电商数据采集案例 (1) 掌握flume配置文件格式 4 (2) 掌握exec方式将文件增量数据实时采集到HDFS分布式文件系统 2.微博数据采集与微信数据采集 实验 1.微博文件数据采集案例 2.微信数据采集案例 (1) 掌握spooldir方式将新增文件实时采集到HDFS分布式文件系统 4 (2) 掌握使用avro的方式完成数据的套接,并将数据采集到分布式文件系统中 3.网约车数据采集 实验 1.网约车数据采集案例(上) 2.网约车数据采集案例(下) (1) 掌握使用脚本生成约车数据 4 (2) 掌握使用crontab添加定时任务 (3) 掌握crontab定时任务的使用 (4) 掌握flume程序与kafka消息队列的对接 4.静态拦截器与负载均衡 实验 1.静态拦截器使用案例 2.Flume负载均衡 (1) 掌握flume静

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档

相关课程推荐