- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第4章数据预处理之PowerBI篇商务智能与数据可视化分析基础
1本章内容PowerBIDesktop的主页与抓取网页数据PowerBIDesktop的主页分析网址结构采集第一页的数据设置页码参数批量调用页码函数PowerBI数据预处理数据导入数据填充与筛选添加列数据的追加与合并查询
201PowerBIDesktop的主页与抓取网页数据数据预处理之PowerBI篇PowerBIDesktop的主页PowerBI抓取网页数据分析网址结构采集第一页的数据设置页码参数批量调用页码函数
PowerBIDesktop主页的布局与Excel类似,上方是各种功能的选项卡,右侧是一些PowerBI自带的可视化对象,单击即可方便地调用。1.1PowerBIDesktop主页3
1.2PowerBI抓取网页数据4
分析网址结构使用鼠标将页面滚动到最下方,找到显示的页码,分别单击“第2页”、“第3页”和“第4页”按钮,观察网址变化。观察网址,可知“pg”后面的一个数字就是页码ID,是控制分页数据的变量。为了进一步确认,将网址中的“pg”后面的数字改为“1”,按回车键后确实能返到第一页。1.3PowerBI抓取网页数据5
采集第一页的数据打开PowerBIDesktop,依次选择“主页”→“获取数据”→“Web”选项。1.4PowerBI抓取网页数据6
从弹出的对话框中选中“高级”单选按钮,将之前分析的网址中的除页码ID外的网址输入“URL部分”的第一行输入框中,将“1”输入第二行输入框中,将“rs上海/”输入第三行输入框中。1.5PowerBI抓取网页数据7
在“URL预览”输入框中可以看到,上面设置的三行的网址已经自动合并到一起,在“URL部分”中分开输入只是为了更清晰地区分页码变量。单击“确定”按钮后,使用“匿名”方式访问。1.6PowerBI抓取网页数据8
单击“连接”按钮,等待运行一段时间后,自动进入“导航器”对话框,该对话框的左侧出现很多表。在对话框左侧的表中勾选某个表的复选框,在对话框右侧“表视图”区域中会显示其对应的数据。例如,勾选“表4”复选框,在右侧“表视图”区域中会显示“表4”的数据。1.7PowerBI抓取网页数据9
单击“转换数据”按钮,等待运行一段时间后,进入“PowerQuery编辑器”界面的数据展示。1.8PowerBI抓取网页数据10
设置页码参数在“PowerQuery编辑器”界面中,选择“高级编辑器”选项。1.9PowerBI抓取网页数据11
在弹出的“高级编辑器”窗口中,在“let”的上一行输入“(pasnumber)astable=”,并在“let”的下一行的网址中,将“”后面的“1”改为“Number.ToText(p)”。更改后为“源=Web.BrowserContents(”/ershoufang/pg“Number.ToText(p)”rs上海/“)”。1.10PowerBI抓取网页数据12
完成上述操作以后,刚才第一页数据的查询窗口变成了自定义函数的输入参数窗口,表格也变成了函数的样式。点击【完成】按钮后,可得到一个可以调用的函数窗口,在“输入参数”p下面的输入框,输入“5”,点击【调用】按钮。1.11PowerBI抓取网页数据13
至此完成了自定义函数设定,p是该函数的变量,用来控制页码,随便输入一个数字,如:5,将抓取第5页的数据。1.12PowerBI抓取网页数据14
批量调用页码函数输入一次参数只能抓取一个网页中的数据,如果想批量抓取网页中的数据,则还需要批量调用该函数,因此需要执行以下步骤。选择“主页”→“新建源”→“空查询”选项,建立一个数字序列。例如,如果想抓取前10页的数据,需要建立从1到10的序列,在空查询中输入“={1..10}”,按回车键后,建立从1到10的数字序列。1.13PowerBI抓取网页数据15
批量调用页码函数单击“转换”→“到表”按钮。在弹出的“到表”对话框中,设置“如何处理附加列”为“显示为错误”,并单击“确定”按钮。1.14PowerBI抓取网页数据16
批量调用页码函数在“PowerQuery编辑器”界面中,单击“添加列”→“调用自定义函数”按钮在弹出的“调用自定义函数”对话框中,在“新列名”输入框中输入“表4”,设置“功能查询”为“表4”,设置“p”为“Column1”。1.15PowerBI抓取网页数据17
您可能关注的文档
- 企业资源计划(ERP)原理与应用 -课件 7.ppt
- 企业资源计划(ERP)原理与应用 -课件 3.pptx
- 企业资源计划(ERP)原理与应用 -课件 6.ppt
- 企业资源计划(ERP)原理与应用 -课件 1.ppt
- 企业资源计划(ERP)原理与应用 -课件 2.ppt
- 企业资源计划(ERP)原理与应用 -课件 4.ppt
- 企业资源计划(ERP)原理与应用 -课件 5.pptx
- 商务智能与数据可视化分析基础 课件 第1章 商务智能与数据可视化概述.pptx
- 商务智能与数据可视化分析基础 课件 第8章.pptx
- 商务智能与数据可视化分析基础 课件 第2章 数据智能与数据库基础.pptx
- 2024三峡物资招标管理限公司社会招聘【3人】公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 2024“才聚齐鲁成就未来”山东南郊集团投资限公司招聘2人公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 2024上半年江苏省镇江丹阳市部分事业单位招聘70人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 2024上海沪剧艺术传习所事业单位招聘15人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 2024年江苏食品药品职业技术学院高职单招语文2018-2023年考试题摘选含答案解析.docx
- 2024年江苏联合职业技术学院高职单招(英语)历年高频考点试题含答案解析.docx
- 2024年武汉铁路职业技术学院高职单招教育类考试2018-2023年高频考点试题含答案解析.docx
- 2024年江西医学高等专科学校高职单招语文2018-2023年考试题摘选含答案解析.docx
- 2024年民办合肥财经职业学院高职单招语文2018-2023年考试题摘选含答案解析.docx
- 2024年柳州城市职业学院高职单招语文2018-2023年考试题摘选含答案解析.docx
文档评论(0)