从Web上获取数据

很多时候对于我们需要的数据，我们没有足够的能力去自己进行寻找、统计等工作。这个时候，我们就需要去求助互联网。那么怎么去从Web上获取我们想要的数据呢？那就接着往下看。

分析网页结构

这里我们以豆瓣电影TOP250网页为例。

打开豆瓣电影TOP250首页，观察网页信息，可以看到，总共10页，每页25部电影推荐
点击下一页，可以发现，网页的URL发生了变化。 start后面的数值变为25，由此我们可知每翻一页start的值就加25

创建爬虫主体

从PowerBI上获取Web数据
由于网页上没有明确的表单，PowerBI并未将识别的数据划分成我们想要的表单。点击左下角--使用示例添加表
设置自己需要的列，在表格内输入对应的内容。PowerBI若识别出输入内容，则会出现下拉框，可在下拉框中补全你所想要输入的文字。图中颜色加深的文字内容是手动输入，PowerBI会自动识别所输入的文字并进行匹配，若识别内容有遗漏，则可多输入几个数据加强匹配。点击确定，选择自定义表，转换数据。
接下来就是要去实现让PowerBI自动去获取后面几个网页的数据。更改查询名称为电影TOP250，工具栏管理参数--新建参数，参数类型设置为文本，当前值为0，确定。
选择电影TOP250查询，点击右侧应用的步骤中源右侧的设置按钮。这里我们将网页的URL分成三个部分，在中间将需要变化的数值0用参数页码代替，点击确定。
选中电影TOP250，右键，创建函数，命名为电影获取
接下来就是构建输入参数里的页码列表了。工具栏--新建源--空查询，这里调用List.number函数，第一个参数表示给定初值，第二个参数表示计数，第三个参数表示增量值。List不能直接应用，右键将其转换到表，转换后的表为数值类型，注意将其变更为文本。
最后，我们将页码表引入到函数中。选择新建的查询1，菜单栏--添加列，调用电影获取函数，页码对应Column1。最后展开自定义列，web数据爬取成功。

数据来源豆瓣电影TOP250

results matching ""

No results matching ""