网页新闻数统计
网页数据获取
打开获取数据 - Web,输入万里学院 - 媒体万里新闻列表网址 https://www.zwu.edu.cn/20/list1.htm
选择建议的表格 - 表2,并点击转换数据

将表 2重命名为单页新闻列表
后面将演示如何批量获取多个网页内容,可将Column1~3改为编号、标题和发布日期

选择管理参数 - 新建参数

设置参数名称 - 页码,类型 - 文本,当前值 - 1。

选中单页新闻列,选择右侧源的设置按钮

通过对网页URL进行分析,我们将每页变化的页码用变动的参数来代替,将原本的网址拆分为三个部分。选择高级 - 添加部件,第二行左侧下拉列表选择参数,右侧选择页码,第三列补全剩下的网址信息

新建空查询,输入= {1..10},生成数字列表并转换为表,重命名为媒体万里10页,列表列命名为页码,类型设置为文本,注意,转换为表之后,需要将数据列的数据类型更改为文本类型

选择单页新闻列 - 右键创建函数

输入函数名称 - 媒体万里,确定

选择媒体万里10页查询 - 添加列 - 调用自定义函数

设置新列名 - 媒体万里,功能查询选择之前设置的媒体万里函数,页码选择列名 - 页码列,确定

展开媒体万里,选择所有列,这里可以不选择勾选将原始列名作为前缀,设置类型,除了标题和发布日期外删除其它列

添加新闻类型列,设置为:媒体万里,媒体万里10页数据获取完成

参考上述步骤,我们再来制作万里播报10页新闻列表。
打开获取数据 - Web,输入万里学院 - 万里播报新闻列表网址 http://news.zwu.edu.cn/131/list1.psp
获取单页播报

创建播报页码参数,将参数引入到单页播报查询中

新建空查询,建立万里播报5页的页码列,记得修改数据列类型为文本,重命名查询为万里播报5页

选中单页播报,创建函数,函数名称命名为万里播报

选中万里播报5页 - 添加列 - 调用自定义函数,新列名为万里播报 - 功能查询为万里播报,播报页码选择页码

展开列表,Column1~3改为编号、标题和发布日期,删除除标题与发布日期之外的其他列,添加新闻类型列,万里播报5页获取成功

将两份查询合并到一个表里
选中表媒体万里10页,再点击将查询追加为新查询

追加表选择万里播报5页,合并数据,命名为新闻列表
添加月份列:Date.ToText([发布日期],"yyyyMM"),设置为文本类型

将万里播报10页, 媒体万里30页设置为不启用加载
绘制新闻数量报表
- 在报表页添加柱状图,设置轴 - 月份,图例 - 新闻类型,值 - 标题 计数
- 在报表页添加矩阵,设置行 - 月份,列 - 新闻类型,值 - 标题 计数
- 在报表页添加折线图,设置轴 - 发布日期,图例 - 新闻类型,值 - 标题 计数

词云分析
在报表页添加表,设置值 - 标题,导出到data.csv文件,删除第一行标题

打开data.csv文件,将所有文本内容复制到在线词频分析网页,开始查询 http://www.seocha.net/term_frequency

分析的数据可以采用导出的方式,也可直接复制文本到Excel中

在Power BI中加载上面获取到的关于词频的数据文件,设置字段类型

在报表页添加WorldCloud(词云),设置类别 - 关键字,值 - 词频,在格式中,设置非索引字 - 开,在字中,输入想要忽略的字段,用空格分隔
