网页新闻数统计
网页数据获取
打开获取数据 - Web,输入万里学院 - 媒体万里新闻列表网址 https://www.zwu.edu.cn/20/list1.htm
选择建议的表格 - 表2,并点击转换数据
将表 2重命名为单页新闻列表
后面将演示如何批量获取多个网页内容,可将Column1~3改为编号、标题和发布日期
选择管理参数 - 新建参数
设置参数名称 - 页码,类型 - 文本,当前值 - 1。
选中单页新闻列,选择右侧源的设置按钮
通过对网页URL进行分析,我们将每页变化的页码用变动的参数来代替,将原本的网址拆分为三个部分。选择高级 - 添加部件,第二行左侧下拉列表选择参数,右侧选择页码,第三列补全剩下的网址信息
新建空查询,输入= {1..10},生成数字列表并转换为表,重命名为媒体万里10页,列表列命名为页码,类型设置为文本,注意,转换为表之后,需要将数据列的数据类型更改为文本类型
选择单页新闻列 - 右键创建函数
输入函数名称 - 媒体万里,确定
选择媒体万里10页查询 - 添加列 - 调用自定义函数
设置新列名 - 媒体万里,功能查询选择之前设置的媒体万里函数,页码选择列名 - 页码列,确定
展开媒体万里,选择所有列,这里可以不选择勾选将原始列名作为前缀,设置类型,除了标题和发布日期外删除其它列
添加新闻类型列,设置为:媒体万里,媒体万里10页数据获取完成
参考上述步骤,我们再来制作万里播报10页新闻列表。
打开获取数据 - Web,输入万里学院 - 万里播报新闻列表网址 http://news.zwu.edu.cn/131/list1.psp
获取单页播报
创建播报页码参数,将参数引入到单页播报查询中
新建空查询,建立万里播报5页的页码列,记得修改数据列类型为文本,重命名查询为万里播报5页
选中单页播报,创建函数,函数名称命名为万里播报
选中万里播报5页 - 添加列 - 调用自定义函数,新列名为万里播报 - 功能查询为万里播报,播报页码选择页码
展开列表,Column1~3改为编号、标题和发布日期,删除除标题与发布日期之外的其他列,添加新闻类型列,万里播报5页获取成功
将两份查询合并到一个表里
选中表媒体万里10页,再点击将查询追加为新查询
追加表选择万里播报5页,合并数据,命名为新闻列表
添加月份列:Date.ToText([发布日期],"yyyyMM"),设置为文本类型
将万里播报10页, 媒体万里30页设置为不启用加载
绘制新闻数量报表
- 在报表页添加柱状图,设置轴 - 月份,图例 - 新闻类型,值 - 标题 计数
- 在报表页添加矩阵,设置行 - 月份,列 - 新闻类型,值 - 标题 计数
- 在报表页添加折线图,设置轴 - 发布日期,图例 - 新闻类型,值 - 标题 计数
词云分析
在报表页添加表,设置值 - 标题,导出到data.csv文件,删除第一行标题
打开data.csv文件,将所有文本内容复制到在线词频分析网页,开始查询 http://www.seocha.net/term_frequency
分析的数据可以采用导出的方式,也可直接复制文本到Excel中
在Power BI中加载上面获取到的关于词频的数据文件,设置字段类型
在报表页添加WorldCloud(词云),设置类别 - 关键字,值 - 词频,在格式中,设置非索引字 - 开,在字中,输入想要忽略的字段,用空格分隔