我们想抓取这些影评做一个分析,影评如何获得呢?Power Query
网站分析网站分析的过程是必要的,通过观察,我们发现这个网页内容的变化与网址中的一个值有关:
每当按下前页、后页时这个值会发生变化,这就是我们将来要用作翻页参数的值。

我们翻到中间页,复制网址开始抓取:
这样的页面我们查看了一下,表格内容,并没有我们期望的整个表格的数据:
先确定,到了Power Query编辑器中,我们再来做调整,用文本格式直接对页面内容进行分析:
通过观察,我们发现所有的影评内容都是这个格式:
我们用两步来处理:
筛选:筛选包含有
<span class=\"short\">
格式代码的行
提取:提取两个尖括号之间的文本
这样一页的影评就提取出来了。
定义抓取函数在上面的查询右键创建函数:
把参数添加进来,函数就制作好了。
抓取我们需要一个页码变化的列表,像这样的{0,20,40,...}
试了一下到200基本就不能再往后了,就是要一个0-200,步长20的一个列表。
= List.Generate(()=>0,each _<=200,each _+20)
方法有很多种了,这个直观一些。
把这个列表转换乘表格,把这一列转成文本格式,然后自定义一列,应用自定义函数,参数就是我们这一列:
得到一列Table,展开这个表就是我们要的影评:
扣个图
py词云: