首页 » 排名链接 » Power Query 抓取影评做个词云(抓取影评做个分析函数)

Power Query 抓取影评做个词云(抓取影评做个分析函数)

落叶飘零 2024-11-02 04:09:15 0

扫一扫用手机浏览

文章目录 [+]

我们想抓取这些影评做一个分析,影评如何获得呢?Power Query

网站分析

网站分析的过程是必要的,通过观察,我们发现这个网页内容的变化与网址中的一个值有关:

每当按下前页、后页时这个值会发生变化,这就是我们将来要用作翻页参数的值。

Power Query 抓取影评做个词云(抓取影评做个分析函数) 排名链接
(图片来自网络侵删)
尝试抓取

我们翻到中间页,复制网址开始抓取:

这样的页面我们查看了一下,表格内容,并没有我们期望的整个表格的数据:

先确定,到了Power Query编辑器中,我们再来做调整,用文本格式直接对页面内容进行分析:

通过观察,我们发现所有的影评内容都是这个格式:

我们用两步来处理:

筛选:筛选包含有

<span class=\"short\">

格式代码的行

提取:提取两个尖括号之间的文本

这样一页的影评就提取出来了。

定义抓取函数

在上面的查询右键创建函数:

把参数添加进来,函数就制作好了。

抓取

我们需要一个页码变化的列表,像这样的{0,20,40,...}

试了一下到200基本就不能再往后了,就是要一个0-200,步长20的一个列表。

= List.Generate(()=>0,each _<=200,each _+20)

方法有很多种了,这个直观一些。

把这个列表转换乘表格,把这一列转成文本格式,然后自定义一列,应用自定义函数,参数就是我们这一列:

得到一列Table,展开这个表就是我们要的影评:

扣个图

py词云:

标签:

相关文章