大家好,今天来做一个本地化的采集系统,它可以实时的采集自己关注的网站的最新信息,可以非常方便的进行浏览和查看。实现方法也很简单,使用浏览器插件配合本地网页使用。
·首先是浏览器插件的代码,现在打开的这个代码就是一个浏览器插件,它可以实现获取访问的页面的信息。这里是自动关闭js代码,获取到页面之后就关闭,有时候页面可能会卡死,这里做了判断,超过30秒就直接关闭。代码内容非常简单,没有技术含量。
·然后就是对采集到的内容进行处理,这个文件是用来判断链接是否重复的,防止重复采集内容。下面这里一大串的内容是用来优化数据库查询的,这个文件只做一件事就是判断链接是否存在,如果不存在就将链接写入数据库中,然后返回不存在,否则直接返回存在。

·接下来这个页面的作用是随机打开一个自己添加的网站链接,然后在浏览器中跳转打开,浏览器默认会阻止open打开网页,需要设置一下自己的网页允许打开。
·然后这个页面就是从采集到的页面内容中匹配链接和其它网站的域名,这样就会不断获得的需要或者不需要的各种网站了,可以从中筛选自己感兴趣的网站。
·这段代码首先从数据库中获取一个页面内容,通过正则匹配href标签的内容,然后进行网站链接判断,这里是直接判断常见的域名后缀,然后去除不需要的连接,比如脚本和样式文件。
·这里判断是否为本网站的url链接,之后根据判断结果分别保存到对应的数据库中,新的网站域名自动保存,等待确认,链接保存到对应的数据库中等待后续获取内容。
完成之后,一个简单的本地采集系统就完成了。打开浏览器来看一下效果,可以看出来效果还是很不错的,就是如果长时间执行浏览器可能会崩溃卡死等等问题,所以还需要一个工具来实时监控这个页面执行的状态。
可以使用网页监控工具来监控这个页面的运行情况,为了方便对采集到的网站进行管理,做了一个前台页面来处理自己感兴趣的网站。最后来看一下成品效果,可以实时显示关注网站的最新内容,可以直接搜索包含关键字的内容标题,对于有兴趣的内容可以直接点击打开原链接查看。当然页面中的内容也可以直接保存到本地电脑中作为自己的知识库使用。
以上就是今天的内容了,感谢收看,拜拜。