首页 » 软件优化 » 一次简单爬虫的分析、开发、部署(爬虫部署开发数据分析)

一次简单爬虫的分析、开发、部署(爬虫部署开发数据分析)

雨夜梧桐 2024-10-26 03:24:11 0

扫一扫用手机浏览

文章目录 [+]

H5地址: https://m.csdn.net/nav/newarticles

分析

通过浏览器查看前3页的列表数据请求, 总结出url的动态规律

第1页:https://www.csdn.net/api/articles?type=new&category=newarticles&shown_offset=1537075945594796&first_view=true

一次简单爬虫的分析、开发、部署(爬虫部署开发数据分析) 软件优化
(图片来自网络侵删)

第2页:https://www.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1537075894000000&first_view=false

第3页:https://www.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1537075870000000&first_view=false

动态的url如下:

https://www.csdn.net/api/articles?type={0}&category=newarticles&shown_offset={1}&first_view={2}

请求第1页时, type=new,first_view=true ; 往后翻页时,type=more, first_view=false, shown_offset取值于上一页请求的返回

类似这种前端分页, 为了防止用户翻页时, 数据库有新的记录生成造成前端重复显示, 分页参数的值一般都会由后端控制,后端会给前端返回一个‘时间戳’或‘数据Id’用于下一页请求,比如csdn的shown_offset,这种值一般取自上一页数据的最后一条记录.

开发/设计

语言/工具

python3,基于scrapy框架:https://scrapy.org

idea,安装python插件

mysql数据库

功能

列表数据分页爬取、解析

列表数据解析时可以继续爬取详情数据

数据记录到数据库,已存在的禁止重复爬取

输出日志文件

分环境部署dev,test,prod

源码

码云: https://gitee.com/wangxu3655/csdn-newarticle-spider

运行方式: scrapy runspider spider.py

部署

如果基于scrapy的爬虫做到了工程级别或者爬虫数量很多时,部署方案可考虑官方推荐的scrapyd

如果爬虫比较小,需要在linux下快速部署, 可以借助于crontab命令来定时运行爬虫, 如下:

# 每天9点~23点的第30分钟执行一次30 9-23 /usr/local/python3.6.0/bin/scrapy runspider /usr/local/apps/csdn-newarticle-spider/spider.py >/dev/null 2>&1

测试数据结果:

对于内容详情/富文本的爬取, 一般存在主样式的丢失, 如果想正常使用, 需要二次编辑和定制.

标签:

相关文章

IT业的奇幻之旅,GIF技术助力创新与发展

随着互联网技术的飞速发展,我国IT产业正迎来前所未有的机遇。在这片广阔的天地中,GIF技术以其独特的魅力,成为推动创新与发展的得力...

软件优化 2025-01-01 阅读0 评论0

语言发展的轨迹,从古至今的演变与启示

语言是人类文明的载体,是人类沟通、思维和表达的工具。从古至今,语言在不断发展演变,不仅反映了人类社会的变迁,也体现了人类智慧的进步...

软件优化 2025-01-01 阅读0 评论0

详细讨论C语言POS,掌握编程之美

C语言作为一门历史悠久、应用广泛的编程语言,在我国计算机领域占据着举足轻重的地位。而POS(Point of Sale,销售点)作...

软件优化 2025-01-01 阅读1 评论0

梅花数,探寻中国古代数学之美

梅花数,作为中国古典数学的瑰宝,源于《易经》中的八卦理论,是古代数学家们对数与形、数与理的深刻洞察。梅花数以梅花图案为载体,巧妙地...

软件优化 2025-01-01 阅读1 评论0