小亮最近在做一些工作的时候,总因为训练数据不够而苦恼。就目前而言,获得数据的一个有效途径就是定向爬取一些网站的数据。这样一来,我不得不学习一点爬虫技术做一些数据获取工作。为此,我想借这个机会,写一系列总结文章吧,即作为向入门或感兴趣的朋友做一些介绍、也期待更多朋友一同交流进步。我十分喜欢新东方的一句话“不要寻求不可知,要从已知推未知。”因此,对于收集数据、清洗数据、分类数据、使用数据的过程来说,我能想到的是生活中的“回收垃圾”场景。收集废品、清洗废品、废品分类、出售。莫名的感觉这个过程很像。为此,我想从类比收废品的角度,写一点爬虫的文章,如果你持续关注,将在三篇文章后,写完自己的第一个爬虫程序。欢迎大家一起交流学习,做一个快乐的“拾荒者”。
拾荒
选址建厂(开发工具选择):如果我们想开一个收废品的厂子,那我们必须有我们能够工作的地方,我们需要在这里给废品清洗、分拣。给其他出售废品的人结算金钱,以及对他人的废品二次加工。同样,我们在做互联网拾荒者的时候,也需要这样的一个地方,对收到的废品(数据)进行二次加工。幸运的是,这些已经有现成的工厂模板(IDE),我们仅需要选择一个装到电脑中就行。

Python
对于爬虫而言,毫无疑问、最火热的编程语言是Python.当然,其他的语言也可以做。对于用Python做爬虫而言、我们需要一个Python发行包(用来交易废品时交流),以及一个编写IDE(用来工作场地)。
对于发行包来说,我比较推荐的是Anaconda(支持800+个第三方库、免费)、Canopy(支持500个第三方库,是收费的)这俩本质上也是Python发行包。这两个都是一个大佬(Travis Opliphant)带领开发的,致敬!
当然,你也可以选择单纯的Python(然后自己装三方库)。
致敬
对于开发工具的选择,可以通过比较熟悉的软件切入。
IDLE 自带的,功能简单直接,适合写300以内的代码Sublime Text 编程体验很好,但是调试欠佳。免费版本很好Wing 收费,但是功能很好Pycharm 当前比较流行,分社区版(免费),专业版(收费)。是比较强大的软件。大多数功能,免费版已经足够用了。Visual Studio 通过配置PTVS可以实现,微软公司维护,调试功能强大Eclipse 通过配置PyDev实现python编程。但是早期是针对Java语言设计的,可以自定义功能。但是初级用户慎用。总结:好了,到这里,对于选址建厂的介绍可以结束了。个人认为,如果之前有熟悉的软件,不妨从对应软件开始,降低学习痛苦,如果没有,可以从Pycharm 或者 Sublime Text开始学习。环境配置是比较麻烦的,我不可能通过文章讲述。对此我有两个解决办法:一,去其他视频平台,找视频跟着一步步学着做。二、去找博客学着做。当然,如果有人看的话,我也可以出一期安装视频。如果你对我的文章内容感兴趣的话,欢迎点赞关注,有问题可在评论区交流,一起探讨。