看样子,主要目的是上简历

如果你想要爬虫的offer,那么你的项目应该有这么几个特征:

能用常用的框架,必要时有能力修改框架甚至自己写一个

熟悉多线程多进程分布式等,对爬虫任务调度有很好的解决办法

采集数据频率高,数据量大,范围广,能做深度抓取。爬虫遇到性能瓶颈,如何分析瓶颈并解决。

熟悉并能解决常见的反爬措施,比如常见的图片验证,滑动验证,拼图,短信验证等。常见的封IP,封header等。比如给爬虫投毒喂假数据如何识别。

熟悉数据结构和算法,拿到数据可以进行一些基础的清洗,比如如何在内存容量有限的情况下清洗亿万数据;比如如何从提取目标数据等。甚至可以做一些舆情分析,数据分析等。

熟悉常用的数据库和nosql数据库,对数据存储有一定见解,如何设计数据库和表结构等,数据库优化等。

甚至有可能写接口给别人调用。

我没做过专业的爬虫,但是面试过爬虫的offer,能想到的只有这么多,有别的再补充。

对于非爬虫offer,仅仅想提升简历丰富程度。比如投Python岗位,想有几个爬虫项目。那么你的爬虫项目可以规模小一点,从上面的流程简化。比如亿万数据可以降为百万数据,爬取范围可以仅限几个网站,反爬措施可以了解不多。

不管什么岗位,其实后面的技术都不能少,比如多线程多进程分布式的了解,数据结构和算法,数据库等,这都是基础。

想到别的再补充

以上

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐