分享

利用爬虫挣钱系列2-细说数据整合

 鹰兔牛熊眼 2019-01-22

上一篇写了个利用爬虫挣钱的框架,这篇写细一点,我曾经做过的一个简单数据整合挣网盟收入的案例。



上一篇讲述了企查查/天眼查这类提供企业工商信息查询服务,他的企业立家根本就是抓取企业工商信息和整合这些数据的能力,

这在抓全率和准确性上要求颇高,这需要一个团队来完成才行。


我在研究这类公司流量来源时,观察到从搜索引擎来的流量不错,就在思考做一个简易版的企业工商信息查询用于获取搜索流量。


你要问:为什么已经有几个这类网站了,我还要做这个呢?


因为中国有几千万家公司,每一家公司都是一张网页的话,就有几千万张网页,从SEO(搜索引擎优化)来讲,你的网页越多,薅到的搜索流量概率就大一点,如果只是几千几万个网页,你薅到流量的概率可能是0,但是量级到千万时,你的机会就被放大了。


你还要在问:你的网页人家都有,搜索引擎凭什么给你排名,给你流量?

第一,已有的网站 在SEO的标题关键词设置上 还有做得更好的空间。

第二,我肯定不是全复制,会糅杂一些内容在里面。

第三,概率问题,因为有几千万个网页(这些页面内容是有价值的),足够多,有概率做到有排名和有流量的可能性。

(搜索引擎排名虽然有算法控制,我估计还写了大量的规则在控制,规则写多了有个缺陷,就是自己都搞不清楚规则间的关联性了。开玩笑的!)


就这样我就撸起袖子开始写爬虫了,大约写了四周多,因为需要拨号换IP,就买了一个歪的可以拨号的云主机,中间大部分时间都在解决这台云主机的自身限制问题,这台主机只有500M空余内存,1G多空余硬盘空间,我大部分时间都在想怎么把这几千万家工商信息html放进1G多的硬盘里,怎么把爬虫的运行内存控制在500M以内。


由于是个单台爬虫程序,把网页抓取完又用了1个多月。这中间还到国庆放假,白天就在泸沽湖玩,心情大好,晚上就在房间里调试程序,f**k,网页又改版了,账号又不能用了,程序咋又停掉了呢,当程序员就是一直陷在这种代码调试,不断口念f**k的生活中。


这抓取的过程间隙,我找了一个前端同事写了个最简单html网站,只有5,6个页面,真的是简单。我就在想后端程序的问题,就我一个人,还是个前途未卜的网站,不可能写个很好的后端程序,关键是数据库里有几千万条数据,要支持各种分类查询,翻页操作,于是就想办法针对这个业务本身的性质做优化,在数据库操作和缓存上做特定的方式,这样我就可以一个人搞定所有,任何查询都在几百毫秒内响应。这个借鉴了大V caoz写的文章的思路,如何应对并发(1) - 关于数据索引


数据抓完,网站上线,提交了搜索引擎,那个网站基本没人管,过了大半年后有小几万IP,每个月的网盟收入有几千块,现在流量和收入都还在往上涨,虽然对于公司来说算少的,但是只花了两月时间,后续没有维护,产出比还是可以的。


其实1,写这篇文章的时候,其实又有了一点在这个基础上抓取数据做流量的思路,所以时不时回溯一下挺好的。

其实2,做的这个数据整合很简单,后面再说说,抓取数据 深加工数据做流量挣钱的路子。


PS:还是强调,抓取的数据和商用数据,要合法合规


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多