分享

Python爬取百度文库搜索文章

 AnonymousV脸 2019-02-09

Python是一门非常简单的语言,快速入门之后可以做很多事情。另外Python又名爬虫,就是因为其在网页抓取的上的快速功效,今天这个例子就是不到百行代码实现从百度文库抓取文章

从百度文库爬取相关的文章,其中大致分为两个步骤

1,给定关键字,搜索百度文库,并按页解析出要下载的文档url

2,批量下载url下的文档

网上关于Python爬取百度搜索结果的代码还是挺多的,但是没找到爬取百度文库的,对比百度搜索和百度文库的url,两者差异并不大,只是部分关键字,百度搜索用的缩写

对比了下看看里面的几个区别,差别不是太大,主要是百度搜索用的是缩写,所以只要把代码略微修改即可,这里就不重复贴代码了,文章的末尾我会把全部代码贴出来

找到搜索结果url后,后面翻页,两者的逻辑是一致的,都是用pn=?进行页面偏移,所以只要解析url的结果获取对应的文章地址,保存下来,第一步就算是完成了

第二步其实就是遍历拿到文档url,依次下载,只是需要url请求的时候需要模拟手机,因为电脑端会因为翻页问题导致无法完整下载

大概步骤就是这样,下面就直接上代码了

第一步骤代码

1、根据关键字拼出来搜索结果url

2、通过https访问百度文库获取搜索结果

3、解析搜索结果,将文库的文档地址,保存到一个txt中

第二步骤代码

1、读取txt,依次访问文档url,将url中的文档,保存到本地

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多