Python爬取百度文库搜索文章

AnonymousV脸 2019-02-09

展开全文

Python是一门非常简单的语言，快速入门之后可以做很多事情。另外Python又名爬虫，就是因为其在网页抓取的上的快速功效，今天这个例子就是不到百行代码实现从百度文库抓取文章

从百度文库爬取相关的文章，其中大致分为两个步骤

1，给定关键字，搜索百度文库，并按页解析出要下载的文档url

2，批量下载url下的文档

网上关于Python爬取百度搜索结果的代码还是挺多的，但是没找到爬取百度文库的，对比百度搜索和百度文库的url，两者差异并不大，只是部分关键字，百度搜索用的缩写

对比了下看看里面的几个区别，差别不是太大，主要是百度搜索用的是缩写，所以只要把代码略微修改即可，这里就不重复贴代码了，文章的末尾我会把全部代码贴出来

找到搜索结果url后，后面翻页，两者的逻辑是一致的，都是用pn=?进行页面偏移，所以只要解析url的结果获取对应的文章地址，保存下来，第一步就算是完成了

第二步其实就是遍历拿到文档url，依次下载，只是需要url请求的时候需要模拟手机，因为电脑端会因为翻页问题导致无法完整下载

大概步骤就是这样，下面就直接上代码了

第一步骤代码：

1、根据关键字拼出来搜索结果url

2、通过https访问百度文库获取搜索结果

3、解析搜索结果，将文库的文档地址，保存到一个txt中

第二步骤代码：

1、读取txt，依次访问文档url，将url中的文档，保存到本地

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： AnonymousV脸 > 《编程语言知识》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

AnonymousV脸

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换