Python是一门非常简单的语言,快速入门之后可以做很多事情。另外Python又名爬虫,就是因为其在网页抓取的上的快速功效,今天这个例子就是不到百行代码实现从百度文库抓取文章 从百度文库爬取相关的文章,其中大致分为两个步骤 1,给定关键字,搜索百度文库,并按页解析出要下载的文档url 2,批量下载url下的文档 网上关于Python爬取百度搜索结果的代码还是挺多的,但是没找到爬取百度文库的,对比百度搜索和百度文库的url,两者差异并不大,只是部分关键字,百度搜索用的缩写 对比了下看看里面的几个区别,差别不是太大,主要是百度搜索用的是缩写,所以只要把代码略微修改即可,这里就不重复贴代码了,文章的末尾我会把全部代码贴出来 找到搜索结果url后,后面翻页,两者的逻辑是一致的,都是用pn=?进行页面偏移,所以只要解析url的结果获取对应的文章地址,保存下来,第一步就算是完成了 第二步其实就是遍历拿到文档url,依次下载,只是需要url请求的时候需要模拟手机,因为电脑端会因为翻页问题导致无法完整下载 大概步骤就是这样,下面就直接上代码了 第一步骤代码: 1、根据关键字拼出来搜索结果url 2、通过https访问百度文库获取搜索结果 3、解析搜索结果,将文库的文档地址,保存到一个txt中 第二步骤代码: 1、读取txt,依次访问文档url,将url中的文档,保存到本地 |
|
来自: AnonymousV脸 > 《编程语言知识》