Python版本:2.7 Python因其简洁及易读性广泛用于运维、爬虫和数据方面。 现在我们开始来编写第一只爬虫,首先需要有Python的环境,参考Python环境搭建及IDE选择进行安装。接下来需要导入相关模块,这只用到Python标准库里的三个模块就可以实现简单的爬虫。urllib模块用来下载图片,urllib2模块用来请求目标网站获取响应的内容,而re模块则是用来匹配字符串,提取有用的数据信息。 import urllib 爬虫主要是模拟人和浏览器来访问目标网站获取响应内容解析提取相关数据。下面要实现的爬虫的功能是获取百度贴吧楼层里的所有壁纸图片。那么代码需要实现模拟浏览器的行为,也就是访问贴吧地址,获取response内容解析后找到所有的图片地址并将所有图片保存下来。 电脑与服务器 先创建Request对象再使用urlopen请求目标网站,虽然可以直接使用urlopen请求目标网站,但是后续无法构造headers信息。read方法读取响应的内容,查看网页源代码是utf-8编码方式为了防止编码问题对读取的内容进行解码操作。因要提取的内容为图片,所有构建正则表达式字符串并使用re.find_all获取所有的图片链接,此时urls对象是列表,for循环遍历所有的链接后用urlretrieve方法下载图片文件。 def download_jpg(url): # 创建request对象
# 请求request对象
# 打印状态码
# 读取相应的内容,decode是根据网页编码方式进行解码
# 正则表达式字符串
# 找出所有符合正则表达式的字符串,返回的是列表
# 循环打印所有url
# 下载所有的图片,注意文件名称带.jpg
End. 作者:简杨 (中国统计网特邀认证作者) 本文为中国统计网原创文章,需要转载请联系中国统计网(),转载时请注明作者及出处,并保留本文链接。
|
|