很多网站服务器往往通过判断客户端请求头中的 User-Agent 包含的操作系统信息、浏览器信息等来给不同的客户端浏览器发送不同的页面显示更好的效果。因此,在爬虫过程中就需要将我们自己的请求身份伪装成某种浏览器,而这个伪装信息就包含在 User-Agent 字段的赋值中,所以才要研究如何随机的生成各种不同的 User-Agent 的值来伪装我们的爬虫身份。 服务器对客户端请求头的 UserAgent 检测又称为 UA 检测,UA 值的字符串标准格式一般为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。根据操作系统、浏览器信息等的不同可以随机组合出不同的 User-Agent 的值。 2、导入 fake_useragent、并创建对象1# -*- coding: UTF-8 -*- 2 3# 从 fake_useragent 模块导入 UserAgent 4from fake_useragent import UserAgent 5 6# 创建 UserAgent 对象 7user_agent = UserAgent()
1# 随机统计生成 User-Agent 2print user_agent.random 3# 随机生成 ie 的 User-Agent 4print user_agent.ie 5# 随机生成 opera 的 User-Agent 6print user_agent.opera 7# 随机生成 chrome 的 User-Agent 8print user_agent.chrome 9# 随机生成 google 的 User-Agent 10print user_agent.google 11# 随机生成 firefox 的 User-Agent 12print user_agent.firefox 13# 随机生成 safari 的 User-Agent 14print user_agent.safari
|