第五课、吸星大法批量爬取上市公司财务数据-完成版

无业游明001 2018-09-01

展开全文

回顾：

第一课、我是怎样三天学会Python编程，从一无所知到掌握爬取和讯网上市公司财务报表做分析的 ----介绍如何构建一个Python爬虫环境，Python+MySQL安装；

第二课、开心的爬虫之旅 ----具体分析目标数据表的构成，介绍分析网页的必要工具；

第三课、上市公司财报表格的建立 ----我们把资产负债表、现金流量表、财务比率表和MJ数字力分析都建起来。

第四课吸星大法获取上市公司财务数据之打磨第一只螺旋桨----解析出目标网页上必要的数据块，用一个新的模块批量吸取数据并写入数据库

经过前三课的规划和准备，同学们熟悉了Python和数据库MySQL和分析网页工具-“开发者工具”，并建立了5个数据表用于存放上市公司利润表、资产负债表、现金流量表、财务比率表和MJ数字力分析表。

第四课开始，我们打磨出了爬取网页数据块并写入数据库的功能，并介绍了PyQuery模块-析取规则数据工具。但是，还不能完成所有数据的批量爬取。这也是我们今天课程要解决的内容。

我们将在第四课的基础上批量的析取上市公司的四张财务报表。

先讲讲批量爬取数据的思路。1、回顾第四课已经打磨好的螺旋桨；2、观察可重复执行代码段；3、抽象出可变内容。4、我们只需要修改变量内容，重复执行的代码段就可以爬取所有的上市公司四张财务报表数据，并保存到数据库里。

一、回顾第四课已经打磨好的螺旋桨

下面是第四课打磨完成的螺旋桨

可以看到上次课，我已经把一部分可变内容抽象出来，设置了变量指向这些内容，如上市公司代码stockid、会计日期accountdate、财报数据网址url、发起请求的头部信息变量data·cookies·headers。

这里要把遗漏的都提取出来。

二、观察可重复执行代码段，抽象出可变内容。

注意看，我们发现了lrb的匹配值__s30和sql的值可以提取出来

原文：sql = 'insert into hexun_lrb values(%s)'%__s30

这样改：

ssgscbb='hexun_lrb'
__s30=''
sql = 'insert into %s values(%s)' %(ssgscbb,__s30) #抽象出来就像这样，实际上就是字符串格式化。你可以想象引号里的字符串是模版，具体内容需要后面的%（变量1、变量2）提供。这里提供的内容是变量ssgscbb和__s30指向的内容。