利用Python进行数据分析

imelee 2017-02-18

展开全文

2、使用HDF5格式

很多工具都能实现高效读写磁盘上以二进制格式存储的科学数据。HDF5就是其中一个流行的工业级库，它是一个C库，带有许多语言接口，如Java、Python和MATLAB等。HDF5中的HDF指的是层次型数据格式（hierarchical data format）。每个HDF5文件都含有一个文件系统式的节点结构，它使你能够存储多个数据集并支持元数据。与其他简单格式相比，HDF5支持多种压缩器的即时压缩，还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集，HDF5就是不错的选择，因为它可以高效地分块读写。

Python中的HDF5库有两个接口（即PyTables和h5py），它们各自采取了不同的问题解决方式。h5py提供了一种直接而高级的HDF5 API访问接口，而PyTables则抽象了HDF5的许多细节以提供多种灵活的数据容器、表索引、查询功能以及对核外计算技术（out-of-core computation）的某些支持。

pandas有一个最小化的类似于字典的HDFStore类，它通过PyTables存储pandas对象：

In [5]: store = pd.HDFStore('mydata.h5')

In [6]: store['obj1'] = frame

In [7]: store['obj1_col'] = frame['a']

In [8]: store
Out[8]: 
<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5
obj1       DataFrame
obj1_col   Series

HDF5文件中的对象可以通过与字典一样的方式进行获取：

In [9]: store['obj1']
Out[9]: 
   a  b  c  d  message
0  1  2  3  4    hello
1  5  6  7  8    world
2  9 10 11 12      foo

如果需要处理海量数据，我建议你好好研究一下PyTables和h5py，看看它们能满足你的哪些需求。由于许多数据分析问题都是IO密集型（而不是CPU密集型），利用HDF5这样的工具能显著提升应用程序的效率。

注意：

HDF5不是数据库。它最适合用作“一次写多次读”的数据集。虽然数据可以在任何时候被添加到文件中，但如果同时发生多个写操作，文件就可能会被破坏。

3、读取Microsoft Excel文件

pandas的ExcelFile类支持读取存储在Excel 2003（或更高版本）中的表格型数据。由于ExcelFile用到了xlrd和openpyxl包，所以你先得安装它们才行。通过传入一个xls或xlsx文件的路径即可创建一个ExcelFile实例：

xls_file = pd.ExcelFile('data.xls')

存放在某个工作表中的数据可以通过parse读取到DataFrame中：

table = xls_file.parse('Sheet1')

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： imelee > 《数据库》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

imelee

关注对话

TA的最新馆藏

[转] 髋伸受限托马斯测试
[转] 维生素B2缺乏是任何疾病的罪魁祸首
python函数传入数量可变参数
[转] 调节好微循环、改善生命营养
[转] 肩峰下撞击综合征
康复临床中处理肩关节活动受限思路

喜欢该文的人也喜欢更多

热门阅读换一换