手把手教你使用 Pandas 读取结构化数据-662P.COM

Pandas是一个基于Numpy库开发的更高级的结构化数据分析工具，提供了Series、DataFrame、Panel等数据结构，可以很方便地对序列、截面数据（二维表）、面板数据进行处理。

我们可通过限定时间ID和样本ID获得对应的Series和DataFrame。

由于这些对象的常用操作方法十分相似，因此本文主要使用DataFrame进行演示。

Pandas库提供了便捷读取本地结构化数据的方法。这里主要以csv数据为例，read_csv函数可以读取csv数据，代码如下：

import pandas as pd 
csv = pd.read_csv('data/sample.csv') 
csv

id name   scores 
0   1  小明    78.0 
1   2  小红    87.0 
2   3  小白    99.0 
3   4  小青 99999.0 
4   5  小兰     NaN

按照惯例，Pandas会以pd为别名，以read_csv函数读取指定路径下的文件，然后返回一个DataFrame对象。如果在命令行中打印DataFrame对象，可读性可能会略差一些;如果在Jupyter Notebook中打印的话，可读性会大幅提升。

打印出来的DataFrame包含索引(第一列)，列名(第一行)及数据内容(除第一行和第一列之外的部分)。

此外，read_csv函数有很多参数可以设置，如下所示。

使用参数usecol和nrows读取指定的列和前n行，这样可以加快数据读取速度。读取原数据的两列、两行示例如下。

csv = pd.read_csv('data/sample.csv',\ 
                  usecols=['id','name'],\ 
                  nrows=2) #读取'id'和'name'两列，仅读取前两行 
csv

id name 
0   1  小明 
1   2  小红

参数chunksize可以指定分块读取的行数，并返回一个可迭代对象。这里，big.csv是一个4500行、4列的csv数据，设定chunksize=900，分5块读取数据，每块900行，4个变量，如下所示：

csvs = pd.read_csv('data/big.csv',chunksize=900) 
for i in csvs: 
   print (i.shape)

(900, 4) 
(900, 4) 
(900, 4) 
(900, 4) 
(900, 4)

可以使用pd.concat函数读取全部数据：

csvs = pd.read_csv('data/big.csv',chunksize=900) 
dat = pd.concat(csvs,ignore_index=True) 
dat.shape

(4500, 4)

在数据sample.csv中，“小青”的分数中有的取值为99999，这里令其读取为缺失值，操作如下：

csv = pd.read_csv('data/sample.csv', 
                  na_values='99999') 
csv

id name  scores 
0   1  小明   78.0 
1   2  小红   87.0 
2   3  小白   99.0 
3   4  小青    NaN 
4   5  小兰    NaN

读取数据时，乱码情况经常出现。这里需要先弄清楚原始数据的编码形式，再以指定的编码形式读取，例如sample.csv编码为UTF-8，这里以指定编码(参数encoding)方式读取。

csv = pd.read_csv('data/sample.csv', 
                  encoding='utf-8') 
csv

id name   scores 
0   1  小明    78.0 
1   2  小红    87.0 
2   3  小白    99.0 
3   4  小青 99999.0 
4   5  小兰     NaN

关于作者：张秋剑，就职于腾讯云金融拓展中心，从事微信财富营销管理、数据中台、AI应用等解决方案拓展工作，研究方向包括数字化转型、创新实践等。

张浩，曾任腾讯云金融首席架构师和星环科技金融行业技术总监，主要从事大数据、人工智能、云计算、区块链、联邦学习等相关技术研发与产品设计，具有丰富的企业架构设计、企业数字化战略转型运营与业务咨询经验。

周大川，就职于某中央金融企业金融科技研发中心，主要从事企业级数据平台开发、核心业务平台建设、AI赋能金融科技创新等工作，具有丰富的新一代金融业务系统建设经验。

常国珍，曾任毕马威咨询大数据总监，具有近20年数据挖掘、精益数据治理、数字化运营咨询经验，是金融信用风险、反欺诈和反洗钱算法领域的专家。

大数据