所在的位置： html >> html资源 >> 数据分析工具Pandas的数据结构学习

数据分析工具Pandas的数据结构学习

Pandas是一个开源的第三方Python库，从Numpy和Matplotlib的基础上构建而来，Python数据分析的必备高级工具。

Pandas数据结构

Pandas内置了两种数据结构，分别是一维数据结构(Series)和二维数据结构(DataFrame)。

一维数据结构(Series)

一维数据结构(Series)是带标签的一维数组，标签可以理解为索引，标签不局限性与整数，也可以是字符类型，使用name和index属性描述数据值。

创建Series对象

Pandas使用Series(data,index,dtype,copy)函数来创建Series对象，从而调用Series对象的属性和方法达到数据分析的目的。data是输入的数据，可以是列表、数组、字典、常量等，index是索引值，必须唯一，如果没有索引，默认从0开始递增，dtype是数据类型，如果没有这个参数，程序会自动判定，copy表示是否对data拷贝，默认是false。

代码实例如下图所示：

运行代码，输出结果如下图所示：

从运行结果看出以下几点

空对象警告:创建空对象报了一个警告，空对象打印的数据类型是float64,警告空对象将用object类型替代float64类型，要消除这个警告，传一个dtype参数就可以了。

数组创建对象:如果有索引参数，传递的索引长度必须与data长度相同。

字典创建对象：如果没有传递索引，将以字典的键构造索引，如果传递了索引，索引需要和字典的值一一对应。

常量创建对象：常量创建对象必须传递索引参数。

数据访问

位置索引访问：和列表数组类似可以通过元素的下标进行访问，可以通过位置下标进行访问。也可以通过切片的方式访问，

索引标签访问：使用索引标签可以访问单个的值，也可以访问多个值，访问不存在的标签会报错。

常用属性和方法：

axes：以列表的形式返回所有行索引标签

dtype:返回对象的数据类型

empty:返回一个空的Series对象

size：返回输入数据的维度

vlaues：以列表形式返回Series对象

index：返回Index类型的索引

head(n):返回前n行数据，默认显示前5行数据。

tail(n):返回后n行数据，默认显示后5行数据。

isnull()：如果为值不存在或者缺失，则返回True

notnull()：如果值不存在或者缺失，则返回False

二维数据结构(DataFrame)

二维数据结构(DataFrame)是一种表格型数据结构，有行标签和列标签，行标签是index，列标签是columns。创建该结构时也可以指定相应的索引值。DataFrame每列是数据类型可以不同，也叫异构数据表。

创建DataFrame对象

使用DataFrame(data,index,columns,dtype,copy)方法创建对象，data传入数据，可以是列表、数组、字典、Series、标量以及DataFrame对象；index是行标签，默认从0开始递增；columns是列标签，默认从0开始递增；dtype表示每一列的数据类型；copy表示复制data，默认是false。

代码实例如下图所示：

运行代码，输出如下图所示：

列索引操作数据列

DataFrame可以使用列索（columnsindex）引来完成数据的选取、添加和删除操作。

代码实例如下图所示：

运行输出结构如图所示：

行索引操作数据行

常用属性和方法

T：行和列转置，也就是行和列对换

axes：返回一个仅以行轴标签和列轴标签为成员的列表

dtypes：返回每列数据的数据类型

empty：DataFrame中没有数据或者任意坐标轴的长度为0，则返回True

shape：返回一个元组(a,b)，表示了DataFrame维度,a表示行，b表示列

size：DataFrame中的元素数量

vlaues：以嵌套列表形式返回DataFrame中的元素值

head(n)：返回DataFrame中前n列数据，默认是前5列

tail(n)：返回DataFrame中后n列数据，默认是后5列

shift(periods=1,freq=None,axis=0)：peroids为int类型，表示移动的幅度，可以是正数，也可以是负数，默认值为1；freq是日期偏移量，默认是None，适用时间序，取值为符合时间规则的字符串；axis如果是0或者"index"表示上下移动，如果是1或者"columns"则会左右移动；fill_value值用来填充缺失值。

代码实例和运行结果如下图所示：

数据排序

sort_index(axis=0,ascending=True)在指定轴上根据索引进行排序，默认升序，axis为0是在0轴（也就是垂直方向）排序，为1是在1轴（水平方向）排序，ascending为True表示升序，为False表示降序。

sort_values(索引，axis=0/1,ascending=True/False)在指定轴上根据数值进行排序，默认升序索引必须有，默认0轴。

数据基本统计分析

sum()：计算数据的总和，默认按0轴计算，axis为1按1轴算

count()：非NaN值的数量

mean()和median()：计算数据的算术平均值和算术中位数

var()和std()：计算数据的方差和标准差

min()和max()：计算数据的最小值和最大值

describe()：针对0轴各列的汇总统计

代码示例如下图所示：

运行代码输出结果如下所示：

导入外部数据

Pandas库还有导入外部数据，可以导入Execl文件、JSON文件等多种格式的数据文件。

read_execl(io，sheet_name，header)，io是文件类对象，一般传入文件路径；sheet_name可以传入工作的名称，也可以是数字，0表示第一个工作表；header指定列表中从第几行作为列索引/列名，默认是0。to_excel()导出数据生成新的Excel文件。

此外还有read_csv()和to_csv()导入导出CSV文件，read_html()和to_html()导入导出HTML文件，read_json()和to_josn()导入导出JSON文件等等。

代码示例如下图所示：

生成的文档内容如下所示：

可以看到表格里已经增加了新的一条数据，文档格式有些不一样，我们可以根据之前《pythonExecl处理学习记录》中学习的内容进行格式、字体的设置。

总结：

Pandas作为一款数据分析工具，还有很多其他的内容需要学习，我会在后面有时间慢慢学习，大家有兴趣的可以看看这本书，主要讲解Pandas数据分析的基础知识和应用。

转载请注明：http://www.aierlanlan.com/rzgz/3499.html

上一篇文章：新闻源软件开发网络科技上海牛巨微

下一篇文章： sublimetext3插件之HTML