数据分析工具Pandas的数据结构学习

Pandas是一个开源的第三方Python库,从Numpy和Matplotlib的基础上构建而来,Python数据分析的必备高级工具。

Pandas数据结构

Pandas内置了两种数据结构,分别是一维数据结构(Series)和二维数据结构(DataFrame)。

一维数据结构(Series)

一维数据结构(Series)是带标签的一维数组,标签可以理解为索引,标签不局限性与整数,也可以是字符类型,使用name和index属性描述数据值。

创建Series对象

Pandas使用Series(data,index,dtype,copy)函数来创建Series对象,从而调用Series对象的属性和方法达到数据分析的目的。data是输入的数据,可以是列表、数组、字典、常量等,index是索引值,必须唯一,如果没有索引,默认从0开始递增,dtype是数据类型,如果没有这个参数,程序会自动判定,copy表示是否对data拷贝,默认是false。

代码实例如下图所示:

运行代码,输出结果如下图所示:

从运行结果看出以下几点

空对象警告:创建空对象报了一个警告,空对象打印的数据类型是float64,警告空对象将用object类型替代float64类型,要消除这个警告,传一个dtype参数就可以了。

数组创建对象:如果有索引参数,传递的索引长度必须与data长度相同。

字典创建对象:如果没有传递索引,将以字典的键构造索引,如果传递了索引,索引需要和字典的值一一对应。

常量创建对象:常量创建对象必须传递索引参数。

数据访问

位置索引访问:和列表数组类似可以通过元素的下标进行访问,可以通过位置下标进行访问。也可以通过切片的方式访问,

索引标签访问:使用索引标签可以访问单个的值,也可以访问多个值,访问不存在的标签会报错。

常用属性和方法:

axes:以列表的形式返回所有行索引标签

dtype:返回对象的数据类型

empty:返回一个空的Series对象

size:返回输入数据的维度

vlaues:以列表形式返回Series对象

index:返回Index类型的索引

head(n):返回前n行数据,默认显示前5行数据。

tail(n):返回后n行数据,默认显示后5行数据。

isnull():如果为值不存在或者缺失,则返回True

notnull():如果值不存在或者缺失,则返回False

二维数据结构(DataFrame)

二维数据结构(DataFrame)是一种表格型数据结构,有行标签和列标签,行标签是index,列标签是columns。创建该结构时也可以指定相应的索引值。DataFrame每列是数据类型可以不同,也叫异构数据表。

创建DataFrame对象

使用DataFrame(data,index,columns,dtype,copy)方法创建对象,data传入数据,可以是列表、数组、字典、Series、标量以及DataFrame对象;index是行标签,默认从0开始递增;columns是列标签,默认从0开始递增;dtype表示每一列的数据类型;copy表示复制data,默认是false。

代码实例如下图所示:

运行代码,输出如下图所示:

列索引操作数据列

DataFrame可以使用列索(columnsindex)引来完成数据的选取、添加和删除操作。

代码实例如下图所示:

运行输出结构如图所示:

行索引操作数据行

常用属性和方法

T:行和列转置,也就是行和列对换

axes:返回一个仅以行轴标签和列轴标签为成员的列表

dtypes:返回每列数据的数据类型

empty:DataFrame中没有数据或者任意坐标轴的长度为0,则返回True

shape:返回一个元组(a,b),表示了DataFrame维度,a表示行,b表示列

size:DataFrame中的元素数量

vlaues:以嵌套列表形式返回DataFrame中的元素值

head(n):返回DataFrame中前n列数据,默认是前5列

tail(n):返回DataFrame中后n列数据,默认是后5列

shift(periods=1,freq=None,axis=0):peroids为int类型,表示移动的幅度,可以是正数,也可以是负数,默认值为1;freq是日期偏移量,默认是None,适用时间序,取值为符合时间规则的字符串;axis如果是0或者"index"表示上下移动,如果是1或者"columns"则会左右移动;fill_value值用来填充缺失值。

代码实例和运行结果如下图所示:

数据排序

sort_index(axis=0,ascending=True)在指定轴上根据索引进行排序,默认升序,axis为0是在0轴(也就是垂直方向)排序,为1是在1轴(水平方向)排序,ascending为True表示升序,为False表示降序。

sort_values(索引,axis=0/1,ascending=True/False)在指定轴上根据数值进行排序,默认升序索引必须有,默认0轴。

数据基本统计分析

sum():计算数据的总和,默认按0轴计算,axis为1按1轴算

count():非NaN值的数量

mean()和median():计算数据的算术平均值和算术中位数

var()和std():计算数据的方差和标准差

min()和max():计算数据的最小值和最大值

describe():针对0轴各列的汇总统计

代码示例如下图所示:

运行代码输出结果如下所示:

导入外部数据

Pandas库还有导入外部数据,可以导入Execl文件、JSON文件等多种格式的数据文件。

read_execl(io,sheet_name,header),io是文件类对象,一般传入文件路径;sheet_name可以传入工作的名称,也可以是数字,0表示第一个工作表;header指定列表中从第几行作为列索引/列名,默认是0。to_excel()导出数据生成新的Excel文件。

此外还有read_csv()和to_csv()导入导出CSV文件,read_html()和to_html()导入导出HTML文件,read_json()和to_josn()导入导出JSON文件等等。

代码示例如下图所示:

生成的文档内容如下所示:

可以看到表格里已经增加了新的一条数据,文档格式有些不一样,我们可以根据之前《pythonExecl处理学习记录》中学习的内容进行格式、字体的设置。

总结:

Pandas作为一款数据分析工具,还有很多其他的内容需要学习,我会在后面有时间慢慢学习,大家有兴趣的可以看看这本书,主要讲解Pandas数据分析的基础知识和应用。




转载请注明:http://www.aierlanlan.com/rzgz/3499.html