python中reshape_用Python做数据分析的基础知识——Pandas&Numpy
Numpy与Pandas两个包是Python数据分领域使用较多的两个包,这里,我将根据如下结构对这两个包的基础知识与操作进行一个汇总:
Numpy:
Pandas:
Numpy:
Numpy是一个开源的Python科学计算基础库。
ndarray:
由上图中ln[2]与ln[5]的对比可以看出,ndarray数组间的运算是通过索引值完成的,只有索引值相同的元素才能进行计算,而普通一维数组需要通过索引对数组中元素进行定位后才能计算。
ndarray对象的属性与元素类型:
ndarray数组的创建方法:
ndarray数组有如上四种创建方法。
ndarray数组的变换:
ndarray数组的变换中运用的较多的是.reshape((n,m))与.astype(newtype)方法,.reshape()不会改变原数组而是生成一个n*m形状的新的数组,.astype()同样不会改变原数组而是创建new_type类型的新数组。
ndarray数组的操作:
ndarray数组的操作有索引与切片,索引即获取数组中特定位置的元素,切片即获取数组元素的子集。
其中,一维数据的索引和切片与Python列表类似。而n维数组即可分维度进行索引和切片,在各维度内的索引与切片规则与列表的类似。
ndarray数组的运算:
Pandas:
Pandas是提供高性能易用数据类型和分析工具的第三方库
Pandas是基于Numpy实现的,Pandas有两种数据类型:Series和DataFrame。
Series类型:
Series类型的基本操作:
DataFrame类型:
DataFrame类型类似于表格,有index与columns;
且可通过两种索引方法定位某一行的值,即.loc[]与.iloc[]方法,DataFrame.loc[]方法可通过自定义索引的值定位某行,DataFrame.iloc[]方法可通过自动索引的值定位某行;
可通过DataFrame[]方法定位某一列的值。
Pandas库的数据类型操作:
Pandas库的运算:
数据排序:
统计分析函数:
以上就是对Numpy与Pandas基础知识的汇总,在以后的工作学习中随时可以在这里回顾。
在下一篇文章中我将对数据集“朝阳医院2018年销售数据”进行数据清洗的工作。