Python3 Pandas模块学习笔记1

Pandas数据结构

Pandas 处理一下三个数据结构

  1. Series 系列
  2. DataFrame 数据帧
  3. Panel 面板

维数和描述

较高维数据结构是其较低维数据结构的容器。 DataFrame是Series的容器,Panel是DataFrame的容器

数据结构维数可变性,描述
Series1均匀数据,大小不变,数据可变
DataFrame2异构数据,大小可变,数据可变
Panel3异构数据,大小可变,数据可变

Series(系列)

Series 是具有均匀数据的一位数组结构。
Series 是个定长的字典序列。定长是因为在存储的时候,相当于两个ndarray

1
2
s = pd.Series([1,3,5,np.pi,6,8])
print(type(s))

DataFrame(数据帧)

行列数据

1
2
3
4
5
dates = pd.date_range('20170101',periods=7)
print(dates)

df = pd.DataFrame(np.random.randn(7,4),index=dates,columns=list('ABCD'))
print(df)

Pandos基础操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import pandas
_data = pandas.read_csv('womens_clothing_e-commerce_reviews.csv')
print(type(_data)) # pandas.core.frame.DataFrame

## 属性:
print(_data.dtypes) # DataFrame 里面存在的类型
_data.index #索引
_date.columns #列
_data.values #底层numpy数据
_data.T #置换

_data.describe() #快速统计摘要

_data.head() #显示前五条数据
# _data.head(3) #显示前3条数据

_data.tail() #显示末尾5条

# _data.shape # 显示矩阵的形状

_data.loc[0] # 获取第一行数据
_data.loc[:10] # 切片

print(_data.columns) # 显示列名
# _data['Clothing ID'] # 获取该列
# _data['Age'] # 获取列内容
# _data[['Age','Clothing ID']] # 获取多列内容,注意[]里面传递的是array

# 排序
df.sort_index(axis=0,ascending=False)
df.sort_values(by='B')