Pandas 基础
参考: https://www.pypandas.cn/ 或 pandas docs
numpy 主要做计算, pandas 主要做数据清理和分析.
1 | import pandas as pd |
Series
类似 ndarray 只有一列数据, 但是 series 每个数据都有一个 index 标签, 默认是 0 开始序数.
每个元素底层类型是 numpy.int64
1 | dt = pd.Series([1,2,3]) |
DataFrame
DataFrame 是多个 Series 组成的表
1 | # 使用 array 创建 |
文件读取
1 | # csv json excel xml html hdfs ... |
查看数据基本信息
1 | df.head(n=5) |
处理缺失值
1 | # 是否是缺失值 |
分组统计
1 | # 统计操作 |
图形化
1 | # 折线图 |
存储图片
1 | from PIL import Image |
重塑
1 | # index 不变, c1 中的值做列, 展示 c2 数据 |
数据处理
排序
1 | df.sort_values(by = "c", ascending=True) |
替换
1 | df["nc"] = df["c"].replace("regexp", "", regex=True) |
数据类型转换
1 | df["nc"] = pd.to_numeric(df["c"]) |
拼接
1 | # axis=0 上下拼, axis=1 左右拼 |
时间序列
1 | # 重命名 column 字段 |