二维数据与DataFrame
什么是二维数据
二维数据可以理解成“表格型数据”,常见形式有:
- 数据库表
- CSV
- Excel 表格
- Google Sheets
在数据分析里,这是最常见的数据组织方式之一。
NumPy 二维数组
二维数据可以用 NumPy 数组表示:
import numpy as np
a = np.array([
[1, 1, 1],
[2, 3, 1],
[4, 9, 2]
])这时数据就像一个矩阵,也可以继续用于描述统计。
axis 的理解
处理二维数据时,axis 很关键:
| axis | 含义 |
|---|---|
None | 对全部元素一起计算 |
0 | 按列计算 |
1 | 按行计算 |
例如:
np.mean(a)
np.mean(a, axis=0)Pandas 的 DataFrame
DataFrame 是 Pandas 处理二维数据的核心结构,像一张带行名和列名的表。
import pandas as pd
df = pd.DataFrame(a, columns=["A", "B", "C"])DataFrame 常见操作
求均值
df.mean()
df.mean(axis=1)取某一列
df["A"]
df["A"].mean()转回数组
df.to_numpy()相比旧写法 .values,更推荐 .to_numpy()。
这一页的定位
这部分已经从“基础编程”进入“数据分析入门”了。它和前面的基础语法不同,更强调:
- 表格型数据
- 数值计算
- 行列统计