二维数据与DataFrame

什么是二维数据

二维数据可以理解成“表格型数据”,常见形式有:

  • 数据库表
  • CSV
  • Excel 表格
  • Google Sheets

在数据分析里,这是最常见的数据组织方式之一。

NumPy 二维数组

二维数据可以用 NumPy 数组表示:

import numpy as np
 
a = np.array([
    [1, 1, 1],
    [2, 3, 1],
    [4, 9, 2]
])

这时数据就像一个矩阵,也可以继续用于描述统计

axis 的理解

处理二维数据时,axis 很关键:

axis含义
None对全部元素一起计算
0按列计算
1按行计算

例如:

np.mean(a)
np.mean(a, axis=0)

Pandas 的 DataFrame

DataFramePandas 处理二维数据的核心结构,像一张带行名和列名的表。

import pandas as pd
 
df = pd.DataFrame(a, columns=["A", "B", "C"])

DataFrame 常见操作

均值

df.mean()
df.mean(axis=1)

取某一列

df["A"]
df["A"].mean()

转回数组

df.to_numpy()

相比旧写法 .values,更推荐 .to_numpy()

这一页的定位

这部分已经从“基础编程”进入“数据分析入门”了。它和前面的基础语法不同,更强调:

  • 表格型数据
  • 数值计算
  • 行列统计

python 描述统计基础 NumPy数组 NumPy axis参数 Pandas DataFrame 均值