Python 大规模数据处理：

csv、Pandas 与 Polars 技术解析与性能优化

在处理百万级以上数据时，性能差异主要源于：内存分配机制、计算引擎实现（C/C++ vs Rust）、以及并行化程度。

1. csv 标准库：底层迭代器与流式处理

csv 模块是 Python 内置的，其核心是基于 C 编写的解析器，但它在 Python 层面上以迭代器形式运行。

技术细节：
- 内存恒定： 它不会一次性将文件加载到内存。通过 csv.reader 遍历，内存占用仅取决于单行数据的大小。
- Sniffer 探测： 它可以自动识别 CSV 的方言（如分隔符是 ,、; 还是 \t）。
```
import csv
with open('data.csv', 'r') as f:
    dialect = csv.Sniffer().sniff(f.read(2048)) # 自动探测格式
    f.seek(0)
    reader = csv.reader(f, dialect)
```
局限性： 缺乏向量化运算。所有数据均以字符串形式读入，后续的类型转换（如 int(row[0])）是在 Python 虚拟机中逐行完成的，这是主要的性能瓶颈。

Pandas 的核心是 DataFrame，它将数据存储为连续的 NumPy 数组（列式存储），这使得它在数值计算上远快于原生列表。

性能进阶技巧：
1. 更换 PyArrow 引擎： 默认 C 引擎是单线程的。engine='pyarrow' 利用多线程解析 CSV 并支持 SIMD 指令加速。
```
import pandas as pd
df = pd.read_csv("large.csv", engine="pyarrow")
```
2. 显式类型压缩 (Dtype Optimization)：
  Pandas 默认会使用 64 位（8 字节）存储整数和浮点数。手动指定更小位数的类型（如 int8 或 float32）可以显著降低内存开销。
```
# 将 64 位降至 8 位或 32 位，内存占用可缩减 50%-75%
df = pd.read_csv("data.csv", dtype={'id': 'int32', 'status': 'int8'})
```
3. 分块读取 (Chunking)：
  对于超出内存限制的文件，使用 chunksize 参数进行分批处理。
```
for chunk in pd.read_csv("huge.csv", chunksize=100000):
    process(chunk)
```

Polars 是目前 Python 生态中最快的单机数据处理库，其性能优势来源于 Rust 语言 的并发管理。

核心技术特性：
1. 并行解析： Polars 会自动检测 CPU 核心数，将 CSV 文件切分为多个分片（Segments）进行并行解析。
2. Lazy 模式与查询优化：
  使用 scan_csv 而不是 read_csv。Polars 会先构建逻辑计划，进行谓词下推（Predicate Pushdown）和投影下推（Projection Pushdown）。
  - 解释： 如果你后续要筛选 age > 20 且只看 name 列，Polars 会在读取文件时就过滤掉不符合条件的行和多余的列，而不是读完整个文件后再过滤。
```
import polars as pl
query = (
    pl.scan_csv("data.csv")
    .filter(pl.col("age") > 20)
    .select(["name", "age"])
)
df = query.collect() # 此时才真正触发读取和计算
```
3. 零拷贝 (Zero-copy)： 与 Apache Arrow 深度集成，在数据传输和操作中尽量减少内存拷贝。

指标	csv 标准库	Pandas (默认)	Pandas (PyArrow)	Polars
读取耗时	~90s	~20s	~4s	~2s
多线程支持	无	无	支持	原生支持
类型自动识别	需手动转换	支持	支持	支持（更严苛）
内存管理	极佳	一般	较好	优秀

如果你的业务流程涉及多次读写同一批数据，CSV 本身就是性能瓶颈。

速度差： 读取同一个数据集，Parquet 格式通常比 CSV 快 20-50 倍。

# Pandas 存储与读取
df.to_parquet("data.parquet")
df = pd.read_parquet("data.parquet")