🐼
Data Analysis · Python

Pandas 数据分析
完全指南

从 Series/DataFrame 基础到时间序列与大数据性能优化,掌握 Pandas 2.x 全新特性与工程实践

Pandas 2.x Copy-on-Write PyArrow 后端 数据清洗 时间序列 性能优化

课程简介

Pandas 是 Python 数据科学生态中最重要的库之一,诞生于 2008 年,至今已成为数据分析、机器学习预处理、金融分析和科学研究的标配工具。2023 年发布的 Pandas 2.0 带来了革命性变化:Copy-on-Write 语义默认开启、PyArrow 后端支持、全新 NA 处理机制,显著提升了性能与可预测性。

本教程基于 Pandas 2.2+,从核心数据结构讲起,覆盖日常数据分析的全流程,帮助你真正理解每个操作背后的原理,而不只是记住 API 用法。

你将学到什么

🔷

核心数据结构

深入理解 Series 与 DataFrame 的索引系统、内存模型和 dtype 体系

🧹

数据清洗

缺失值处理、重复数据、类型转换、字符串操作的完整工作流

🔍

数据选择与过滤

loc/iloc、布尔索引、query 方法,以及 Copy-on-Write 下的安全链式操作

📊

分组与聚合

groupby 深度解析,agg/transform/filter 的使用场景与性能特性

🕐

时间序列

DatetimeIndex、resample、滚动计算、时区处理的系统化方法

性能优化

Categorical 类型、chunked 读取、内存压缩,以及与 Polars 的对比

章节目录

学习建议

前置知识:需要具备 Python 基础(变量、函数、列表/字典),了解基本的 NumPy 操作会有帮助,但不是必须的——本教程会在需要时讲解相关概念。

推荐环境:安装 Python 3.11+,使用 pip install pandas[pyarrow] 安装带 PyArrow 支持的 Pandas 2.2+。推荐在 Jupyter Notebook 或 JupyterLab 中跟随学习,方便观察中间结果。

学习方法:每章的代码示例都应该动手运行,修改参数观察变化。数据分析是一门实践性极强的技能,理解原理之后,大量的实际数据集练习是提升的核心路径。