🦆
Embedded OLAP Database

DuckDB
嵌入式分析数据库

进程内 OLAP 数据库,像 SQLite 一样简单,像数仓一样强大

零依赖安装 列式存储 直查 CSV/Parquet Python 集成 向量化执行 数据工程

课程简介

DuckDB 是一个进程内嵌入式 OLAP 数据库,不需要单独的服务器进程,像 SQLite 一样可以嵌入应用程序中使用。但与 SQLite 面向事务处理(OLTP)不同,DuckDB 专为分析查询(OLAP)优化,采用列式存储和向量化执行引擎,处理数 GB 甚至数百 GB 的数据游刃有余。

无需安装服务器、无需配置、一行 pip install duckdb 即可在 Python 中使用。可以直接查询 CSV、Parquet、JSON 文件,与 pandas 零拷贝集成,是数据工程师、数据科学家的瑞士军刀。

你将学到什么

🗂️

直接查询文件

无需导入,直接 SELECT 查询 CSV、Parquet、JSON、S3 文件

列式存储原理

列式存储 vs 行式存储,向量化执行引擎,Zone Maps 剪枝

🐍

Python 深度集成

零拷贝操作 pandas/polars DataFrame,Relation API 链式查询

📊

分析 SQL 扩展

PIVOT/UNPIVOT、GROUPING SETS、QUALIFY、ASOF JOIN

🪣

扩展系统

httpfs、spatial、fts、excel — S3/GCS/Azure 直连、空间查询

🏗️

数据工程实战

dbt + DuckDB、MotherDuck 云版、完整 ELT 流水线构建

课程目录