进程内 OLAP 数据库,像 SQLite 一样简单,像数仓一样强大
课程简介
DuckDB 是一个进程内嵌入式 OLAP 数据库,不需要单独的服务器进程,像 SQLite 一样可以嵌入应用程序中使用。但与 SQLite 面向事务处理(OLTP)不同,DuckDB 专为分析查询(OLAP)优化,采用列式存储和向量化执行引擎,处理数 GB 甚至数百 GB 的数据游刃有余。
无需安装服务器、无需配置、一行 pip install duckdb 即可在 Python 中使用。可以直接查询 CSV、Parquet、JSON 文件,与 pandas 零拷贝集成,是数据工程师、数据科学家的瑞士军刀。
你将学到什么
无需导入,直接 SELECT 查询 CSV、Parquet、JSON、S3 文件
列式存储 vs 行式存储,向量化执行引擎,Zone Maps 剪枝
零拷贝操作 pandas/polars DataFrame,Relation API 链式查询
PIVOT/UNPIVOT、GROUPING SETS、QUALIFY、ASOF JOIN
httpfs、spatial、fts、excel — S3/GCS/Azure 直连、空间查询
dbt + DuckDB、MotherDuck 云版、完整 ELT 流水线构建
课程目录