内存计算引擎,处理 PB 级数据的事实标准 · 比 MapReduce 快 100 倍 · 统一批处理 / 流处理 / SQL / ML / 图计算
课程简介
Apache Spark 是全球最流行的大数据统一分析引擎,由 UC Berkeley AMPLab 在 2009 年创建,现已成为处理 PB 级数据的事实标准。其内存计算模型使得迭代算法(机器学习、图计算)比 Hadoop MapReduce 快 10~100 倍。
本教程从 Spark 核心架构讲起,深入 PySpark DataFrame API、Spark SQL、Structured Streaming 实时计算、MLlib 机器学习 Pipeline,到集群部署(YARN/Kubernetes/Databricks)和 Delta Lake 现代数据湖架构,带你在真实工作场景中驾驭大数据。
为什么选择 Spark
数据缓存在内存,迭代计算避免重复磁盘 I/O,比 MapReduce 快 100 倍
批处理 / 流处理 / SQL / MLlib / GraphX 五大模块,一套 API 通吃
Python API 完整覆盖,数据科学家无需学 Scala 即可处理 PB 级数据
原生支持 Kubernetes 部署,AWS EMR / GCP Dataproc / Azure HDInsight 全覆盖
ACID 事务 + 时间旅行 + Schema 强制,让数据湖拥有数据仓库可靠性
与 Kafka、Hive、HBase、dbt、Airflow 深度集成,构建完整数据栈
课程目录