跳转至

data engineering zoomcamp DataTalksClub

DataTalksClub data-engineering-zoomcamp GitHub Repo stars

本项目是一个由 DataTalks.Club 组织的免费 9 周数据工程课程,旨在让学员从零构建端到端数据管道,掌握数据工程核心技能与业界标准工具。

课程核心模块包括: 1. 基础设施与容器化:GCP 平台、Docker、Terraform 基础设施即代码。 2. 工作流编排:基于 Kestra 的数据湖与工作流管理。 3. 数据摄入:API 读取、dlt 增量加载、数据标准化与可扩展性。 4. 数据仓库:BigQuery 最佳实践、分区、聚类及机器学习。 5. 分析工程:使用 dbt 进行数据建模、测试、文档与部署。 6. 数据平台:利用 Bruin 构建端到端流水线。 7. 批量处理:Apache Spark、DataFrames 与 SQL 内部原理。 8. 流处理:Kafka、KSQL、Kafka Streams 及 Avro 模式管理。 9. 综合项目:真实场景应用与同行评审反馈。

课程提供定期入学与自学模式,无需数据工程背景(需基础编程及 SQL 知识),并配有 Slack 社区答疑与讲师指导。