大数据架构演进历史
起源:Google 三驾马车(2003-2006)
大数据技术的起点是 Google 发表的三篇奠基性论文:
| 年份 | 论文 | 对应开源实现 |
|---|---|---|
| 2003 | The Google File System (GFS) | HDFS |
| 2004 | MapReduce: Simplified Data Processing | Hadoop MapReduce |
| 2006 | Bigtable: A Distributed Storage System | HBase |
这三篇论文奠定了整个大数据生态的基础架构。
第一代:Hadoop 生态(2006-2012)
核心组件:HDFS + MapReduce + YARN
2006 Doug Cutting 基于 Google 论文创建 Hadoop
2008 Hadoop 成为 Apache 顶级项目
2009 HBase 0.1 发布
2010 Hive 0.5 发布(Facebook 开源)
2012 YARN 引入,Hadoop 2.0 发布(资源调度与计算分离)特点:
- 存储与计算分离(HDFS + MapReduce)
- 高容错,适合超大规模数据
- 编程模型简单但表达能力有限
- 磁盘 I/O 密集,速度慢
痛点:MapReduce 每次迭代都要读写磁盘,机器学习等迭代算法效率极低。
第二代:内存计算崛起(2012-2016)
核心变化:Spark 取代 MapReduce 成为主流计算引擎
2012 Spark 0.6 发布(UC Berkeley AMPLab)
2013 Spark 捐献给 Apache,Kafka 0.8 发布
2014 Spark 1.0 发布,Spark SQL 引入
2015 Flink 0.9 发布,Spark Streaming 成熟
2016 Spark 2.0 发布,引入 Dataset API 和 Structured StreamingSpark vs MapReduce 核心差异:
MapReduce:
Map → 写磁盘 → Shuffle → 写磁盘 → Reduce → 写磁盘
Spark:
RDD → 内存 → 内存 → 内存 → 结果
(只在必要时才落盘)速度提升 10-100 倍,迭代算法提升更明显。
第三代:实时化与流批一体(2016-2020)
核心变化:流处理从"近实时"走向"真实时"
2016 Flink 1.0 发布,确立流处理领导地位
2017 Kafka Streams 发布,轻量流处理
2018 Flink 1.5 引入 Blink(阿里巴巴贡献)
2019 Flink 1.9 合并 Blink,Flink SQL 大幅增强
2020 Delta Lake 开源,数据湖概念兴起Flink 的核心创新:
- 真正的事件时间(Event Time)处理
- 精确一次(Exactly-Once)语义
- 强大的状态管理(State Backend)
- 统一的流批 API
第四代:数据湖与 Lakehouse(2020-至今)
核心变化:数据仓库与数据湖融合
2020 Delta Lake 1.0 发布(Databricks)
2020 Apache Iceberg 0.9 发布(Netflix)
2021 Apache Hudi 0.9 发布(Uber)
2022 Lakehouse 架构成为主流
2023 Flink + Paimon 实时数据湖方案成熟Lakehouse 解决的问题:
| 问题 | 数据仓库 | 数据湖 | Lakehouse |
|---|---|---|---|
| 数据格式 | 专有格式 | 开放格式 | 开放格式 |
| ACID 事务 | ✅ | ❌ | ✅ |
| Schema 管理 | ✅ | ❌ | ✅ |
| 流批一体 | ❌ | ❌ | ✅ |
| 成本 | 高 | 低 | 低 |
技术演进时间线
2003 ──── GFS 论文
2004 ──── MapReduce 论文
2006 ──── Hadoop 诞生
2008 ──── HBase 发布
2010 ──── Hive 发布
2012 ──── Spark 开源 / YARN 发布
2013 ──── Kafka 开源
2014 ──── Spark 1.0
2015 ──── Flink 0.9
2016 ──── Spark 2.0 / ClickHouse 开源
2017 ──── Kafka Streams
2018 ──── Flink + Blink(阿里)
2019 ──── Flink SQL 成熟
2020 ──── Delta Lake / Iceberg / Doris 开源
2021 ──── Lakehouse 架构普及
2022 ──── Flink 流批一体成熟
2023 ──── 实时数据湖(Paimon)兴起国内大数据技术贡献
中国互联网公司对大数据生态贡献显著:
| 公司 | 贡献 |
|---|---|
| 阿里巴巴 | Flink Blink、MaxCompute、DataWorks、Hologres |
| 字节跳动 | ByteHTAP、LAS(湖仓一体) |
| 腾讯 | Oceanus(Flink 平台)、TBDS |
| 百度 | Palo(Apache Doris 前身) |
| 华为 | MRS(MapReduce Service)、DLI |
| 滴滴 | Logi-KafkaManager |