Skip to content

大数据架构演进历史

起源:Google 三驾马车(2003-2006)

大数据技术的起点是 Google 发表的三篇奠基性论文:

年份论文对应开源实现
2003The Google File System (GFS)HDFS
2004MapReduce: Simplified Data ProcessingHadoop MapReduce
2006Bigtable: A Distributed Storage SystemHBase

这三篇论文奠定了整个大数据生态的基础架构。


第一代:Hadoop 生态(2006-2012)

核心组件:HDFS + MapReduce + YARN

2006  Doug Cutting 基于 Google 论文创建 Hadoop
2008  Hadoop 成为 Apache 顶级项目
2009  HBase 0.1 发布
2010  Hive 0.5 发布(Facebook 开源)
2012  YARN 引入,Hadoop 2.0 发布(资源调度与计算分离)

特点

  • 存储与计算分离(HDFS + MapReduce)
  • 高容错,适合超大规模数据
  • 编程模型简单但表达能力有限
  • 磁盘 I/O 密集,速度慢

痛点:MapReduce 每次迭代都要读写磁盘,机器学习等迭代算法效率极低。


第二代:内存计算崛起(2012-2016)

核心变化:Spark 取代 MapReduce 成为主流计算引擎

2012  Spark 0.6 发布(UC Berkeley AMPLab)
2013  Spark 捐献给 Apache,Kafka 0.8 发布
2014  Spark 1.0 发布,Spark SQL 引入
2015  Flink 0.9 发布,Spark Streaming 成熟
2016  Spark 2.0 发布,引入 Dataset API 和 Structured Streaming

Spark vs MapReduce 核心差异

MapReduce:
  Map → 写磁盘 → Shuffle → 写磁盘 → Reduce → 写磁盘

Spark:
  RDD → 内存 → 内存 → 内存 → 结果
  (只在必要时才落盘)

速度提升 10-100 倍,迭代算法提升更明显。


第三代:实时化与流批一体(2016-2020)

核心变化:流处理从"近实时"走向"真实时"

2016  Flink 1.0 发布,确立流处理领导地位
2017  Kafka Streams 发布,轻量流处理
2018  Flink 1.5 引入 Blink(阿里巴巴贡献)
2019  Flink 1.9 合并 Blink,Flink SQL 大幅增强
2020  Delta Lake 开源,数据湖概念兴起

Flink 的核心创新

  • 真正的事件时间(Event Time)处理
  • 精确一次(Exactly-Once)语义
  • 强大的状态管理(State Backend)
  • 统一的流批 API

第四代:数据湖与 Lakehouse(2020-至今)

核心变化:数据仓库与数据湖融合

2020  Delta Lake 1.0 发布(Databricks)
2020  Apache Iceberg 0.9 发布(Netflix)
2021  Apache Hudi 0.9 发布(Uber)
2022  Lakehouse 架构成为主流
2023  Flink + Paimon 实时数据湖方案成熟

Lakehouse 解决的问题

问题数据仓库数据湖Lakehouse
数据格式专有格式开放格式开放格式
ACID 事务
Schema 管理
流批一体
成本

技术演进时间线

2003 ──── GFS 论文
2004 ──── MapReduce 论文
2006 ──── Hadoop 诞生
2008 ──── HBase 发布
2010 ──── Hive 发布
2012 ──── Spark 开源 / YARN 发布
2013 ──── Kafka 开源
2014 ──── Spark 1.0
2015 ──── Flink 0.9
2016 ──── Spark 2.0 / ClickHouse 开源
2017 ──── Kafka Streams
2018 ──── Flink + Blink(阿里)
2019 ──── Flink SQL 成熟
2020 ──── Delta Lake / Iceberg / Doris 开源
2021 ──── Lakehouse 架构普及
2022 ──── Flink 流批一体成熟
2023 ──── 实时数据湖(Paimon)兴起

国内大数据技术贡献

中国互联网公司对大数据生态贡献显著:

公司贡献
阿里巴巴Flink Blink、MaxCompute、DataWorks、Hologres
字节跳动ByteHTAP、LAS(湖仓一体)
腾讯Oceanus(Flink 平台)、TBDS
百度Palo(Apache Doris 前身)
华为MRS(MapReduce Service)、DLI
滴滴Logi-KafkaManager

本站内容由 褚成志 整理编写,仅供学习参考