初识flink

2020-02-10

技术

字数统计: 2k字 | 阅读时长≈ 7分钟

导读

2010
柏林工业大学、柏林洪堡大学、哈索普拉特纳研究所联合发起的研究项目 [Stratosphere: Information Management on the Cloud]
2014
Stratosphere 更名为 Flink，并成为 Apache Software Fundation 顶级项目。
Stratosphere 的核心成员创立 Data Artisans 公司，主要业务是将 Stratosphere 实现商业化，为企业提供大数据的解决方案。
2015
Alibaba 对 Flink 进行改造，Blink 诞生。
2019
Alibaba Blink 开源。
Alibaba 收购 Data Artisans。

从数据架构的演变了解 flink 产生的背景。

传统单体数据架构（Monolithic Architecture）：集中式数据存储。

单体应用前期效率高，随着业务的增加，系统越来越难以维护和升级。
引入微服务架构，解决业务扩展的问题。

微服务架构（Microservices Architecture）：一个应用由多个小的、相互独立的微服务组成。数据分开存储，开发和部署没有依赖。

业务交易数据过于分散，难以集中化管理（数据分析或者数据挖掘之类的需求）。
将数据同步到数据仓库中，在数据仓库中进行数据的抽取、转换、加载（ETL），从而构建成不同的数据集市和应用。

Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm，Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。

Lambda架构关键特性

Robust and fault-tolerant（容错性和鲁棒性）

人和机器的错误都有可能导致系统宕机，让系统能够从错误中快速恢复尤其重要。
Low latency reads and updates（低延时）

很多应用对于读和写操作的延时要求非常高，要求对更新和查询的响应是低延时的。
Scalable（横向扩容）

当数据量/负载增大时，可扩展性的系统通过增加更多的机器资源来维持性能。也就是常说的系统需要线性可扩展，通常采用scale out（通过增加机器的个数）而不是scale up（通过增强机器的性能）。
General（通用性）

系统需要能够适应广泛的应用，包括金融领域、社交网络、电子商务数据分析等。
Extensible（可扩展）

需要增加新功能、新特性时，可扩展的系统能以最小的开发代价来增加新功能。
Allows ad hoc queries（方便查询）

数据中蕴含有价值，需要能够方便、快速的查询出所需要的数据。
Minimal maintenance（易于维护）

系统要想做到易于维护，其关键是控制其复杂性，越是复杂的系统越容易出错、越难维护。
Debuggable（易调试）

当出问题时，系统需要有足够的信息来调试错误，找到问题的根源。其关键是能够追根溯源到每个数据生成点。

在数据产生的过程中，进行计算，并直接产生结果。必须满足高性能、高吞吐、低延时等多目标。

Lambda 架构使数据与计算分离，而在实时计算层，对技术有了更高的要求。flink 正是满足了高吞吐、低延迟、高性能、高容错等特性，应运而生。

产品	模型	API	保证次数	容错机制	状态管理	延时	吞吐量
Storm	Native (数据进入立即处理)	组合式 (基础API)	At-least-once	Record Acks(Ack机制)	无	Low	Low
Spark Stream	mirco-batching (微批量处理)	声明式 (封装后的高阶函数)	Exectly-once	RDD Checkpoint(基于RDD checkpoint)	基于DStream	Medium	High
Flink	Native (数据进入立即处理)	声明式 (封装后的高阶函数)	Exectly-once	Checkpoint(flink的快照)	基于操作	Low	High

flink：数据流上有状态的计算

flink优势

复杂事件处理

实时大屏、实时报表、实时欺诈检测

实时智能推荐系统、实时数仓

flink 的核心组件和运行时组件

从上往下：

API & Libraries 层

提供批处理和流处理接口，同时在此基础上抽象出不同的应用类型的组件库。
Runtime 核心层

主要负责对上层不同接口提供基础服务。
支持分布式 Stream 作业的执行、JobGraph 到 ExecutionGraph 的映射转换、任务调度等。
将 DataStream 和 DataSet 转成统一的可执行的 Task Operator，达到在流式引擎下同时处理批量计算和流式计算的目的。
物理部署层

flink 部署模式，目前支持本地、集群（Standalone/YARN）、云（GCE/EC2）、Kubenetes。

运行时两种类型的程序：JobManagers（Masters）、TaskManagers（Workers）

JobManagers

负责整个 Flink 集群任务调度及资源的管理。JobManagers 和 TaskManagers 之间通过 Actor System 进行通信。组件之间的通信是基于 Akka Framework 实现。
TaskManagers

负责具体的任务执行和对应的任务在每个节点上的资源申请与管理。
flink 的任务运行采用的是多线程的方式，在多个任务和 Task 之间通过 TaskSlot 方式共享系统资源，每个 TaskManager 中管理多个 TaskSlot 资源池。