我觉得作为一个外行(比如我)去了解一个计算引擎,一个非常方便的切入点就是看它的 runtime。以 Flink 为例,它有一个名字就叫 flink-runtime 的 mvn 包,可以配合着相关的技术博客看看这里的源码。
核心要关注的点其实很简单:
1. Flink 作业被拉起来的过程中发生了什么
2. Flink 作业执行的过程中,数据是怎么流的(上面说的 shuffle 其实就是 runtime 里的一个核心概念)
大数据新人,仅代表个人观点,欢迎大家指出错误。
核心要关注的点其实很简单:
1. Flink 作业被拉起来的过程中发生了什么
2. Flink 作业执行的过程中,数据是怎么流的(上面说的 shuffle 其实就是 runtime 里的一个核心概念)
大数据新人,仅代表个人观点,欢迎大家指出错误。