Skip to main content

名词解释

项目空间(Project)

项目空间是实时计算Flink最基本的业务组织单元,是您管理任务、资源、人员的基本单元。您可以选择创建项目,也可以加入其它Project中,每个项目空间支持多人协作。

任务(Job)

类似Hadoop Job,一个实时计算的任务描述了一个完整的流式数据处理业务逻辑,是流式计算的基础业务单元。

不同于诸多开源的提供非常底层的、编程API的流式数据处理系统,流计算提供更加高层、更加面向业务化的Flink SQL(标准SQL语法上提供了关于流式处理的语法扩展)。Flink SQL能够方便数据开发人员使用标准化的SQL,完成流式数据计算加工的业务流程。因此,流计算适合更大众的数据分析人员快速、方便地完成一个流式数据处理业务。

UDF

流计算支持UDF函数。类似于Hive UDF函数,流计算提供了标准化的流式数据处理能力同时,对于部分业务特殊自定义处理逻辑,建议您使用UDF函数表达。目前支持Java的UDF函数扩展。

资源管理

当前UDF函数仅支持使用Java语言表达,对于您上传的每个Jar,实时计算定义为一个Resource。

连接器Connector

实时计算Flink内置了丰富的连接器用于多种上下游的数据读写与同步,并支持上传和使用自定义连接器。

函数管理

实时计算Flink提供函数管理功能,包括内置函数和自定义函数。

实时数据采集

广义的数据采集指,将数据从数据产生方收集并传输进入到大数据处理引擎的过程。在流计算,实时数据采集已形成产品化功能,您仅需在页面上配置数据源和目标即可,目前支持MySQL数据库的实时采集。

数据存储

流计算定义为一种轻量级计算引擎,本身几乎不带有任何业务数据存储系统。均是使用外部数据存储作为数据来源和数据目的端进行使用。实时计算将数据存储均定义为外部的数据存储。例如,将MySQL作为结果表,那么MySQL即是实时计算的一类DataStore。

数据加工

流式计算的开发过程(编写Flink SQL的过程)定义为数据加工。流计算提供一整套包括开发的在线IDE、实时数据采集等工具,服务流式数据加工过程。

数据运维

实时计算作业的在线运维定义为数据运维。流计算提供一整套管控平台,方便您进行流式数据的运维管控。

资源队列

通过配置特定的资源组将任务提交到指定队列,对任务进行隔离和管理。