项目 | 项目空间(Project)是离线开发的基本组织单元,它类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界。一个用户可以同时拥有多个项目空间的权限,通过授权,可以在一个项目空间中访问另一个项目空间中的对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)。 |
HDFS | Hadoop分布式文件系统(Hadoop Distributed File System)。 |
MR | 即MapReduce,一种开源并行计算框架。 |
Flink | Apache Flink,一种分布式、高性能、高可用且准确的开源流处理框架。 |
UDF | User Defined Function,用户自定义函数,通常适用于SQL任务。 |
Spark | Apache Spark,一种开源的,专为大规模数据处理而设计的快速通用的计算引擎。 |
任务实例 | 指某任务执行过程中,除了其代码和静态资源外,还包括被分配的动态资源(计算节点、存储资源等)。 |
上下游任务 | A任务成功的执行完成后,B、C任务才可以执行,这种行为称之为B、C依赖于A;在这个例子中,A是B、C的上游任务,B、C是A的下游任务。 |
杀任务 | 终止某个任务实例的运行。 |
重跑任务 | 重新运行某个任务(重跑通常应用于离线任务中)。 |
补数据 | 当任务由于某些原因,修改了业务逻辑时,或发生异常,用户希望对以前的数据重新进行计算,此时会使用"补数据 "功能,即手动配置任务的数据源时间段,令其再次运行。 |
业务日期 | 可理解为业务发生的日期,在本平台中,业务日期=任务的定时执行时间-1天。 |