概述

数据集成模块是在各个存储单元之间执行数据交换的通道，具备分布式底层架构，稳定高效、弹性伸缩的特点，致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。为了进行大规模数据集的挖掘与计算，通常的做法是在任务执行前将数据传输至离线开发，并在任务执行结束后将计算结果传输至外部存储单元（例如MySQL等应用数据库）。数据集成的作用如下图所示：

1576076708804

ELT的设计理念

传统的数据处理方式经常被称作ETL（Extract、Transform、Load），FlinkX基于业界的ELT设计理念，将数据转换环节后置，主要目标是提高数据网络传输阶段的效率，待数据落盘后再处理，便于提高传输速度，降低传输出错，且存储全量数据，便于追踪转换过程，转换逻辑变化时，无需重复抽取。

离线（批量）数据同步简介

离线（批量）的数据通道主要通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（称之为Reader）、数据写入插件（称之为Writer），并基于此框架设计一套简化版的中间数据传输格式，从而达到任意结构化、半结构化数据源之间数据传输的目的。

支持数据源类型

数据集成提供丰富的数据源支持，详情请参考[支持的数据源]

tip

由于每个数据源的配置信息差距较大，需要根据使用情况详细查询参数配置信息。所以在数据源配置、作业配置页面提供了详细描述，请您根据自身情况进行查询使用。

向导与脚本模式

同步开发提供两种开发模式：向导模式和脚本模式。

2种模式在绝大多数场景下是一致的，主要是部分数据源不支持向导模式，此时需要使用脚本模式。
向导模式：提供向导式的开发引导，通过可视化的填写和下一步的引导，帮助快速完成数据同步任务的配置工作。向导模式的学习成本低，但无法享受到一些高级功能。
脚本模式：您可以通过直接编写数据同步的JSON脚本来完成数据同步开发，适合高级用户，学习成本较高。脚本模式可以提供更丰富灵活的能力，做精细化的配置管理。
tip
同步任务的配置模式在创建时指定，指定之后不可变更。

增量同步

支持通过过滤条件或稳定的增量标识2种方法来实现增量抽取，详情请参考 [增量同步]

概述

ELT的设计理念​

离线（批量）数据同步简介​

向导与脚本模式​

ELT的设计理念

离线（批量）数据同步简介

向导与脚本模式