概述
数据集成模块是在各个存储单元之间执行数据交换的通道,具备分布式底层架构,稳定高效、弹性伸缩的特点,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。为了进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至离线开发,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。数据集成的作用如下图所示:
ELT的设计理念
传统的数据处理方式经常被称作ETL(Extract、Transform、Load),FlinkX基于业界的ELT设计理念,将数据转换环节后置,主要目标是提高数据网络传输阶段的效率,待数据落盘后再处理,便于提高传输速度,降低传输出错,且存储全量数据,便于追踪转换过程,转换逻辑变化时,无需重复抽取。
离线(批量)数据同步简介
离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。
- 支持数据源类型
数据集成提供丰富的数据源支持,详情请参考[支持的数据源]
由于每个数据源的配置信息差距较大,需要根据使用情况详细查询参数配置信息。所以在数据源配置、作业配置页面提供了详细描述,请您根据自身情况进行查询使用。
向导与脚本模式
同步开发提供两种开发模式:向导模式和脚本模式。
2种模式在绝大多数场景下是一致的,主要是部分数据源不支持向导模式,此时需要使用脚本模式。
向导模式:提供向导式的开发引导,通过可视化的填写和下一步的引导,帮助快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法享受到一些高级功能。
脚本模式:您可以通过直接编写数据同步的JSON脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,做精细化的配置管理。
tip同步任务的配置模式在创建时指定,指定之后不可变更。
- 增量同步
支持通过过滤条件或稳定的增量标识2种方法来实现增量抽取,详情请参考 [增量同步]