Skip to main content

StreamWorks 6.0.1更新日志

发布时间:2023-03-03

功能新增

【数据还原】存量数据同步+增量日志还原的一体化任务,支持数据入湖能力【6.0】

  • 背景:数据还原功能新增支持数据入湖(Oracle/MySQL—>Iceberg),该功能可以和数据湖平台配合使用。

  • 功能:创建实时采集任务时,源端配置选择数据还原后,目标端支持选择Iceberg表。

    image-20230317161738853

【运维总览】新增运维总览模块【6.0】

  • 背景:之前实时平台的运维都是针对单任务的,缺乏全局性的运维统计和分析能力。并且缺乏对运行中任务的监控分析,因为实时任务一旦运行失败,就会立即对线上数据服务产生影响,我们希望能在任务失败之前,就能发现各种潜在风险。

  • 功能:新增【运维总览】菜单,支持统计项目任务总数、状态分布、类型分布;通过健康分模型,对每个运行中的任务进行健康评分。

    image-20230317161929893

【Topic自动映射】FlinkSQL开发,针对OGG-JSON格式的Kafka Topic,支持一键自动映射FlinkTable【5.3】

  • 背景:之前实时平台的FlinkSQL任务开发,对于Kafka Topic的映射操作非常麻烦,需要用户查询JSON中的每个KEY,配置成Flink表的字段,如果需要做上百个字段的映射,也需要人肉操作。开发往往选择在应用外想办法完成批量映射,再粘贴到平台内,交互比较差。

  • 功能:Kafka Format新增OGG-JSON,支持对这类JSON数据实现一键映射:

    • 一键采集线上样例数据,自动完成映射

    • 手动输入样例数据,一键完成映射

    note

    要实现自动映射,前提是后端需要根据固定的模版解析JSON格式。而每类采集工具的JSON格式都有差异,所以需要新增不同的Format去实现该功能。后续我们会陆续新增其他采集工具的JSON格式。

    image-20230317162351161

【数据源】新增Ckafka、CMQ数据源【6.0】

  • 功能:FlinkSQL 的源表、结果表新增支持Ckafka、CMQ数据源类型(数栈6.0+Flink1.12)

    image-20230317162607884

【日志审计】实时平台的操作记录新增IP/MAC信息【5.3】

  • 功能:平台操作记录新增IP、MAC信息,并且支持导出。

    image-20230317162631905

功能优化

【血缘解析】支持基于FlinkSQL的字段级血缘解析,并支持上下钻【5.3】

  • 背景:之前实时平台的字段级血缘解析只支持根据当前任务的FlinkSQL去解析,没有进行上下游串联。用户无法回溯或者下钻上下游关联字段。

  • 功能:字段级血缘支持上下钻查询。使用限制:建议配合表级血缘一起分析,因为字段级血缘是纯SQL解析,不携带任务信息

    image-20230317162847863

【CheckPoint】优化任务环境参数配置中关于状态恢复语义的说明【5.3】

  • 背景:之前实时任务的Checkpoint恢复语义是放在环境参数中配置的(和开源Flink相同),但实际并不生效。因为我们Flink的实现是基于开源改造过的,状态恢复语义需要在任务的结果表中进行semantic参数配置。
  • 功能:调整环境参数中的状态恢复语义提示文案,引导开发至结果表参数中配置。FlinkSQL任务默认为at-least-once(保障实时性)、数据还原任务默认为exactly-once(保障准确性) image-20230317163112702

【插件适配】Flink1.12适配HBase2.x Sink、Phoenix5.x Sink【6.0】

  • 功能:之前在Flink1.10中已经支持的HBase2.x和Phoenix5.x插件,在Flink1.12中进行适配

    image-20230317163226670

【任务运维】实时任务列表UI5.0改造,支持状态快速筛选【5.3】

  • 功能:实时任务列表进行UI5.0升级,并且支持点击「任务状态统计」进行快速过滤筛选

    image-20230317163315668