历史更新日志
V6.0.0
Release Date : 2023-03-09
New Feature
数据源页面展示当前项目的schema名称,以及能做meta schema的快捷查找(上线版本:V5.3)
背景:目前在数据源页面中查看meta数据源的schema,只能在jdbc url中查看,对于用户来说不方便。
功能:新增meta schema 的筛选项,并将meta schema作为单独的字段进行展示。
hive sql支持语法提示、表联想(上线版本:V5.3)
范围:周期任务 手动任务 组件
功能:hive sql 执行临时运行时,展示执行进度并实时打印日志,日志包含执行的map、reduce的情况。
hive sql运行日志支持实时打印、展示任务运行进度、支持任务停止(上线版本:V5.3)
范围:周期任务 手动任务 组件
功能:hive sql 执行临时运行时,展示执行进度并实时打印日志,日志包含执行的map、reduce的情况。任务运行过程中,支持停止运行。
inceptor sql新增临时查询(上线版本:V5.3)
HashData SQL、StarRocks SQL任务开发(上线版本:V5.3)
功能:离线新增两种任务类型HashData SQL、StarRocks SQL,支持表查询、语法提示等功能。
HashData、StarRocks数据同步读写(上线版本:V5.3)
功能:
1、HashData支持作为数据同步的源端和目标端,支持源端时支持自定义SQL、数据过滤、切分键填写(并发读写)、断点续传、增量同步;作为目标端时支持导入前准备语句、导入后准备语句、一键生成目标表、主键冲突时支持insert和update。支持作为整库同步的目标端和源端。
2、StarRocks支持作为数据同步的源端和目标端,支持源端时支持自定义SQL、不支持数据过滤、不支持切分键填写(StarRocks flinkx是用streamload同步的,不需要指定切分键,只要指定并发数,sql的执行计划里就会按对应的并发自己拆分出来多通道同步)、不支持断点续传、不支持增量同步;作为目标端时不支持导入前准备语句、不支持导入后准备语句、支持一键生成目标表、主键冲突时仅支持update。支持作为整库同步的目标端和源端。支持作为整库同步的目标端和源端。
TDengine数据同步读取(上线版本:V5.3)
功能:TDengine支持作为数据同步的源端,支持源端时支持自定义SQL、数据过滤、切分键填写(并发读取)、断点续传、增量同步。支持作为整库同步的源端。
支持对hive sql实例进行运行过程的资源使用情况展示,并对于实例进行资源监控并配置告警(上线版本:V5.3)
背景:目前对hivesql任务的运行支持比较薄弱,例如没有打印出yarn上的日志,一旦任务开始执行便无法中止,比较影响数据开发用户的调试。客户期望对效率低、占用资源高的任务进行识别和及时管控。
功能:
1、hive sql实例的「实例详情->运行记录」中展示任务资源使用走势图
2、创建告警规则时,支持对hive sql资源占用情况进行监控。
发布功能优化(上线版本:V6.0)
背景:当前发布流程有很多校验内容,包括任务上游、函数、资源、资源组映射、数据源映射等,发布的时候可能会有内容缺漏非常容易造成发布失败,平台需要把缺漏的内容流程化一次性提示给用户,且需要能够支持一些内容的修改替换,以优化发布体验。
功能:发布时,会在发布包中校验引擎、数据源、资源组、任务、上游依赖、资源、函数、组件、表及责任人,并展示校验结果。针对发布失败的校验项,会给出优化提示。
Improved
创建项目时,报错提示优化(上线版本:V6.0)
功能:项目新建失败是由数据源导致时,会明确提示信息:数据源名称、数据源类型、错误原因。
适配高可用配置Hive集群地址(上线版本:V5.3)
功能:若控制台配置hiveserver和inceptor采用的是zk连接模式,离线端支持获取数据源信息。
新建工作流任务类型带上“工作流”选项(上线版本:V6.0)
功能:此前新建工作流任务类型时,默认展示还是“数据同步”任务,现优化默认选中“工作流”选择。
所有代码任务支持版本回滚(上线版本:V6.0)
功能:Impala SQL、Oracle SQL、Greenplum SQL、AnalyticDB PostgreSQL、MySQL、SQL Server、TiDB SQL、GaussDB SQL、Trino SQL、HANA SQL、HashData SQL、StarRocks SQL任务支持版本对比和版本回滚(目前所有代码任务均支持了版本对比和版本回滚)
数据权限管理方式按集群隔离(上线版本:V5.3)
背景:目前我们的数据权限管理方式是平台级的,只要一个集群开了ranger,那么整套数栈所有集群都不走web方式。在客户侧可能不会存在问题,因为对于客户来说,一般仅存在一套管理方式。但是对于我们产研来说可能会存在资源的浪费,因为离线的这种限制,测试同学可能需要部署两套数栈(一套web、一套ranger)进行验证。
解决方案:将一套数栈一种数据管理方式进行拆分,拆分为一种集群一种管理方式
任务默认运行方式调整(上线版本:V6.0)
范围:临时查询、周期任务、手动任务和组件的临时运行
默认分段运行:GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、HashData SQL、StarRocks SQL、Inceptor SQL、Impala SQL
默认整段运行:Hive SQL、Spark SQL、Greenplum SQL
(一般情况任务都是要整段提交,RDB这样处理的原因是RDB任务不会提交到yarn上运行,而是通过JDBC直连的,直接进行整段运行可能会导致结果无法及时返回,任务超时报错)
任务提交时,等待运行动作拆分(上线版本:V6.0)
背景:目前在任务提交时,会存在较长时间的“等待运行”状态,“等待运行”的过程中实际上做了语法检查、与数据地图进行交互等动作。如果“等待运行”时间过长,影响了用户体验,所以对“等待运行”进行拆解,展示具体动作。例如“语法检查开始”“语法检查结束”,内容都异步进行展示。
查询结果字段名可复制(上线版本:V5.3)
本地文件导入到hive表支持xlxs文件格式(上线版本:V5.3)
功能:本地数据导入支持.xlsx格式文件(07版本)、xls格式文件(03版本)。
数据同步任务中仅可选择项目对接的schema(上线版本:V5.1)
功能:数据同步时选择当前项目的meta数据源,只能选择当前项目的meta schema。数据同步时选择引入其他项目的meta数据源,只能选择引入数据源的meta schema。
es作为目标数据源时,支持指定主键字段构成(上线版本:V5.3)
背景:在ES作为数据同步目标端的任务中,默认将所有字段都作为主键字段,会导致主键值过长,使任务失败。因此需要离线侧进行优化,不要默认将所有字段都作为主键字段
功能:在字段映射时,支持指定主键包含的字段。
数据源信息同步变更后需要同步至调度(第三批)(上线版本:V5.2)
第三批优化的范围:opentsdb、clickhouse、gaussdb、人大金仓、gbase。
数据同步任务时,字段映射添加常量默认字段类型适配兼容(第二批)(上线版本:V5.2)
第二批优化范围:clickhouse、gbase、vertica、impala、influxdb、opentsdb、oracle、oracle9、polardb、starrocks、sybase、elasticsearch7、tidb、inceptor。
数据同步常量列的值支持修改(上线版本:V5.3)
datasourceX适配加密区的读取,可读取加密区的数据(上线版本:V5.3)
背景:数栈开启数据安全对接自己的ranger/对接客户的ranger时,脏数据读取datasourcex未适配,会导致脏数据无法解析和查看
解决方案:支持对接ranger情况下的脏数据读取
任务补数据支持配置告警规则(上线版本:V5.3)
告警配置中勾选任务责任人,只有自己作为责任人的任务报错时,才会给任务责任人发送告警信息(上线版本:V5.2)
租户资源支持发布(上线版本:V6.0)
任务、临时查询的临时运行审计内容增加代码明细(上线版本:V5.3)
Bug Fix
权限功能迁移至标准版本(上线版本:V6.0)
监控规则展示任务与实际任务数量不符BUG修复(上线版本:V5.3)
V5.3.1
Release Date : 2023-01-12
New Feature
支持工作流参数 上线版本:5.3
背景:很多业务场景下一个工作流中需要有一些能生效于整个工作流的参数,统一配置其下所有子节点通用。
功能:工作流父任务中支持创建工作流层级参数,工作流参数在工作流范围内生效。工作流下子节点支持通过${参数名称}的方式来引用该工作流参数。
支持项目级参数 上线版本:5.3
背景:全局参数-作用于整个数栈平台
自定义参数-作用于单个离线任务/工作流子节点
任务上下游参数-作用于引入此参数的下游任务
工作流参数-作用于单个工作流任务
增加的项目级参数,作用于当前项目之内的所有任务,即不影响别的项目的任务,也可实现项目内某些业务配置批量修改的效果。
功能:支持在项目的「项目管理->项目参数」中配置项目参数,配置完成后,该项目下的任务都可以进行引用。在任务中可以通过${参数名称}的方式引用项目参数。
绑定的项目支持解绑 上线版本:5.2
背景:当前项目绑定为非可逆操作,一个项目一旦和另一个项目产生绑定后无法解绑也不支持删除,但部分已经绑定的项目因业务原因可能需要换目标项目绑定或者不再使用需要删除。
功能:可在测试项目的「项目设置-基本信息」中操作解绑生产项目,此操作不可逆。解除生产测试项目绑定后,数据源映射、资源组映射、发布至目标项目功能会受到影响,回退至绑定前状态,可按正常逻辑删除。
补数据支持对各类型参数进行一次性赋值 上线版本:5.3
背景:补数据时可能会存在需要对参数值临时替换的情况,例如跑历史日期的数据时,补数据的时间参数范围要变更
功能:在「运维中心-周期任务管理-任务补数据」中进行补数据参数重新赋值操作,补数据实际跑任务的参数值会被补数据时重新赋值的参数值替换。
hive数据同步的分区支持选择范围 上线版本:5.3
当hive类数据源作为数据同步的来源时,分区支持识别逻辑运算符“>”“=”“<”“and”,例如“pt>=202211150016 and pt<=202211200016 ”,即代表读取范围在此之间的所有分区。
临时运行可查看运行历史 上线版本:5.3
背景:周期任务、手动任务提交到调度运行时,都会产生实例,记录运行状态和运行日志等信息。但是周期任务、临时查询和手动任务在临时运行时不存在运行记录,用户无法查看历史临时运行的运行状态和运行日志等信息,导致一些重要的操作无法追踪。
功能:在数据开发页面最左侧功能模块列表中,新增了「运行历史」功能。在「运行历史」中,可查看历史近30天(可自定义)临时运行的SQL、日志等信息。
告警接受人支持填写其他参数 上线版本:5.3
背景:部分客户希望一些非数栈用户(比如合作方)也能收到任务的告警信息,而目前平台支持选的告警接收人范围为当前项目下的用户。期望离线侧告警配置时能灵活添加一些自定义值:可以是手机号、邮箱、用户名等信息,客户通过自定义告警通道中上传的jar包自定义解析获取值的内容,再通过自己的系统给解析出的联系人发送告警。
功能:在创建告警规则时,支持填写外部联系人信息,通过英文逗号分割。(自定义告警通道中上传的jar需要支持解析)
版本对比功能优化 上线版本:5.3
1、历史版本支持查看近50条版本记录
2、版本对比功能交互调整
3、支持历史版本间对比
脏数据默认容忍条数功能 上线版本:5.3
在离线「项目管理->项目设置->操作设置」中,支持设置数据同步任务脏数据默认容忍条数和脏数据默认容忍比例。配置完成后,新建数据同步任务在通道控制模块会展示默认值。
ftp大文件拆分支持自定义解析文件的拆分 上线版本:5.3
在用户解析方式选择自定义解析方式时,支持用户指定自定义jar包中的类对FTP中的文件进行切割拆分同步。
Improved
整库同步写hive时支持对分区表指定分区名称 上线版本:5.2
当整库同步选中hive类的数据同步目标时,可以指定分区字段的名称
数据同步读写并行度支持分开配置 上线版本:5.3
vertica支持向导模式数据同步 上线版本:5.3
任务下线后,支持查看任务实例 上线版本:5.2
脏数据管理概览图显示具体时间 上线版本:5.3
Oracle SQL任务支持在任务间及工作流里的参数传递 上线版本:5.3
数据同步任务在创建发布包时被选中时支持关联到表 上线版本:5.2
数据同步任务目标端一键生成的目标表,支持关联至发布包中。
离线支持配置指标任务作为上游依赖 上线版本:5.2
背景:目前离线已经支持的跨产品任务依赖包括:质量任务(关联)、标签任务,加上指标任务后整个数栈的所有离线任务就可实现相互的依赖了;
通过右键快捷键可查看任务日志 上线版本:5.3
表查询交互优化:字段查看浮窗支持向上拉高,看到更多字段 上线版本:5.2
SQL语句支持 上线版本:5.3
SQL语句支持Desc database、Show database、Create database、Drop database、Show tables、Create table、Desc table、Alter table、Drop table、Creat function
任务执行进度优化 上线版本:5.2
执行进度前展示等待时长
表联想功能优化 上线版本:5.2
spark sql、hive sql、gp sql编写SQL代码时,支持表联想功能。但之前联想范围仅支持离线所有创建的schema下的表名,这个还将支持离线所有对接的schema下的表名。
删除任务、资源等内容时,提示内容名称 上线版本:5.3
spark sql、hive sql、gp sql编写SQL代码时,支持表联想功能。但之前联想范围仅支持离线所有创建的schema下的表名,这个还将支持离线所有对接的schema下的表名。
Bug Fix
血缘关系、任务推荐对接资产 上线版本:5.3
创建项目表单优化 上线版本:5.3
交互bug修复
离线创建函数后,select返回结果有问题 上线版本:5.2
select会返回两次结果,修改为一次
V5.3.0
Release Date : 2022-11-18
New Feature
数据开发IDE中可限制数据查询条数 上线版本:5.3
背景:数据开发页面的临时运行没有限制数据结果查询条数,极端情况下有把系统磁盘打满的风险。
功能:所有SQL类型任务,运行按钮右侧新增了数据查询条数输入框。默认查询条数为1000条,上限最大值为1000000条(最高上限为配置项,可在后台配置)
数据预览全局管控功能对接 上线版本:5.3
数据源中心新增数据预览全局管控开关:1、可进行子产品和项目的数据预览全局管控 2、可进行单个数据源的数据预览管控
FTP作为目标数据源支持4种写入模式 上线版本:5.3
append:按文件名称覆盖写入;
overwrite:先清空目录下的文件然后写入;
nonconflict:按文件名称查找,存在同名文件则报错,不存在同名文件则可正常写入;
insert:文件追加写入,存在同名时通过添加后缀的方式修改新文件的文件名称;
运行超时中断 上线版本:5.3
任务支持设置超时时间,运行时间超过此时间时后台会自动杀死。
支持Flink Batch任务类型 上线版本:5.3
HBase REST API支持数据同步读取 上线版本:5.2
数据同步通道控制页面支持配置高级参数 上线版本:5.2
Sybase 支持数据同步读取 上线版本:5.2
Inceptor表接入数据地图 上线版本:5.2
Inceptor已数据地图中支持元数据查询、数据脱敏、血缘展示等功能。
Improved
补数据优化 上线版本:5.2
1、补数据支持三种补数据模式:单任务补数据、在任务管理列表按筛选条件筛选批量任务补数据、按任务上下游关系选择多个任务补数据;
2、多个在同一依赖树但彼此之间存在断层/不直接依赖的任务,所生成的补数据实例仍将按原依赖顺序执行;
3、支持选择是否关闭重试;
4、补数据支持选择未来时间;
告警规则任务选择方式优化 上线版本:5.2
支持按项目全选任务或按任务管理目录全选目录下任务
整库同步功能优化 上线版本:5.2
1、整库同步支持选择:Oracle MySQL DB2 Hive TiDB PostgreSQL ADB Doris Hana 作为整库同步目标端
2、高级设置能查看历史配置,针对同一数据源和schema,能记录高级设置的规则内容
Greenplum任务调整 上线版本:5.2
1、Greemplum SQL 和 Inceptor SQL 临时运行复杂SQL和包含多段SQL时运行逻辑从同步运行修改为异步运行
2、表查询中可查看Greenplum元数据信息
3、支持语法提示
数据同步至HDFS时支持指定文件名称 上线版本:5.2
背景:历史写HDFS时,指定文件名实际是指定的叶子目录名称,实际无法指定文件名称
功能:在高级配置中新增了参数strictMode,当参数值为“true”时,开启严格模式,当参数值为”false“时,开启宽松模式。严格模式下,指定叶子路径下的文件名,仅允许存在一个文件名,多并行度、断点续传将不生效。
创建项目只允许以英文字母开头 上线版本:5.3
因部分引擎只能创建/读取以英文字母开头的schema(例如Trino),所以创建项目时项目标识限制为只允许以英文字母开头。
发布按钮点击逻辑优化 上线版本:5.3
修改前:只有已提交的任务发布按钮才可点击
修改后:所有状态的任务发布按钮均可点击
事件任务文案调整 上线版本:5.2
新增说明:临时运行需要将参数值传为000000000000
项目级kerberos新增提示 上线版本:5.3
数据同步可选表范围优化 上线版本:5.1
1、过滤脏数据表;
2、针对所有meta schema所对应的数据源固定可选schema的范围仅当前项目对接的schema;修改原因:meta schema对应的数据源和连接用户都是控制台的,如果不限制项目里的这个数据源只能选择项目对接的这一个schema,相当于每个项目都可以通过数据同步绕过数据权限管控把集群下所有别的项目的schema的表直接同步到当前项目中用,这是一个非常大的权限漏洞。 如果需要在当前项目同步任务里要用到其他schema,可以把其他项目的meta schema通过租户管理员授权引入当前项目里用。
数据同步实例运行指标展示优化 上线版本:5.2
数据同步任务实例的运行日志优化了同步性能展示方式。
Bug Fix
- 安全审计操作对象“脚本”修改为“临时查询” 上线版本:5.2
- for循环内网络开销调用优化 上线版本:5.3
V5.2.2
Release Date : 2022-10-18
New Feature
Spark SQL临时查询展示任务执行进度并实时打印日志 上线版本:5.2
支持项目层面的统一配置项 上线版本:5.2
支持在项目层设置是否在周期和手动任务/临时查询中允许ddl操作
Improved
调度依赖优化:天一类实例的依赖逻辑优化(小时分钟等实例依赖逻辑不变) 上线版本:5.2
提交/修改的任务能够立即生成实例 上线版本:5.2
任务在调度属性中新增实例生成方式的选项,除每天固定时间点(22点)生成第二天的实例外还可支持立即生成当天的实例,例如一个任务的调度周期是小时,计划时间是每天每个整点运行,实例生成方式选择“立即生成”,当用户在19:55的时候提交这个任务后,调度会立即生成当天20、21、22、23点的实例并运行。
Hbase2.x向导模式支持 上线版本:5.1
FTP数据同步优化 上线版本:5.1
1、在同步时可读取文件名称进行同步
FTP数据源在字段映射处支持增加文件名称字段,针对每行数据记录其所对应的文件名称并写到目标表的字段中。
2、对于同步成功的文件可进行处理
处理方式:删除文件、重命名文件、将文件移动到指定路径
3、数据同步时打印汇总信息:文件总数,文件内容,文件数据总行数,总耗时
数据同步任务支持上游参数输入 上线版本:5.2
算法下架,任务依赖去除算法子产品选项 上线版本:5.2
新建项目失败后已经成功建成的schema需要回滚 上线版本:5.2
项目创建失败后,在项目创建期间新建的schema会删除
组件输出参数修改为非必填项 上线版本:5.2
输出参数即数据产出表,优化前为必填内容,但在部分客户的场景中多个任务的数据可能会产出到同一张表的不同分区,因此输出参数从必填改为非必填;
语法校验优化 上线版本:5.2
语法校验优化
【优化前】Spark SQL任务提交时语法校验过程比较慢,且可校验的语句范围有限;
【优化后】可校验的SQL语句覆盖全面,包括DDL、DML及一些特殊语法,例如with as,cache table。语法校验时间缩短30%;
临时查询和临时运行支持打印执行时长 上线版本:5.2
临时查询支持oracle、sqlserver、trino 上线版本:5.2
SQL类型任务支持分段运行 上线版本:5.2
oracle、sqlserver支持调用存储过程 上线版本:5.2
有%和_离线模糊搜索的位置进行转译 上线版本:5.2
手动任务 上线版本:5.2
新增手动任务的任务类型,用于手动调起执行任务的场景,其与周期任务和临时查询的相同点和区别如下表:
相同点 | 区别 | |
---|---|---|
相比周期任务 | 支持提交后每次运行生成实例 | 没有调度周期 |
相比临时查询 | 是一次性执行 | 支持任务依赖 |
doris jdbc数据同步 上线版本:5.2
数据同步向导模式支持customsql填写,字段映射需要解析出customsql中的字段 上线版本:5.2
在数据同步任务中,针对rdb类数据源(oracle、mysql、pg、sqlserver、tdsql、gp、、db2、达梦oracle&mysql、kingbase、gaussdb、tidb、adb、hana、phoenix、solr)作为数据来源时支持通过自定义SQL跨表取数,且在字段映射中对SQL字段进行解析。
kingbase一键建表 上线版本:5.2
Bug Fix
influxdb2hive当读取的数据量过大时同步任务读取的数据为0 上线版本:5.2
使用rowid报错 上线版本:5.2
修复了使用oracle数据同步使用rowid作为增量标识的精度缺失报错问题FTP数据读取的默认解析方式从csv改为txt 上线版本:5.2
DAGScheduleX性能优化 上线版本:5.2
优化后的性能:离线运维中心可正常显示百万级实例日增时的显示,千万级实例的依赖拓扑图可正常生成;
Hive3(CDP)表的生命周期生效 上线版本:5.2
V5.2.1
Release Date : 2022-09-02
New Feature
离线支持Spark3.x
告警接受人支持用户组添加
告警配置添加告警接收人时,支持按照用户组添加
补数据增加自定义参数配置
补数据时,支持更替自定义参数
字段映射支持表元数据刷新
字段映射界面,新增「刷新」按钮,可更新元数据
支持通过上传自定义日历/的方式进行全局参数配置
inceptor SQL任务增加版本管理
任务诊断
运维中心周期实例中新增实例诊断功能
hive支持代理账号提交任务
支持hive用代理账号提交任务,代理账号在控制台的hiveserver中通过自定义参数的方式配置
任务SQL代码放开load data语句
hivesql sparksql impalasql inceptorsql可正常使用load data语法运行和提交任务/临时查询
python、shell任务依赖资源
python、shell任务支持引用多个任务和多个资源,python任务可以引用python任务、shell任务,shell任务可以引用python任务、shell任务。
新增hana sql任务类型
Improved
自定义调度周期支持时分
当控制台选择自定义调度周期为日期时,可在调度属性处配置时分。
超管、租户管理员、租户所有者、创建初始化改造
新创建项目时,超级管理员、租户所有者、租户管理员成员都是默认不存在于项目中,但拥有项目内权限。修复admin无项目内权限问题。
华为版本hadoop的mr任务适配
数据开发表查询交互优化
离线开发运维中心图表展示优化
批量将实例置为成功的可能,并且分置为成功(标识实例为成功,并且今日不在调度执行)和成功并恢复调度两种
V5.2.0
Release Date : 2022-07-28
New Feature
事件任务
事件任务的作用为接收外部http触发信号,只有接收到外部成功信号后事件任务本身才会变为成功,可通过此种方式实现“数栈任务依赖外部调度系统任务”的场景
条件任务
条件分支接收上游依赖一个或多个任务的传参,当参数满足某一条件时执行条件分支任务下游的一个或多个分支,在一次运行中没有被命中的分支对应实例会被自动取消
支持Spark on Kubernetes
当控制台配置的hadoop下的资源调度组件为Kubernetes时,Spark类的任务可正常运行
Improved
任务发布功能优化
导入导出式发布支持工作流的多次发布
自定义参数支持配置映射值,发布后目标项目中該自定义参数值即为来源项目中配置的映射值
RESTful数据同步支持多次数据请求和指定数据主体
RESTful数据读取时可能一次请求得到的数据不完整,需要分多次读取,因此离线支持配置多次请求参数,可分批进行数据读取;数据读取时返回格式支持JSON、CSV和XML三种,且对JSON和XML支持指定数据主体,可从返回数据中用JSONPath的方式指定数据需要从哪个路径的key下读取
资源管理区分项目级资源与租户级资源
原资源管理目录划至项目级资源,新增租户级资源创建与管理,在项目内创建租户级资源后,該资源可在本租户下所有项目中生效使用
Spark CBO优化
Spark2.4及以上版本支持开启CBO,开启后平台会按用户设置的元数据信息发送频率把当前项目meta schema的元数据信息同步给引擎,以提升SparkSQL的运行性能(20%以上)
FTP数据同步支持自定义解析方式
FTP中的文件若有特殊的解析要求,可自行开发解析代码,以资源的方式上传后在解析方式中选择使用,具体开发方式参见离线帮助文档
数据同步任务字段映射支持字段转换
字段映射中,可选择资源管理中的资源单个/批量对字段进行转换处理,例如可以对源表字段进行加密/字段内容转换等操作后写入目标表
批量操作优化
支持批量修改调度周期
Shell Python任务支持选择资源包一起提交运行
任务和实例增加自依赖说明
任务/实例存在跨周期依赖的情况不能在依赖视图中直接体现,因此在任务/实例的属性信息中增加此提示,以方便排查问题。
数据同步任务向导 -> 脚本模式的转换优化
原设计:同步任务向导模式转脚本模式时会丢失向导模式下的所有配置并且没有提示;
修改后:数据同步任务在选择来源和选择目标时不可从向导转成脚本,在字段映射和通道配置时可转换成脚本并且会提示先保存,转换成脚本后向导模式下的配置才会保留;
SQL Server支持timestamp字段作为增量标识字段
Bug Fix
修复Hive SQL指定资源组运行不生效的问题
数据源信息变更自动同步至调度
对于数据源相关的信息(jdbcurl、用户名密码等)信息变更同步新增数据源范围:hdfs postgresql ftp inceptor greenplum impala es
周期调度hive创建分区增加schema判断
修复了数据同步hive支持schema选择后自动创建分区失败的问题
脏数据命名规则优化
原脏数据表的命名规则:dirty_任务名,分区的命名规则:task_name=任务名/time=时间戳
修改后脏数据表的命名规则:dirty_任务ID,分区的命名规则:task_name=任务ID/time=时间戳
修改原因:hive分区不支持中文名称。
Flink1.10&1.12数据同步环境参数增加pipeline.operator-chaining = false
数据同步flinkx版本从1.8->1.12时写入hdfs性能变慢,通过参数减少线程切换及消息的序列化反序列化操作,以提升性能
Doris可以非admin权限运行同步任务
V5.1.3
Release Date : 2022-06-24
New Feature
创建项目时支持对接Trino引擎,支持创建和运行Trino任务
个人账号支持绑定Kerberos认证 数栈支持对用户或用户组绑定kerberos证书,并支持以用户级/用户组级kerberos账号进行任务提交
基线告警
基线是一组任务的管理单位,被纳入同一组基线的任务一般需要相同的产出时间。一条基线被纳入监控后,该基线中的任务及其所有上游的任务都会被自动监控。基线在基线管理中开启时,每天晚上24点会生成第二天的基线实例,以对第二天的基线上任务所产生的实例进行监控。
Improved
安全审计增加操作项目类目
数据同步任务中,FTP作为源数据源时,NULL可以选择识别为NULL或者空字符串
在IDE中进行任务切换时,会记住上次代码浏览位置
整库同步可以选择同步任务存放目录
postgresql、db2、greenplum、kingbase、mysql、oceanbase、oracle、sqlserber、tidb等任务,存储函数使用select * from procedure() /select procedure()调用时,在调度不会执行的问题修复
表查询结果限制,所有SQL任务数据查询结果默认仅显示1000条
数据同步任务当HDFS分区不存在时,高级配置中可配置是否报错
通过指定高级配置中failedIfPathNotExist的状态,来配置是否进行报错提示。若failedIfPathNotExist=true,则报错;若failedIfPathNotExist=false,则不报错
V5.1.2
Release Date : 2022-05-25
New Feature
- 支持对接UIC的用户组,并对用户组进行角色授权 在「项目管理->项目成员管理->用户组」中,可添加UIC中设定的用户组,并对用户组赋予角色权限。当需要给某个用户在多个项目下赋予角色时,可以无需在每个项目下重复添加该用户,只需在UIC中将用户拉入用户组,就能在子产品生效。
- 支持对接代码远端仓库(bitbucket)进行代码备份和同步 在「项目管理->项目设置->操作设置」中,可配置代码仓库地址和用户,在数据开发IDE中进行开发时,可进行代码拉取和推送
- RESTful数据同步 支持RESTful向导和脚本模式读写数据同步
Improved
数据源连接信息变更后自动同步至调度,任务运行时会获取新的数据源信息 支持mysql、oracle、sqlserver、hive数据源连接信息变更后(数据源链接、数据源用户、认证信息等),调度将会自动同步
任务提交时的备注格式可在配置文件中设置
如果客户需要自定义提交备注格式,比方需要新增业务变更、提交时间,需要在离线配置文件application.properties中增加参数
task.submit.template=[{"code":"defaultCode","remark":"备注","required":true},{"code":"code1","remark":"业务变更","required":true},{"code":"code2","remark":"提交时间","required":false}]
V5.1.1
Release Date : 2022-05-06
New Feature
- 支持全局参数 支持在控制台配置全局属性的参数,可以被所有租户下的项目引用,系统参数也作为默认的全局参数维护在控制台中
- 数据同步支持给字段做排序 数据同步字段映射时,可以开启「自动排序」功能,让所有字段匹配关系位于同一行,使字段映射结构更加清晰
- 数据同步写入oracle支持一键建表 数据同步,当读取数据源符合一键建表条件,且数据同步目标为oracle时,支持一键生成目标表功能
- hive3_cdp数据源支持映射配置
- 批量操作中,新增任务支持批量改名操作 批量操作中,支持任务批量改名操作,可以通过添加前缀、后缀及通配符替换等方式,将任务名替换成用户想要的格式
Improved
- 全局搜索优化 点击左上角的搜索按钮icon,支持选择搜索方式,选择普通搜索:可以模糊匹配快速搜索任务并打开;选择高级搜索:可以搜索任务、脚本、资源等所有内容并展示对应目录
- Hive 的string、binary字段支持分别写入Oracle的clob、blob
V5.1.0
Release Date : 2022-04-11
New Feature
- 自定义调度日期 除系统固定的天、周、月、小时、分钟及cron表达式外新增数栈全局自定义调度日期配置(以适配客户的节假日、交易日等无规律周期的特殊调度时间要求)。用户可在控制台通过上传日期格式的csv文件进行调度周期创建,保存后可在全局离线开发任务中使用。
- 任务上下游参数传递 支持创建任务上下游参数,可以将上游任务的计算结果作为输出参数,被下游作为输入参数引用
- 项目级kerberos认证 新增项目级kerberos认证,开启后可在hadoop集群上区分principal用户
- 通过inceptor数据源来同步(读写)星环hyperbase和search表
- 离线配合UIC自动登出前IDE编辑内容自动保存
- 数据开发页面中「表查询」下,支持按schema进行表查询
- hive、mysql、DMDB、DB2数据源的数据同步时可以进行跨schema的选择
- hive3cdp支持元数据同步
Improved
- 写redis支持hash数据结构(Flinkx支持版本:1.10/1.12)
- 左上角logo是否客点击跳转首页作为配置项
- 文件目录到字符数限制由20放宽为50
- 文件治理中文件数到最小值调为10
- 在进行杀任务和冻结任务时增加二次确认 在任务管理、周期实例、补数据实例下进行批量操作时,都会弹窗进行二次确认,避免用户进行误操作
- 离线开发平台模糊搜索下拉框数据返回限制至两百条
V5.0.3
Release Date : 2022-03-03
New Feature
- 任务新增下线操作和状态
- 批量操作支持批量修改资源组
Improved
- 数据地图表查询列表增加表描述字段
- 监控告警增加任务成功告警,触发方式支持多选,支持一条告警规则中选择多个任务
- 支持一个schema可对接多个租户的不同项目
- 整库同步支持按表名对表进行搜索
V5.0.2
Release Date : 2022-01-27
New Feature
- 临时查询select结果的下载,支持修改文件名、编码格式
- 工作流任务支持在数据开发页面运行
- 临时运行增加分段运行模式
- 支持SAP HANA向导和脚本模式读数据同步
Improved
- 任务搜索优化,可按搜索对象/搜索方式进行搜索
- 数据开发调度依赖优化,支持自动依赖、推荐依赖和手动依赖三种依赖配置方式
- adb作为数据同步目标表,一键建表时带上表和字段的注释
- 安全审计粒度精细化
- 任务和实例详情查看基础内容完善,实例增加操作记录,任务和实例的运行日志中打印出的任务代码对参数进行值替换
V5.0.1
Release Date : 2021-12-31
New Feature
- 批量杀任务,支持按责任人筛选
- 数据读写同步DMDB支持Oracle模式
- 脱敏规则增加支持转义和算法加密的脱敏方式,新增支持hivesql
- 函数管理中新增 AnalyticDB PostgreSQL 函数管理
- 新增项目周期实例运行情况日报
- 数据同步支持Doris向导和脚本模式数据源写入
- 新增资源组的概念,任务可指定资源组运行
- 新增批量操作功能
Improved
- 删除项目弹窗,展示项目名称,便于用户二次确认
- 脱敏管理支持配置脱敏规则可见用户
- 数据地图去除TiDB表权限申请
- 数据地图查看支持impala处理的hive表
- 上有失败后下游状态从原先“上游失败”调整为“等待提交“
V4.3.4
Release Date : 2021-11-22
New Feature
- 支持inceptor(TDH6.0.x)读同步;
Improved
- FTP数据源读取支持Excel格式(Office版本:2003和2019),支持读取zip文件,支持断点续传;
- 有增量标识的同步任务放开目标表的限制为所有类型的表;
Bug fix
- 为任务配置上游依赖时可选关闭调度周期的本项目下的任务;
- 工作流中子节点的调度周期等属性与父节点一致,不支持单独修改;
V4.3.3
Release Date : 2021-10-15
New Feature
- 支持按项目为选择单位对任务进行补数据,补数据实例可控制并发度;
Improved
- 运维中心任务属性列表中增加实例id的显示,方便异常任务排查;
- 数据同步读ES支持解析nested和object数据类型,插件配置新增settings(可创建索引)和cleanup(索引同步前删除);
- 使用Hive Server作为hadoop引擎下的元数据获取方式时,建的表在数据地图中会显示字段类型后面的长度;
- 项目切换下拉菜单优化:区分菜单中的项目和项目类目;
Bug fix
- Spark SQL和Hive SQL任务的表权限校验问题修复:校验范围修改为任务内包含的所有表及视图;
- 项目创建超时时将强制置失败;
V4.3.2
Release Date : 2021-08-31
New Feature
- 支持创建Hive SQL UDF;
- 支持SQL Server和MySQL任务;
- 项目在对接计算引擎后支持配置项目内允许创建的任务类型;
Improved
- Oracle→Hive的数据同步支持解析Clob和Blob字段;
- 任务发布包中支持对SQL和脚本类代码的内容稽核;
- 项目选择计算引擎时默认创建/对接的Spark Thrift/Hive/AnalyticDB PostgreSQL数据源的元数据同步权限已对数据开发角色开放;
- FTP数据源读同步时对Null值支持用一个默认值替换;
- 运行在YARN上的任务,日志中增加YARN ApplicationID的打印;
- ES7数据同步支持SSL认证;
- Spark SQL/Hive SQL临时运行调整:多段SQL将放在同一个session里执行;
Bug fix
Oracle数据同步的写入模式去除replace into; 依赖视图中非本项目内的任务取消查看任务详情操作;
V4.3.1
Release Date : 2021-08-03
New Feature
- 离线任务和标签任务依赖打通;
- Solr数据源支持脚本模式的读写同步;
Improved
- 本地上传文件导入数据的文件大小限制支持通过配置文件修改;
V4.3.0
Release Date : 2021-07-20
New Feature
- Spark SQL和Hive SQL任务组件:支持创建组件,并使用组件来创建任务,当组件逻辑变更时,使用該组件的任务逻辑同步变更;
- OpenTSDB 2.x数据源读同步;
Improved
- 支持跨hive Schema的表血缘解析;
- 创建项目状态提示优化
Bug fix
- 新建同步任务,编辑中途切换至别的任务tab,所有配置可保存;
- 修复flink on standalone模式的同步日志无法打印问题;
V4.2.3
Release Date : 2021-06-30
New Feature
- AnalyticDB PostgreSQL支持数据源引入离线项目、支持读和写同步、支持SQL任务、元数据获取、支持数据地图表维护、控制台数据库账号与本平台账号的绑定从而实现权限管理;
- influxdb支持数据源引入离线项目、向导及脚本模式的数据读同步;
- 轻量化改造:创建项目时可不选hadoop引擎;
- 离线支持对接数据源中心;
Improved
- shell on agent任务支持指定用户名和机器node label运行;
- 数据同步写ftp支持指定文件名,读ftp支持通配符;
V4.2.2
Release Date : 2021-06-10
New Feature
- 调度周期支持通过Cron表达式定义,配置更灵活
- hive元数据获取方式增加hiveserver(同时支持1,2,3三个版本)
- 增加shell on agent任务,将shell任务跑在Agent上,打破一个脚本类任务固定占2c的限制,更灵活地进行资源共享
- 增加Inceptor数据写同步与Inceptor SQL任务
- 增加AWS S3数据读写同步
- Spark和Flink多版本支持
Improved
- 数据文件治理优化:对于hive小文件可同时支持周期治理与一次性治理。周期治理支持通过存储量和文件量进行表筛选,按项目批量进行数据文件合并一次性治理支持按表名和分区名进行筛选,预约时间或立即进行精准合并
- Hive SQL支持版本对比
V4.2.1
Release Date : 2021-05-10
New Feature - 离线任务支持跨产品配置任务依赖:可配置上游为算法任务
Improved - 项目和类目名称规范 - 数据同步任务配置在添加常量时增加常量类型的选择 - 数据同步导入前和导入后的语句解析支持多条语句解析 - 角色在项目中的权限梳理 - 任务重试次数、重试间隔时长放宽可配置 - 离线帮助文档改为可配置 - 数据地图查看表和管理表页面表搜索增加按责任人搜索条件
Bug Fix
- 整库同步和数据同步速率控制修复
- 数据地图表权限申请隐藏字段选择
- 未配置告警通道时离线的告警配置页面报错修复
- 修复hivesql环境参数配置动态分区无效问题
V4.2.0
Release Date : 2021-04-06
New Feature
- 离线任务支持绑定质量任务进行质量校验
Improved - 元数据同步支持选择需要同步的表 - 按业务日期杀实例增加对实例名称的筛选
V4.1.4
Release Date : 2021-02-24
Improved
- 运维中心等部分页面的ui升级
- 导入导出式发布的发布包内任务限制300个以内
V4.1.3
Release Date : 2021-01-06
New Feature
- 小文件合并第一版
- Spark SQL UDF重建
- 告警通道增加支持自定义通道的对接
Improved
- Keberos认证支持Principal选择
- 工作流中的子节点展示父节点的调度周期
- 任务和实例列表页面分页控件增加页码填写框
- 不同集群下的项目标识可重名
- 同步任务打包增加更新环境参数选项
Bug Fix
- TiDB在数据地图中的元数据管理功能修复
- 首页和周期实例页面失败数统计错误修复
- 修复了发布同名任务会提示重复发布的问题
- 修复了任务、表等负责人被移出项目后的资源交接问题
V4.1.2
Release Date : 2020-12-08
New Feature
- 租户管理员及以上角色可删除项目
Improved
- 优化数据同步表搜索方式
- Oracle数据同步支持Schema选择
- 配置文件里的明文密码加密处理
V4.1.1
New Feature
- 【数据源】Kudu数据源支持Kerberos认证
- 【数据同步】亿级Phoenix大表同步
- 【数据开发】Spark、Flink和DtScript类型任务支持通过环境参数进行提交至Yarn的资源管控
Improved
- 【数据开发】任务编辑和运行增加快捷键支持
- 【数据开发】分钟/小时过期实例自动取消设计优化
Bug Fix
- 修复工作流重跑范围问题
- 修复数据同步脚本模式的参数传入值与数据源信息更改同步问题
- 修复PostgreSQL字符串空串会转成null写入问题
- 修复数据同步速度限制不起作用问题
- MongoDB嵌套字段解析
V4.1.0
Release Date : 2020-10-19
New Feature
- Kinbase数据同步
Improved
- 任务和实例列表页可设置每页展示数据条数
- 生成建表语句格式化
- 任务和脚本名称支持中文名称,字符数放宽至128字符
- 补数据弹窗中增加全选当前任务及下游
- 数据同步任务支持日志下载
- 数据同步的高级本配置参数中增加maxfilesize配置
- SparkSQL任务提交表权限判断
- 整库同步表列表分页及高级配置优化
- SDK更新
Bug Fix
- 修复发布管理分页bug
V3.10.9/4.0.6
New Feature
- 【数据源】支持人大金仓数据同步
- 【数据开发】支持LDAP对接
Improved
- 【整库同步】整库同步优化:高级设置中规则优化、表支持分页
- 【数据同步】数据同步任务支持下载日志
- 【运维中心】任务补数据弹窗中增加当前及下游任务的批量选择
- 【数据开发】任务和脚本名称支持中文名称,长度放宽为128字符
- 【数据开发、运维中心】一键建表中的建表语句格式化
- 【运维中心】任务管理、周期实例和补数据实例列表支持选择每页展示的数据条数
V3.10.8/4.0.5
Release Date : 2020-08-31
New Feature
- 【发布管理】导入导出式任务发布
- 【数据开发】Greenplum数据源支持UDF和存储过程的创建与管理
- 【数据开发】Spark SQL和Hive SQL任务支持表级任务提交和临时运行权限控制
- 【项目管理】支持通过邮件等方式每天发送项目内任务运行情况汇总报告
V3.10.7/4.0.4
Release Date : 2020-08-15
New Feature
- 【数据源】兼容Hive1和HBase1
- DTengine支持对接CDH的Spark2.2版本
- Sonar代码检测
- Schedule迁移
V3.10.6/4.0.3
Release Date : 2020-06-15
New Feature
- 【离线开发】支持浏览器不同tab打开不同项目
- 【数据源】Greenplum数据源增加数据同步功能
V3.10.5/4.0.2
Release Date : 2020-06-03
New Feature
- 【数据开发】增加Greenplum作为计算引擎
- 【数据开发】增加任务未提交标识
Improved
- 【项目管理】项目在绑定发布目标时,可绑项目放宽为非空项目
V3.10.4/4.0.1
Release Date : 2020-05-20
New Feature
- 【数据开发】增加Oracle作为计算引擎
- 【运维中心】支持电话告警
- 【数据地图】表无数据新增基本信息tab
- 【创建项目】项目增加所属分类
- 【数据同步】hive源表支持分区字段作为映射字段
- 【数据开发】增加$[yyyyMMdd-1,-]系统参数,增加bizdate2参数格式
- 【运维中心】告警接收人增加搜索功能
Improved
- 【数据地图】默认建表格式从orc改为parquet
- 【运维中心】补数据弹窗中,默认勾选选中的补数据任务
- 【系统参数】系统参数名称修改:${bdp.system.currenttime}->${bdp.system.runtime}
- 【系统参数】增加其他format输出格式
- 【系统参数】增加currenttime作为时间基准线
- 弹窗输入框中检验结果图标显示优化
Bug Fix
- 【创建项目】项目(仅含hadoop引擎)创建成功后进入项目报server runtime error
V3.10.3/4.0.0
Release Date :
New Feature
- 【数据同步】支持达梦数据库
Improved
- 【数据地图SparkSQL支持在页面增加字段
- 【数据开发】任务目录oom问题处理:单目录下最多2000个任务
- 【数据源】以JDBC方式连接的数据源,用户名密码改为非必填
Bug Fix
- 【数据开发】工作流节点任务右侧不显示且无法删除
V3.10.2
Release Date : 2020-01-17
New Feature
- 【数据源】ElasticSearch数据源支持用户名密码功能
- 【数据同步】数据同步读、写支持ElasticSearch 6.x版本
Improved
- 【UIC】优化了首次登录UIC后,未配置个人信息弹框时不能操作除通知弹框外其余的按钮
- 【控制台】调整了DTScript组件的配置方式
- 【控制台】优化了Kerberos,在删除flink、spark、DtScript、Spark ThriftServer中开启kerberos按钮
- 【数据源】oracle数据源jdbc支持高可用的方式接入
- 【首页】进行了首页的修改与优化
Bug Fix
- 【UIC】修复了只有一个租户时/通过本系统登录时/通过第三方登录时跳转界面有误的bug
- 【UIC】修复了默认租户下移除该用户后登录界面报错的bug
- 【UIC】修复了用户管理界面搜索账户/姓名结果有误的bug。
V3.10.1
Release Date : 2019-12-30
New Feature
- 【整体】新增了前端代码拆分
Improved
- 【首页】优化了产品的icon位置和文案。
V3.9.5
Release Date : 2019-12-10
New Feature
- 【控制台】新增SFTP修改配置参数,SFTP组件为必选,在用户名后增加"
认证方式
"的表单 - 【数据同步】新增SFTP修改配置参数,若选择了SFTP模式,允许用户选择认证模式
- 【整体】新增了通过SQL导出任务列表的功能,导出的字段包括任务名、任务类型、任务调度时间、任务创建人员、任务上游依赖、任务提交状态
- 【富力地产】新增了高级运行模式,创建指定压缩格式的表,在hdfs上产生的临时文件支持压缩格式。
Improved
- 【整体】能够与Hadoop3兼容;
- 【UIC】优化了登录界面用户名的密码取值
Bug Fix
- 【UIC】修复后的UIC能够支持事件回调,实现租户所有者改变通知。