Skip to main content

2024年6月更新日志

上线时间:2024-6

数据开发

离线AI+功能【6.2】

离线开发支持对接AIGC接口,支持智能代码优化、智能注释、智能解释、Text 2 SQL、日志智能解析等功能

代码优化&智能注释&智能解释

img

Test 2 SQL

img

日志智能解析

img

SQL编辑器升级【6.2】

主要针对以下几个场景进行了优化:1、语法高亮 2、错误飘红 3、语法自动补全

img

img

img

支持Doris计算引擎【6.2】

在离线中支持Doris计算引擎,支持周期任务、数据同步、手动任务、临时查询、语法提示、表查询、函数管理、存储过程、依赖推荐、任务上下游参数、代码模版、按项目、个人粒度绑定数据库账号、执行计划、导入本地数据等功能

Hive SQL临时查询运行速率优化【6.2】

在Hive SQL中新增「下载结果」单选按钮,当用户无需下载结果时,可以显著提升Hive SQL的执行速率。

SQL耗时(平台数据按页面接口时间计算)
序号优化后平台耗时(单位:s)优化前平台耗时(单位:s)
152.62129.13
296120.35
351168.14
平均值66.54139.21

复杂查询在优化后,查询耗时明显缩短,响应时间是原来的一半。原因是任务直接查询,节省了提交yarn队列和获取yarn任务结果的时间。

img

Spark SQL函数注册优化【5.2】

背景:客户日常在使用Spark SQL函数的过程中,通常写的是Hive SQL函数,但是客户自己可能并不清楚自己写的是Hive SQL函数,这样就会导致在Spark SQL函数中创建不了,导致报错

优化:

1、Spark SQL目录下的udf既可以是Hive udf,也可以是Spark udf。用户在创建udf的时候,离线侧进行判断,解析用户创建的udf是Spark udf还是Hive udf,帮助用户完成注册。

2、部署了Sparkthitft才会展示Spark SQL函数,部署了hive server才会展示hive sql 函数。

Yarn TFlog日志下载优化【6.2】

日志乱码问题解决

HDFS表查询优化【6.2】

背景:当数据量过大时

1、服务请求异常

2、limit或者count 无法正常返回结果

3、数据地图预览无法查看数据

优化:

Split的分片处理逻辑调整

运维中心

补数据支持设置执行时间【6.2】

场景一:

业务场景存在数据更新,希望能够对Spark SQL任务定时进行数据的重跑,例如每天进行前七天为业务日期的数据的重跑,目前产品上的方案是 每天手动进行补数据的操作。但是客户觉得每天去手动补数据非常麻烦,因为他们任务量大,可能需要一天手动补很多数据。因此周期补数据就可以满足客户的以上场景

场景二:

某企业为不影响周期任务的正常运行,经常在凌晨进行补数据,需要凌晨人工操作。现在设置补数据运行时间为2:00即可

功能:

1、支持定时补数据、周期补数据功能

2、运维中心新增「补数据任务」菜单,可统一管理「补数据任务管理」和「补数据任务实例」页面

立即运行补数据实例

img

定时运行补数据实例

img

周期运行补数据实例

img

周期补数据任务运维

img

立即补数据&定时补数据任务运维

img