数据入湖
这里的数据入湖是指,将HMS中的历史Hive表转换为数据湖表。
并不是指业务库数据的离线同步/实时采集进入数据湖。目前这个入湖能力需要借助数栈离线/实时平台、或者第三方计算平台。
Hive表转Iceberg表
新建入湖任务
note- 仅支持Parquet、ORC、Avro格式的Hive转表,且Hive表数据不可为空
- 转表后,底层数据文件没有变更,还是同一份。只是在HMS中生成了Iceberg相关的元数据去读写数据文件
- 默认v2表,支持数据更新
Hive表转Hudi表
note
- 仅支持Parquet、ORC格式的Hive转表,且Hive表数据不可为空
- 后端默认走METADATA_ONLY模式,数据不迁移,只重新生成元数据
- 支持是否创建新表:创建新表可重命名表并指定主键。
Hive表转Paimon表(正在开发中。。。。)
任务状态管理
表格式转换会持续一段时间,因此列表支持对转换任务进行状态管理。
对于转表失败的任务,支持重启(重新提交转表任务)、查看运行日志。
- Hive转Iceberg表失败
- Hive转Iceberg表成功
- 查看表详情-表类型为Iceberg