Skip to main content

数据入湖

这里的数据入湖是指,将HMS中的历史Hive表转换为数据湖表。

并不是指业务库数据的离线同步/实时采集进入数据湖。目前这个入湖能力需要借助数栈离线/实时平台、或者第三方计算平台。

Hive表转Iceberg表

  • 新建入湖任务

    note
    • 仅支持Parquet、ORC、Avro格式的Hive转表,且Hive表数据不可为空
    • 转表后,底层数据文件没有变更,还是同一份。只是在HMS中生成了Iceberg相关的元数据去读写数据文件
    • 默认v2表,支持数据更新

    image-20230329170538958

Hive表转Hudi表

note
  • 仅支持Parquet、ORC格式的Hive转表,且Hive表数据不可为空
  • 后端默认走METADATA_ONLY模式,数据不迁移,只重新生成元数据
  • 支持是否创建新表:创建新表可重命名表并指定主键。

image-20230329170855709

Hive表转Paimon表(正在开发中。。。。)

任务状态管理

表格式转换会持续一段时间,因此列表支持对转换任务进行状态管理。

对于转表失败的任务,支持重启(重新提交转表任务)、查看运行日志。

  • Hive转Iceberg表失败

image-20230214145942153

  • Hive转Iceberg表成功

hive转表iceberg完成.png

  • 查看表详情-表类型为Iceberg

hive转表iceberg完成表信息.png