Skip to main content

湖表元数据

查看表元数据时,除了建表时维护的元数据信息外,平台还支持如下元数据功能:

数据概览

统计湖表的数据情况,包括:文件总数、表行数、存储大小、数据更新时间、分区列、自定义参数。

image-20230214135005038

分区概览

分区是一种可选的方式,根据日期、城市和部门等特定列的值将表划分为相关部分。每个表可以有一个或多个分区键来识别一个特定的分区。通过分区,用户可以有效地对表中的某一片段记录进行操作。

  • Paimon 展示表的分区列表,支持对分区进行删除操作。 image-20230214140526427

快照管理

对于数据湖表来说,每一次Commit都会生成一份快照。平台支持记录展示每个快照的元数据信息。

  • Iceberg

    列表展示快照ID和修改时间。支持将当前快照和任意历史快照进行元数据比对,并支持进行回滚操作。

    image-20230214140526427

  • Hudi

    列表展示Commit元数据信息,列表内容较多。对应后端执行「show_commits_metadata」操作。

    同样支持版本回滚,但是不支持版本比对。

  • Paimon

    列表展示快照ID与标签TAG的对应关系等快照信息,支持快照回滚(前提为快照与标签不存在对应关系),当前快照管理页面支持创建标签操作。

    image-20230214140526427

标签管理

Paimon快照可以提供另一种查询历史数据的方式,而无需合并成本。Paimon数据存储会为每次提交生成快照,因此我们可以在任何快照(在SQL中通常称为时间旅行查询)找到历史数据,Paimon引入一种新的机制“标签”。标签是从快照创建的,可以保留更长时间。

  • Paimon

    标签管理列表展示表当前最新的TAG位置,支持删除标签操作

    image-20230214140526427