湖表元数据
查看表元数据时,除了建表时维护的元数据信息外,平台还支持如下元数据功能:
数据概览
统计湖表的数据情况,包括:文件总数、表行数、存储大小、数据更新时间、分区列、自定义参数。
分区概览
分区是一种可选的方式,根据日期、城市和部门等特定列的值将表划分为相关部分。每个表可以有一个或多个分区键来识别一个特定的分区。通过分区,用户可以有效地对表中的某一片段记录进行操作。
- Paimon
展示表的分区列表,支持对分区进行删除操作。
快照管理
对于数据湖表来说,每一次Commit都会生成一份快照。平台支持记录展示每个快照的元数据信息。
Iceberg
列表展示快照ID和修改时间。支持将当前快照和任意历史快照进行元数据比对,并支持进行回滚操作。
Hudi
列表展示Commit元数据信息,列表内容较多。对应后端执行「show_commits_metadata」操作。
同样支持版本回滚,但是不支持版本比对。
Paimon
列表展示快照ID与标签TAG的对应关系等快照信息,支持快照回滚(前提为快照与标签不存在对应关系),当前快照管理页面支持创建标签操作。
标签管理
Paimon快照可以提供另一种查询历史数据的方式,而无需合并成本。Paimon数据存储会为每次提交生成快照,因此我们可以在任何快照(在SQL中通常称为时间旅行查询)找到历史数据,Paimon引入一种新的机制“标签”。标签是从快照创建的,可以保留更长时间。
Paimon
标签管理列表展示表当前最新的TAG位置,支持删除标签操作