表管理
可进入数据管理-表管理页面,对本项目空间内的数据表进行搜索。在全部数据页面中,通过选择数据类目导航+搜索框中输入表名进行模糊匹配的方式快速查找需要的表。
查看表
点击表管理模块中任意列表中的数据表名称,即可跳转至表详情页面,包括表的基本信息、存储信息、字段信息、分区信息、血缘信息和数据预览。
- 表的基本信息
表的基本信息包括所属项目、表名、创建者、创建时间、所属类目、描述。 可单击生成建表语句按钮生成该表的建表语句。
- 表的存储信息
表的存储信息包括物理存储量(数据存在延迟)、生命周期、是否分区表、表创建时间、DDL最后变更时间和最后数据变更时间。
- 表的字段信息
表的字段信息包括字段名称、类型、是否分区字段和描述。
- 表的分区信息
通过表的分区信息模块可查看表当前的分区,包括分区名、创建时间、存储量。
- 表的数据预览
通过表的数据预览模块可预览当前表的数据信息。
- 表的血缘信息
通过表的血缘信息模块可查看该表数据流的血缘信息,只支持表级血缘分析。
数据表的管理
在数据表管理中,可以对表进行以下操作:生命周期设置、表管理(包括修改表的类目、描述、字段、分区等)、表删除等。
- 表的管理操作
点击数据管理-表管理模块中点击编辑,即进入表的管理页面。 在表的管理页面,支持以下操作:
- 修改表的所属类目
- 修改表的生命周期
- 修改表的描述
- 修改表结构
- 删除表:数据表一旦删除,该表的结构信息及表的所有数据均不可恢复,请谨慎操作。
表的生命周期处理
在数据表管理中,可以对表设置生命周期,表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被系统自动回收。这个指定的时间就是生命周期。 指定生命周期,可在建表时通过SQL指定,例如:
CREATE TABLE IF NOT EXISTS film(
id STRING
) LIFECYCLE 10
生命授权单位:Days(天),只接受正整数。
如果您为非分区表指定了生命周期,则自最后一次数据被修改的时间(LastDataModifiedTime)起算,经过Days天后数据仍未被改动,则此表将会被自动回收(类似truncate table操作)。同时表的元数据信息也被一起删除。
如果您为分区表指定了生命周期,则可以根据各个分区的LastDataModifiedTime判断该分区是否应该被删除。不同于非分区表,分区到达生命周期后,系统将删除此分区和分区中的数据。当表中所有分区都被删除后,表的元数据信息删除。
生命周期回收为每天定时启动,扫描全量分区。扫到时,Last modify time需超过Lifecycle指定的时间才回收。
生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。
如果您没有为表显式指定生命周期,则表(分区)默认生命周期为9999天。
tip假设某个分区表生命周期为1天,该分区数据最后一次被修改的时间是17号15点0分。如果18号的回收扫描在15点前扫到这个表(不到一天),则不会回收上述分区。如果19号回收扫描时发现这个表的这个分区Last modify time超过Lifecycle指定的时间,则上述分区会被回收。
tip数据被修改的时间(LastDataModifiedTime)依赖于用户在平台内部的操作,若用户通过外部系统直接修改HDFS文件,则不会识别出数据被修改,可能导致数据因生命周期到达而被删除