Skip to main content

表管理

可进入数据管理-表管理页面,对本项目空间内的数据表进行搜索。在全部数据页面中,通过选择数据类目导航+搜索框中输入表名进行模糊匹配的方式快速查找需要的表。

查看表

点击表管理模块中任意列表中的数据表名称,即可跳转至表详情页面,包括表的基本信息、存储信息、字段信息、分区信息、血缘信息和数据预览。

  • 表的基本信息

表的基本信息包括所属项目、表名、创建者、创建时间、所属类目、描述。 可单击生成建表语句按钮生成该表的建表语句。

  • 表的存储信息

表的存储信息包括物理存储量(数据存在延迟)、生命周期、是否分区表、表创建时间、DDL最后变更时间和最后数据变更时间。

  • 表的字段信息

表的字段信息包括字段名称、类型、是否分区字段和描述。

  • 表的分区信息

通过表的分区信息模块可查看表当前的分区,包括分区名、创建时间、存储量。

  • 表的数据预览

通过表的数据预览模块可预览当前表的数据信息。

  • 表的血缘信息

通过表的血缘信息模块可查看该表数据流的血缘信息,只支持表级血缘分析。

数据表的管理

在数据表管理中,可以对表进行以下操作:生命周期设置、表管理(包括修改表的类目、描述、字段、分区等)、表删除等。

  • 表的管理操作

点击数据管理-表管理模块中点击编辑,即进入表的管理页面。 在表的管理页面,支持以下操作:

  1. 修改表的所属类目
  2. 修改表的生命周期
  3. 修改表的描述
  4. 修改表结构
  5. 删除表:数据表一旦删除,该表的结构信息及表的所有数据均不可恢复,请谨慎操作。

表的生命周期处理

在数据表管理中,可以对表设置生命周期,表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被系统自动回收。这个指定的时间就是生命周期。 指定生命周期,可在建表时通过SQL指定,例如:

CREATE TABLE IF NOT EXISTS film(
id STRING
) LIFECYCLE 10
  • 生命授权单位:Days(天),只接受正整数。

  • 如果您为非分区表指定了生命周期,则自最后一次数据被修改的时间(LastDataModifiedTime)起算,经过Days天后数据仍未被改动,则此表将会被自动回收(类似truncate table操作)。同时表的元数据信息也被一起删除。

  • 如果您为分区表指定了生命周期,则可以根据各个分区的LastDataModifiedTime判断该分区是否应该被删除。不同于非分区表,分区到达生命周期后,系统将删除此分区和分区中的数据。当表中所有分区都被删除后,表的元数据信息删除。

  • 生命周期回收为每天定时启动,扫描全量分区。扫到时,Last modify time需超过Lifecycle指定的时间才回收。

  • 生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。

  • 如果您没有为表显式指定生命周期,则表(分区)默认生命周期为9999天。

    tip

    假设某个分区表生命周期为1天,该分区数据最后一次被修改的时间是17号15点0分。如果18号的回收扫描在15点前扫到这个表(不到一天),则不会回收上述分区。如果19号回收扫描时发现这个表的这个分区Last modify time超过Lifecycle指定的时间,则上述分区会被回收。

    tip

    数据被修改的时间(LastDataModifiedTime)依赖于用户在平台内部的操作,若用户通过外部系统直接修改HDFS文件,则不会识别出数据被修改,可能导致数据因生命周期到达而被删除