名词解释
数据湖
是一种支持以任意规模存储所有结构化和非结构化数据的格式。
然后通过不同类型的分析计算,如大数据处理、实时分析、机器学习、可视化方法来应用数据,指导做出更好的决策。
Iceberg、Hudi、Paimon
都是一种用于大数据计算分析的表格式。支持对接包括 Spark、Trino、PrestoDB、Flink、Hive 和 Impala等计算引擎,实现高性能的数据读写。
HiveMetastore
在数据湖中,用于存储管理Iceberg/Hudi表的元数据信息。
Catalog
组织数据湖表的一种目录格式,Catalog.Database.Table
表格式转换
将已有的Hive表转换为Iceberg/Hudi表格式,数据不变(Paimon正在开发中。。。。)