Skip to main content

概述

产品介绍

数据湖平台是一款基于开源数据湖架构自研的数据湖管理工具。通过该平台，可以帮助企业快速的搭建、管理起数据湖。

首先，我们需要明确数据湖和数据湖管理工具的区别。

数据湖：简单理解就是一种表格式（Table Format），下接存储介质、上接计算引擎。目前市面常见的数据湖选型有Iceberg、Hudi、Paimon。它的价值在于，通过表格式特性解决当前大数据技术栈在存储、计算方面遇到的各种问题。
数据湖管理工具：平台本身并不具备数据湖的各种特性能力，而是一个方便用户管理数据湖的工具。所以该平台的目标用户是已经了解熟悉数据湖特性的，否则只是使用平台功能没有任何意义。它的价值在于，通过工具化的能力帮助企业快速的搭建、维护数据湖。

数据湖的核心特性

note

在介绍工具的前，有必要再简单普及下数据湖的一些核心特性和应用场景。更多信息可以访问官网查询：

Iceberg：https://iceberg.apache.org/docs/latest/

Hudi：https://hudi.apache.org/docs/overview

Paimon：https://paimon.apache.org/docs/master/

Schema和分区演进：支持列的增删改，无需重写文件；分区布局自动调整，并且支持隐藏分区式的查询。
数据更新和事务语义：支持行/列级数据更新，无需重写文件；支持ACID语义，避免脏读。
快照控制和流式能力：支持数据快照的生成/查询/比对/回滚，更可借助Flink引擎实现流读流写。
索引优化和数据修剪：更快的查询性能。
多存储/引擎类型对接：存储介质支持对接HDFS、对象存储；计算引擎支持对接Spark、Flink、Trino等。

数据湖的应用场景

通过上面的特性了解，我们可以有针对性的对现有大数据架构进行升级：

Hive离线数仓的升级
Hive表无法友好地支持列的增删改、数据的行/列级更新等问题，都可以通过数据湖表的特性去满足。在应用初期，可以在有数据更新的计算场景上，逐步使用湖表替换Hive表。应用中后期，出于存储优化、查询加速等场景的考虑，完成所有Hive表的替换。
Kafka实时数仓的升级
由于Kafka的特性约束，存在数据保存时间短、不落地的问题，一旦发现计算错误，无法进行历史数据的追溯。通过Flink+批流一体表（湖表+Kafka）的方案，可以在保障计算实时性的同时，又能做到实时数据的入湖存储。
湖仓一体的建设
传统的批计算、流计算、分析计算，是三套独立的架构方案，如Spark+Hive、Flink+Kafka、Impala+kudu。底层存储的隔离，必然会导致数据流转链路长、数据冗余存储、数据一致性偏差等问题。基于数据湖的读写特性优势，我们可以使用一套数据湖存储方案支持掉所有计算场景。然后基于数据湖的多引擎支持特性，上层对接不同的计算引擎，支持不同的计算场景。

为什么需要数据湖管理工具

了解了数据湖特性和场景后，很多用户会考虑自己基于开源数据湖进行搭建，为什么还需要我们这个管理工具？我们的优势在于：

开箱即用，一站式解决方案
不需要您去调研-下载-安装-调试-应用-运维，由我们专业的运维人员完成产品部署，即可开箱即用。产品能力涵盖从数据入湖、元数据管理、数据文件治理、湖内数据应用，满足一站式使用场景。
开源优化，能力升级
基于开源数据湖，我们在加强他的实时性和查询性能方面做了部分优化；同时，通过平台功能的封装，降低了数据湖构建和治理的难度，让用户更易上手。
灵活对接，自由选择
提供多种数据湖架构支持，您可以根据业务场景设计不同类型的湖表，如Iceberg、Hudi、Paimon。

产品介绍
数据湖的核心特性
数据湖的应用场景
为什么需要数据湖管理工具