概述
产品介绍
数据湖平台是一款基于开源数据湖架构自研的数据湖管理工具。通过该平台,可以帮助企业快速的搭建、管理起数据湖。
首先,我们需要明确数据湖和数据湖管理工具的区别。
- 数据湖:简单理解就是一种表格式(Table Format),下接存储介质、上接计算引擎。目前市面常见的数据湖选型有Iceberg、Hudi、Paimon。它的价值在于,通过表格式特性解决当前大数据技术栈在存储、计算方面遇到的各种问题。
- 数据湖管理工具:平台本身并不具备数据湖的各种特性能力,而是一个方便用户管理数据湖的工具。所以该平台的目标用户是已经了解熟悉数据湖特性的,否则只是使用平台功能没有任何意义。它的价值在于,通过工具化的能力帮助企业快速的搭建、维护数据湖。
数据湖的核心特性
在介绍工具的前,有必要再简单普及下数据湖的一些核心特性和应用场景。更多信息可以访问官网查询:
Iceberg:https://iceberg.apache.org/docs/latest/
- Schema和分区演进:支持列的增删改,无需重写文件;分区布局自动调整,并且支持隐藏分区式的查询。
- 数据更新和事务语义:支持行/列级数据更新,无需重写文件;支持ACID语义,避免脏读。
- 快照控制和流式能力:支持数据快照的生成/查询/比对/回滚,更可借助Flink引擎实现流读流写。
- 索引优化和数据修剪:更快的查询性能。
- 多存储/引擎类型对接:存储介质支持对接HDFS、对象存储;计算引擎支持对接Spark、Flink、Trino等。
数据湖的应用场景
通过上面的特性了解,我们可以有针对性的对现有大数据架构进行升级:
Hive离线数仓的升级
Hive表无法友好地支持列的增删改、数据的行/列级更新等问题,都可以通过数据湖表的特性去满足。在应用初期,可以在有数据更新的计算场景上,逐步使用湖表替换Hive表。应用中后期,出于存储优化、查询加速等场景的考虑,完成所有Hive表的替换。
Kafka实时数仓的升级
由于Kafka的特性约束,存在数据保存时间短、不落地的问题,一旦发现计算错误,无法进行历史数据的追溯。通过Flink+批流一体表(湖表+Kafka)的方案,可以在保障计算实时性的同时,又能做到实时数据的入湖存储。
湖仓一体的建设
传统的批计算、流计算、分析计算,是三套独立的架构方案,如Spark+Hive、Flink+Kafka、Impala+kudu。底层存储的隔离,必然会导致数据流转链路长、数据冗余存储、数据一致性偏差等问题。基于数据湖的读写特性优势,我们可以使用一套数据湖存储方案支持掉所有计算场景。然后基于数据湖的多引擎支持特性,上层对接不同的计算引擎,支持不同的计算场景。
为什么需要数据湖管理工具
了解了数据湖特性和场景后,很多用户会考虑自己基于开源数据湖进行搭建,为什么还需要我们这个管理工具?我们的优势在于:
开箱即用,一站式解决方案
不需要您去调研-下载-安装-调试-应用-运维,由我们专业的运维人员完成产品部署,即可开箱即用。产品能力涵盖从数据入湖、元数据管理、数据文件治理、湖内数据应用,满足一站式使用场景。
开源优化,能力升级
基于开源数据湖,我们在加强他的实时性和查询性能方面做了部分优化;同时,通过平台功能的封装,降低了数据湖构建和治理的难度,让用户更易上手。
灵活对接,自由选择
提供多种数据湖架构支持,您可以根据业务场景设计不同类型的湖表,如Iceberg、Hudi、Paimon。