1.Gravitino简介
官网对Gravitino的定义是:Apache Gravitino is a high-performance, geo-distributed, and federated metadata lake. By using a technical data catalog and metadata lake, you can manage access and perform data governance for all your data sources (including filestores, relational databases, and event streams) while safely using multiple engines like Spark, Trino, or Flink on multiple formats on different cloud providers.
Apache Gravitino是一个高性能、地理分布和联邦的元数据湖。通过使用技术数据目录和元数据湖,您可以管理所有数据源(包括文件存储、关系数据库和事件流)的访问并执行数据治理,同时在不同云供应商的多种格式上安全地使用Spark、Trino或Flink等多个引擎进行数据分析。
官网结构如下图所示:
2.Gravitino特性
Gravitino主要有以下六大功能特性
2.1.统一的元数据管理
Unified Metadata Management
Gravitino为不同类型的数据源抽象了统一的元数据模型和API。例如,用于表格式数据的关系型元数据模型,如Hive、MySQL、PostgreSQL等。用于所有非结构化数据的文件元数据模型,例如HDFS、S3和其他格式。
2.2.端到端的数据治理
End-to-End Data Governance
Gravitino旨在提供一个统一的元数据治理层,以统一的方式管理端到端元数据,包括访问控制、审计、发现和其他功能。
2.3.直接的元数据管理
Direct Metadata Management
Gravition与传统元数据管理系统不同,传统的元数据管理需要从底层系统主动或被动收集元数据,而Gravitino直接管理这些系统。它提供了一组connector来连接到不同的元数据源。Gravitino的变化直接反映在底层系统中,反之亦然。
2.4.跨地域分布支持
Geo-Distribution Support
Gravitino支持跨地域分布式部署,这意味着Gravitino的不同实例可以部署在不同的区域或云上,并且它们可以相互连接以获取元数据。通过这种方式,用户可以获得跨区域或云上的元数据的全局视图。
2.5.多引擎支持
Multi-Engine Support
Gravitino支持不同的查询引擎来访问元数据。目前,它支持Trino,用户可以使用Trino查询元数据和数据,而无需更改现有的SQL方言。其他查询引擎的支持也在roadmap上,包括Apache Spark、Apache Flink等。
2.6.AI资产管理
AI Asset Management (WIP)
Gravitino的目标是统一数据和人工智能资产的数据管理。模型、功能等人工智能资产的支持正在开发中。