作者 :Aarthi Srinivasan 和 Leon Stigter,发表于 2024年1月18日,
分享
AWS Lake Formation 和 数据目录一直是基于 的数据湖数据治理解决方案的重要组成部分,并与多个 AWS 分析服务集成。在
年,我们介绍了对这些服务的增强。今年,我们继续倾听客户故事,并根据他们的反馈对产品进行改进。在这篇文章中,我们很高兴总结2023年的努力成果,以改善和简化客户的数据治理。
我们在 AWS re:Invent 2023 上首次宣布了新特性和功能,如同每年一样。以下是展示 Lake Formation 和数据目录功能的 re:Invent 2023 讲座:
我们将新功能分为四类:
发现与安全
数据共享
可扩展性与优化
审计与监控
接下来,让我们深入探讨2023年推出的新功能。
以 Lake Formation 和数据目录为基础,我们在2023年10月推出了 。DataZone 是一项数据管理服务,使您能够更快速、简单地对 AWS、内部和第三方数据进行目录分类、发现、共享和治理。DataZone的发布与订阅工作流增强了您组织内不同角色之间的协作,并加快了从数据中获得商业洞察的时间。您可以利用 AI驱动的助手提高数据目录的技术元数据,使其更易于发现。DataZone 会自动管理您在 DataZone 项目中共享数据的权限。有关 DataZone的更多信息,请参见 。 欢迎来到 DataZone!
用于分类数据,以确定原始数据的格式、结构和相关属性,将数据分组为表或分区,并将元数据写入数据目录。2023年,我们对 AWSGlue 爬虫进行了多项更新。我们增加了将自定义 JDBC驱动程序带入爬虫中的能力,以便从数据源提取数据结构并填充数据目录。为了优化分区检索并改善查询性能,我们添加了自动为新发现的表创建分区索引的功能。我们还与 Lake Formation ,支持对 S3数据湖的集中权限管理。这些改进大大简化了使用爬虫进行元数据发现的过程。 爬虫,你好!
我们还看到开放表格式(OTFs)如 Linux Foundation Delta Lake、 和 的使用急剧增加。为了支持这些流行的 OTFs,我们添加了原生爬虫对这三种表格式的支持。此外,我们与其他 AWS 分析服务(如 )合作,启用了 Lake Formation对这三种开放表格式的细粒度权限控制。我们鼓励您探索 。 很好集成!
随着数据源和类型的增加,您最终会在数据湖中拥有嵌套数据类型。为了在不扁平化这些数据集的情况下实现数据治理,Lake Formation 添加了对 的支持。我们还在运行 和 时增加了 Lake Formation 的细粒度访问控制支持。使用 ,细粒度访问控制功能目前已 。 连接点!
在 AWS,我们与客户保持密切合作,以了解其体验。我们明白从 (IAM)基于 Amazon S3 和 AWS Glue数据目录的权限迁移到 Lake Formation 的过程可以优化。我们意识到,您的用例需要更大的数据治理灵活性。通过 Lake Formation 的 ,我们引入了 对某些用户和数据库选择性添加 LakeFormation 权限的功能,而不会干扰其他用户和工作负载。您可以在混合模式下定义一个目录表,并使用 Lake Formation向新的用户(如数据分析师和数据科学家)授予访问权限,而您的生产提取、转换和加载(ETL)管道可以继续使用现有的 IAM 基于权限。 双重胜利!
让我们谈谈身份管理。您可以使用 IAM 实体、 用户和组,和外部账户及其上的 IAM 实体授予对 Lake Formation 中数据目录资源的访问权限。您的公司身份是什么?您是否需要创建和维护多个 IAM 角色并将其映射到不同的公司身份?您可以看到访问表的 IAM 角色,但如何找出哪些用户访问了它?为了解答这些问题,,并添加了受信任身份传播功能。通过此功能,您可以向来自现有身份提供者的身份授予细粒度访问权限。其他 也支持用户身份传播。您的审计人员现在可以看到,像 的用户通过 、Amazon EMR 和 访问了由 Lake Formation 权限管理的表。 轻松集成!
现在,您无需担心将数据移到另一个 AWS 区域或复制数据目录以使用 AWS 的数据治理服务。我们在2023年将 。 瞧!
Lake Formation提供了一种简单的方法,与内部和外部用户共享数据目录对象(如数据库和表)。这一机制赋予组织快速、安全地访问数据的能力,并加快业务决策的速度。让我们回顾一下在2023年此主题下的新功能和改进。
AWS Glue 数据目录是 Lake Formation 和 DataZone 数据治理的核心和基础组件。在2023年,我们通过联合扩展数据目录,以 和 等功能。我们还发布了 ,您可以自定义连接数据目录以配合其他 Apache Hive 兼容的元存储。这些集成使数据目录获得更多元数据,并能轻松地使用 LakeFormation 权限进行细粒度访问控制和资源共享。我们还支持通过 从一个区域访问另一个区域的数据目录表。此改进简化了许多用例,避免了元数据重复。
通过 功能,您可以发现、分析、连接和与其他数据源共享 CloudTrail Lake 数据,使用数据目录的细粒度访问控制和查询可视化能力进行操作。
我们进一步扩展了数据目录的功能,以支持数据湖跨域的 。您可以使用不同的 SQL 方言创建视图,并从 Athena、Redshift Spectrum 和 Amazon EMR 查询。这允许您在视图级别维持权限,而不共享单个表。数据目录的视图功能 ,并在 re:Invent 2023 上宣布。
随着 SQL查询随着时间的数据变化变得更加复杂或多重连接,成本优化器(CBO)可以基于表中数据的统计信息,驱动查询计划的优化并提升性能。2023年,我们增加了对数据目录中表的 。客户已经在 Athena 和 Redshift Spectrum中看到开启表列统计后的查询性能提升。 跟随数字!
基于标签的访问控制消除了每次向数据湖添加新资源时更新策略的需要。相反,数据湖管理员创建 Lake Formation 标签(LF标签),对数据目录对象进行标记,并根据这些 LF 标签授予用户和组访问权限。在2023年,我们新增了 的支持,使数据湖管理员能够向数据保护员和其他用户授予管理 LF 标签的权限,而无需管理员权限。 LF 标签民主化!
Apache Iceberg格式利用元数据追踪构成表的数据文件。对表进行的更改(例如插入或更新)会导致新数据文件的创建。随着表的数据文件数量增加,使用该表的查询效率可能降低。为了提高 Iceberg 表的查询性能,需要通过将较小的变更捕获文件压缩为更大的文件来减少数据文件的数量。用户通常会在自己的服务器或通过 AWS Glue ETL创建和运行脚本来进行这些 Iceberg 表文件的优化。为了解决 Iceberg 表的复杂维护,客户向我们寻求更好的解决方案。我们引入了 ,一旦您开启了自动压缩,数据目录会自动管理表的元数据,并为您的 Iceberg 表提供始终优化的 Amazon S3 布局。要了解更多信息,请查看 。 自动化!
了解谁可以访问何种数据是数据治理的关键组成部分。审计人员需要验证 Lake Formation和数据目录中是否设置了正确的元数据和数据权限。数据湖管理员拥有完全的权限和元数据访问权限,并可以授予对数据本身的访问权限。为给审计人员提供审查权限和元数据的选项而不授予其修改权限的权限,我们在 Lake Formation 中引入了 。该角色使您可以审计目录元数据及 Lake Formation 权限和 LF 标签,同时限制对权限和元数据的修改。
我们度过了一个出色的 2023 年,开发了产品增强功能,帮助您使用 Lake Formation和数据目录简化和增强数据治理。我们邀请您尝试这些新功能。以下是我们版本发布帖子以供参考的列表:
Leave a Reply