快橙加速器ios企业版

案例中心

如何 ATPCO 通过 Amazon DataZone 实现受管的自助数据访问,以加速创新 大数据博

ATPCO如何利用Amazon DataZone加速创新与自助数据访问

主要要点

在数据驱动的世界中,ATPCO通过Amazon DataZone为企业提供经过治理的自助数据访问,从而促进创新。这篇文章详细探讨了ATPCO如何利用AWS服务改善数据访问流程,从而加快决策和创新速度。

在当今的数据驱动世界中,各行各业的公司都认识到数据在决策、推动创新和开发新产品方面的巨大价值。然而,许多组织在帮助员工轻松找到、访问并使用数据时面临挑战,尤其是在保持适当治理控制的情况下。主要障碍限制了创新速度,妨碍了快速决策的能力。

ATPCO是现代航空零售的核心,让航空公司和第三方渠道能够在正确的时间向客户提供正确的优惠。ATPCO的覆盖范围令人印象深刻,其票价数据覆盖全球超过89的航班时间表,与超过440家航空公司及132个渠道合作,随时管理和处理超过35亿个票价。ATPCO的愿景是驱动航空零售创新的平台,同时成为航空生态系统的可信合作伙伴,力求使数据驱动的决策更为容易,并确保适当的治理以决定谁可以访问什么数据。

如何 ATPCO 通过 Amazon DataZone 实现受管的自助数据访问,以加速创新 大数据博

在本文中,我们将通过ATPCO的一个使用案例,展示ATPCO如何利用AWS服务,包括Amazon DataZone,使数据可被不同业务单位的消费者发现,从而加速创新。我们建议您首先阅读Amazon DataZone的概念和术语,以熟悉本文中使用的术语。

使用案例

ATPCO的一个使用案例是帮助航空公司了解哪些产品包括票价和附加服务,如优选座位偏好正在各个渠道和客户细分市场中提供和销售。为了支持这一需求,ATPCO希望通过三个不同的数据来源来获取产品性能洞察:

数据来源描述航空公司出票数据处理超过10亿的航空公司出票数据。ATPCO定价数据全球87的航空公司优惠通过ATPCO的定价数据提供。ATPCO是为航空公司、全球分销系统(GDS)、在线旅行代理商(OTA)提供定价和商品内容的行业领导者。去识别化的客户主数据ATPCO的客户主数据经过去识别化处理,适用于敏感内部分析和合规性。

为了生成洞察并将其作为数据产品分享给航空公司,ATPCO的分析师需要找到与此主题相关的数据,访问数据集,并使用SQL客户端如Amazon Athena开始形成假设和关系。

在使用Amazon DataZone之前,ATPCO的分析师需要通过与同事交谈来寻找潜在的数据资产,这使得在公司内部发现数据资产变得困难,从而减缓了创新的步伐,增加了分析过程的时间。

解决方案

为了应对这一挑战,ATPCO寻求以现代数据网格架构为灵感。数据网格架构鼓励数据产出者以数据产品的形式发布和策划数据,而非中心化的数据平台团队,这样的设计使得数据消费者能够轻松发现、请求和使用数据。

Amazon DataZone提供丰富的功能来帮助数据平台团队分配任务以使这些团队的操作变得更加灵活。在Amazon DataZone中,数据拥有者可以将数据及其业务目录元数据发布到ATPCO的DataZone域。数据消费者可以使用易于理解的元数据术语搜索相关的数据资产。数据消费者的访问请求不再发送至ATPCO的数据平台团队,而是直接发送给发布者或其授权的审核者进行评估和批准。当数据消费者使用数据时,他们会在自己AWS账户中执行,这样会把他们的消耗成本分配到正确的成本中心,而非中心化池中。Amazon DataZone还避免了数据重复,从而节省了成本并降低了合规性跟踪。Amazon DataZone处理所有的基础设施,利用熟悉的AWS服务,如AWS身份与访问管理(IAM)、AWS Glue、AWS数据湖形成和AWS资源访问管理(AWS RAM),以完全可检查的方式运行。

以下图表提供了一个使用Amazon DataZone和其他AWS服务的解决方案概览,遵循完全分布的AWS账户模型,其中如航空公司出票销售、票价数据和去识别化客户数据等数据集储存在不同的AWS Organizations成员账户中。

实现

现在,我们将逐步介绍ATPCO如何实施其解决方案,以帮助分析师快速发现、获取和使用数据,从而帮助航空公司客户。

这个实现涉及四个部分:

设置账户治理和身份管理。创建和配置Amazon DataZone域。发布数据资产。作为分析数据生成洞察的一部分消费数据资产。

第一步:设置账户治理和身份管理

在开始之前,请比较您的当前云环境,包括数据架构,与ATPCO的环境。我们将为本文简化此环境,概括如下组件:

ATPCO使用组织创建和治理AWS账户。ATPCO在多个账户中设置的数据湖资源,每个账户由不同的数据生成团队拥有,这样可以控制访问,限制故障范围,并帮助分配和控制成本与使用情况。在每个数据生成账户中,ATPCO拥有一个通用的数据湖堆栈:用于数据存储的Amazon简单存储服务(Amazon S3),用于更新和存储技术元数据的AWS Glue爬虫和目录,以及用于管理数据访问权限的AWS LakeFormation在混合访问模式下。ATPCO创建了两个新的AWS账户:一个用于拥有Amazon DataZone域,另一个用于消费团队使用Amazon Athena进行分析。ATPCO启用了AWS IAM身份中心,并连接了其身份提供商(IdP)进行身份验证。

我们假设您具有类似的设置,虽然您可能会选择其他方式以适应您的特殊需求。

第二步:创建和配置Amazon DataZone域

在您的云环境设置完毕后,第2步将帮助您创建和配置Amazon DataZone域。域有助于组织数据、用户及其协作项目,并包括一个独特的业务数据目录和一个网页门户,发布者和消费者将用于共享、协作和使用数据。对于ATPCO来说,他们的数据平台团队创建并配置了其域。

第21步:创建Amazon DataZone域

角色:域管理员

前往您域账户中的Amazon DataZone控制台。如果您使用AWS IAM身份中心进行企业工作身份验证,则选择您的身份中心实例部署的AWS区域。选择创建域。

输入一个名称和描述。保留自定义加密设置高级未选中。将单选按钮保持为创建并使用新角色。AWS将自动在您的账户中创建一个拥有必要IAM权限来访问Amazon DataZone API的IAM角色。因为我们不计划在我们的域账户中发布或消费数据,所以保持为数据消费和发布设置此账户的简便设置选项未选中。暂时跳过添加新标签。您可以随时回来编辑域并添加标签。选择创建域。

在域创建完成后,您将看到类似于以下的域详细信息页面。请注意,IAM身份中心默认为禁用状态。

第22步:为您的Amazon DataZone域启用IAM身份中心并添加组

角色:域管理员

默认情况下,您的Amazon域、其API和其独特的网页门户可由该AWS账户中拥有必要datazone IAM权限的IAM主体访问。ATPCO希望其企业员工能够使用其企业单点登录SSO凭据访问Amazon DataZone,而无需二次联合进入IAM角色。AWS身份中心是AWS跨服务解决方案,用于传递身份提供商凭据。 如果您计划直接使用IAM主体访问Amazon DataZone,则可以跳过此步骤。

导航至您的Amazon DataZone域的详细信息页面,然后选择启用IAM身份中心。

向下滚动至用户管理部分,并选择在IAM身份中心中启用用户。当您这样做时,用户和组分配方法选项将出现在下面。开启要求分配。这意味著您需要明确允许添加用户和组来访问您的域。选择更新域。

现在让我们向域添加一个组,以使其成员获得访问权。返回到您域的详细信息页面,向下滚动并选择用户管理选项卡。选择添加,然后从下拉菜单中选择添加SSO组。

输入组名的前几个字母,然后从选项中选择它。添加完所需组后,选择添加组。您可以在域的详细信息页面上确认组已成功添加,方法是选择SSO用户,然后从下拉列表中选择SSO组。第23步:将AWS账户关联到该域以便于数据发布和消费的隔离

角色:域管理员和AWS账户拥有者

Amazon DataZone支持分布式的AWS账户结构,数据资产与数据消费如Amazon Athena使用分开,数据资产拥有各自的账户由相应的数据拥有者拥有。我们称这些为关联账户。Amazon DataZone及其协调的其他AWS服务处理跨帐户的数据共享。为了使这一操作生效,域和账户拥有者需要执行一次性的账户关联:域需要与账户共享,账户拥有者需要配置该账户以使用Amazon DataZone。对于ATPCO而言,有四个期望的关联账户,其中三个是存储在Amazon S3中的数据资产账户,四个则用于分析师消费。

关联账户的第一部分是与所需账户共享Amazon DataZone域Amazon DataZone自动为您创建资源策略。在ATPCO的情况下,他们的数据平台团队管理域,因此一名团队成员负责这些步骤。

在Amazon DataZone控制台中,登录到域账户,导航至域详细信息页面,向下滚动并选择关联账户选项卡。然后选择请求关联。输入第一个要关联的账户的AWS账户ID。选择添加另一个账户,并对剩余的要关联的账户重复第一步。对ATPCO来说,共有四个要关联的账户。完成后,选择请求关联。

快橙加速器官方网站入口

关联账户的第二部分是账户拥有者配置其账户以供Amazon DataZone使用。事实上,这一进程意味著账户拥有者允许Amazon DataZone在账户内执行操作,例如在订阅请求获批后授予对Amazon DataZone项目的访问权。

登录到关联账户,进入与域相同区域的Amazon DataZone控制台。在Amazon DataZone首页,选择查看请求。选择发送请求的Amazon DataZone域名称,然后选择审核请求。

选择您要启用的Amazon DataZone蓝图。在本示例中,我们选择数据湖,因为ATPCO的使用案例中包含在Amazon S3中的数据,并通过Amazon Athena进行消费。

在权限和资源中将默认设置保留原样,Glue管理访问角色允许Amazon DataZone使用IAM和LakeFormation来管理IAM角色和对数据湖资源的权限,当您批准Amazon DataZone中的订阅请求后。供应角色则允许Amazon DataZone在您允许用户创建Amazon DataZone项目和环境时,在您的账户中创建S3桶及AWS Glue数据库和表。数据湖的Amazon S3桶是您指定当用户用您的账户存储数据时Amazon DataZone所使用的S3桶。

选择接受并配置关联。这将带您到关联的域表,显示此关联账户关联的域。对其他