回来时,杰夫·贝佐斯在他的车库充满订单和包裹开车到邮局本人,对成本捣弄数字,跟踪库存和预测未来的需求相对简单。快进25年来,亚马逊的零售业务已超过175满足中心(FC)与全球超过25万全职联营发货每天数百万的项目。

亚马逊的全球金融运营团队有一项难以置信的任务,就是追踪所有这些数据(比如pb)。在亚马逊的规模上,一个错误计算的指标,比如单位成本,或者延迟的数据会产生巨大的影响(考虑到数百万美元)。团队一直在寻找获得更准确、更快数据的方法。

这就是为什么,在2019年,他们有了一个想法:建立一个数据湖,可以支持这个星球上最大的物流网络之一。它后来成为内部被称为银河数据湖。银河数据湖始建于2019年,现在所有不同的球队都对他们的数据移动到它的工作。

数据湖是一个集中的安全存储库,允许您存储、管理、发现和共享任何规模的所有结构化和非结构化数据。数据湖不需要预定义的模式,因此您可以处理原始数据,而不需要知道将来可能想探究的见解。下图显示了数据湖的关键组件。

大数据的挑战

亚马逊在大数据方面面临的挑战与许多其他公司面临的挑战类似:数据竖井、难以分析不同的数据集、数据控制、数据安全以及合并机器学习(ML)。让我们进一步了解这些挑战,并了解数据湖如何帮助解决这些问题。

打破孤岛

一个主要的原因公司选择创建数据湖泊被打破数据孤岛。其在不同的地方数据,不同群体控制的口袋,本质上掩盖了数据。这当一个公司成长快速和/或获得新的业务经常发生。在亚马逊的情况下,它一直都。

迅速向国际扩张并创建新的航运项目(例如,免费当天送货亚马逊新鲜),大多数运营计划团队已经控制了他们自己的数据和技术。因此,数据存储在不同的地方,以不同的方式。这种方法允许每个团队解决问题,响应客户需求,并更快地创新。但是,在组织和公司级别上理解数据比较困难——它需要从许多不同的来源手动收集数据。由于有如此多的团队独立运作,我们失去了可以通过共同解决问题来实现的效率。

从数据中获得细粒度的细节也很困难,因为不是每个人都能访问各种数据存储库。对于较小的查询,您可以在电子表格中共享数据的一部分。但是,当数据超过电子表格的容量时,挑战就出现了(这种情况经常发生在大公司)。在某些情况下,您可以共享更高层次的数据摘要,但这样就不能真正了解全局。

数据湖泊中的所有数据将团结一个中央位置解决了这个问题。团队可以继续发挥灵活的单位,但条条大路通回数据湖边分析。没有更多的孤岛。

分析不同的数据集

使用不同的系统和方法进行数据管理的另一个挑战是数据结构和信息各不相同。例如,Amazon Prime拥有配送中心和包装商品的数据,而Amazon Fresh拥有杂货店和食品的数据。就连航运项目在国际上也不尽相同。例如,不同的国家有时有不同的盒子大小和形状。来自物联网(IoT)设备(如实现中心机器上的传感器)的非结构化数据也在不断增加。

更重要的是,不同的系统也可能有相同类型的信息,但标签不同。例如,在欧洲,使用的术语是“每单位成本”,但在北美,使用的术语是“每包成本”。这两个术语的日期格式是不同的。在这种情况下,需要在两个标签之间建立链接,以便分析数据的人知道它指的是同一件事。

如果希望将所有这些数据合并到一个没有数据湖的传统数据仓库中,将需要大量的数据准备、导出、转换和加载(ETL)工作。你将不得不在保留和失去之间做出权衡,不断地改变一个僵化系统的结构。

数据湖允许您以任何格式导入任何数量的数据,因为没有预定义的模式。您甚至可以实时摄取数据。您可以从多个数据源收集数据,并将其以原始格式移动到数据湖中。你也可以在不同标签的信息之间建立链接,但它们代表的是相同的东西。将所有数据移动到数据湖还可以改进使用传统数据仓库的功能。您可以灵活地将高度结构化的、经常访问的数据存储在数据仓库中,同时还可以在数据湖存储中保存多达eb级的结构化、半结构化和非结构化数据。

管理数据访问

随着存储在这么多地方的数据,很难两个接入的这一切,并链接到外部工具进行分析。亚马逊的业务财务数据是在超过25个数据库传播与区域团队创建的数据集的自己的本地版本。这意味着超过25访问管理凭据对某些人。很多数据库需要访问管理支持做事情,比如修改配置文件或重置密码。此外,审计和控制必须到位,对每个数据库,以确保没有人非法访问。

有了数据湖,就更容易在正确的时间将正确的数据提供给正确的人。您不必管理存储数据的所有不同位置的访问,只需关心一组凭据。数据湖拥有允许授权用户查看、访问、处理和/或修改特定资产的控件。数据湖有助于防止未经授权的用户采取可能危及数据机密性和安全性的行动。

使用数据湖,数据以开放格式存储,这使得使用不同的分析服务更加容易。开放格式还使数据更有可能与甚至还不存在的工具兼容。组织中的各种角色,如数据科学家、数据工程师、应用程序开发人员和业务分析师,都可以使用他们所选择的分析工具和框架访问数据。必威体育精装版app官网

你不会被锁定在一个小的工具集,以及更广泛的一群人可以让数据的意义。

加速机器学习

数据湖是ML和AI(人工智能)的强大基础,因为ML和AI在大型、多样化的数据集上繁荣发展。ML使用从现有数据中学习的统计算法(这个过程称为训练)来对新数据作出决定(这个过程称为推理)。在训练过程中,识别数据中的模式和关系来建立模型。该模型允许您对以前没有遇到过的数据做出明智的决策。拥有的数据越多,就越能更好地训练ML模型,从而提高准确性。

亚马逊全球运营财务团队的最大职责之一是计划和预测亚马逊供应链的运营成本和资本支出,包括整个运输网络、数百个物流中心、分拣中心、配送站、全食超市(Whole Foods)地点、生鲜取货点等。它们有助于回答重要的高层次问题,比如“我们明年将发运多少包?”以及“我们将在工资上花多少钱?”他们还会提出一些非常具体的问题,比如“下个月在佛罗里达州坦帕市我们需要每种尺寸的盒子多少?”

更准确的预测,就更好了。如果您估计过低或过高,可以影响你的客户和你的底线的负面影响。例如,在亚马逊,如果我们预测需求太低,仓库工人在履行中心可能没有足够的供应品或有可能没有足够的驱动程序,这可能导致包被推迟,更多的电话客户服务,订单被取消,和客户的信任损失。如果我们的预测过高,你可以有库存和包装盒围坐占用宝贵的空间,在一个仓库里。这种情况意味着有对处于更高的需求的产品的空间更小。

大多数组织,比如亚马逊,花了很多时间试图预测未来。幸运的是,ML可以改善预测。去年,亚马逊运营财务团队做了一个测试。他们将预测的一个子集与传统的人工过程进行比较亚马逊预测,完全托管的服务,它使用机器学习提供高度准确的预测。在此试运行,通过预测完成预期分别为67%,比上由手工工艺完成的平均预测更准确。

通过将所有的数据移动到数据湖,亚马逊的运营财务团队可以结合数据集进行训练和部署更精确的模型。培训ML车型有更多的相关数据增加预测精度。此外,它释放谁是更具战略意义的项目,手动执行此任务的工作,如分析的天气预报,以推动该领域业务的改进员工。

使用正确的工具:AWS上的Galaxy

亚马逊的零售业务使用的一些技术早于2006年创立的亚马逊网络服务(AWS)。为了提高可扩展性、效率、性能和安全性,亚马逊零售业务中的许多工作负载在过去十年中都转移到了AWS上。星系数据湖是一个更大的大数据平台的关键组成部分,内部称为银河。下图显示了Galaxy依赖于AWS的一些方式以及它使用的一些AWS服务。

星系数据湖就是建立在此之上的Amazon简单存储服务(Amazon S3)betway88体育官网,能够提供无与伦比的可用性,耐用性和可扩展性的对象存储服务。一些数据也被收纳在亚马逊专有基于文件的数据存储,安第斯山脉和弹性数据交换,这两者都是在亚马逊S3的顶端的服务层。betway88体育官网其他一些数据源亚马逊红移,数据仓库,亚马逊关系数据库服务(RDS亚马逊),关系数据库和企业应用程序。

AWS胶,这是一个完全管理的ETL服务,可以让您轻松地准备和加载数据进行分析AWS数据库迁移服务(AWS DMS)用于船上的各种数据集,以亚马逊S3。betway88体育官网银河收割机元资产从多种服务,包括亚马逊红移,亚马逊RDS和AWS胶水数据目录,成为一个统一的目录层建立在亚马逊DynamoDB,一个键-值和文档数据库。亚马逊Elasticsearch服务(亚马逊ES)用于使能更快地对目录搜索查询。

数据已被编目(onboarded)后,各种服务都在客户端层中使用。例如,亚马逊雅典娜,交互式查询服务,使用标准的SQL即席查询探索;亚马逊红移,对多个结构化查询和报告服务;和亚马逊SageMaker,机器学习。

AWS湖形成

亚马逊团队从头开始创建了银河数据湖架构。他们不得不在几个月的时间必威体育精装版app官网里手工开发许多组件,这与过去其他公司所做的类似。2019年8月,AWS发布了一项名为“云服务”的新服务AWS湖形成。它允许您简化数据湖的创建过程,并在几天内(而不是几个月)构建安全的数据湖。湖泊形成帮助您从数据库和对象存储中收集和分类数据,将数据移动到新的Amazon S3数据湖中,使用机器学习算法清理和分类数据,并保护敏感数据的访问。betway88体育官网

总结

通过以基于开放标准的数据格式将数据存储在统一的存储库中,数据湖允许您打破竖井,使用各种分析服务从数据中获得最多的见解,并随着时间的推移以成本效益的方式增长您的存储和数据处理需求。

对于亚马逊的金融运营团队来说,银河数据湖将为其全球用户提供综合体验。Galaxy的基础设施是在2019年建成的,现在各种数据库系统正在进入数据湖。现在使用该工具的团队已经看到了它的好处,例如手工流程和笨重的电子表格的移除,生产力的提高,以及有更多的时间可用来进行增值分析。我期待着关注这个团队今年的进展,看看这个数据湖如何继续为他们提供更好、更快的数据。

如果您有兴趣打破数据孤岛,进行先进的数据分析,提高数据的可访问性,并加速机器学习,您可以了解更多有关数据湖区和分析上的AWS在我们的网站上。您还可以访问AWS数据湖和分析在线学习路径。

最初发表在SiliconANGLE

评论

博客评论Disqus