之前网络随处可见,最简单的方法运输信息从一台计算机在你的机房是写数据到软盘,跑到电脑和加载数据从软盘。这种数据传输方式被戏称为“运动鞋网.这是有效的,因为网络只有有限的带宽,你想保留它为基本任务。.

在某些方面,计算世界发生了巨大的变化;网络已经无处不在,延迟和带宽能力也大幅度提高。除了网络能力的增长,我们还能够将别的东西增长到更大的比例,即我们的数据集。千兆字节的数据集被认为是很小的,T字节集是常见的,并且我们看到一些客户正在处理petabyte大小的数据集。.

无论我们在过去10年中如何提高网络吞吐量,我们的数据集都增长得更快,而这很可能是未来几年中只会加速的模式。虽然网络可以提高吞吐量的另一个数量级,但是可以肯定的是,数据集将在同一时间段内增长两个或更多个数量级。.

同时处理大量的数据已成为常见的地方。以前是物理和生物技术研究人员的领域,或者可能是商业智能,现在越来越多的其他领域由大型数据集驱动。在研究中,我们看到传统的社会科学,如心理学和历史正在走向数据驱动。例如在商业世界没有电子商务网站可以了没有挖掘大量数据来优化建议他们的客户。还在系统管理领域中,数据集增长越来越快,因此备份和灾难恢复处理越来越大集合。日志文件和监控也显示出越来越多的相关数据。.

我们的许多客户都有大量的数据集,并且希望能够进入我们的存储服务并在亚马逊EC2中进行处理。然而,通过网络移动这些大数据集可能是麻烦的。如果你看看典型的网络速度和需要多长时间将tb数据集:

速度表。JPG

根据可用的网络吞吐量和数据集的大小,将数据移动到Amazon S3可能需要相当长的时间。为了帮助客户更快地将他们的大型数据集移动到Amazon S3,我们向他们提供通过Amazon的内部高速网络使用以下命令进行此操作的能力AWS进出口。.

AWS导入/导出允许您将数据传输到一个或多个便携式存储设备上,以便加载到Amazon S3中。对于要加载的每个便携式存储设备,清单解释如何加载数据以及如何将文件映射到Amazon S3对象键。在将数据加载到Amazon S3之后,AWS导入/导出将生成的密钥和MD5校验和存储在日志文件中,以便您可以检查传输是否成功。.

AWS的导入/导出对我们必须处理大型数据集的许多客户有很大帮助。我们继续倾听我们的客户,以确保我们增加功能,工具和服务,帮助他们解决真正的问题。有关AWS进出口访问的更多信息细节页面..

对于大数据集的演化和通过网络移动的挑战,你应该阅读一些论文面谈Jim Gray是计算机领域的先驱。.

评论

博客评论迪斯科