今天,我们很高兴地宣布的有限预览亚马逊红移,一个快速、强大、完全管理的pb级云数据仓库服务。Amazon Redshift使客户能够在分析从数百gb到1 pb或更多的数据集时获得显著提高的查询性能,使用他们现在使用的基于sql的商业智能工具。客户要求我们提供数据仓库服务已经有一段时间了,我们很高兴能够为他们提供这项服务。

亚马逊红移使用各种创新,使客户能够快速分析数据集的大小不等,从几百个G到PB级等等。不同于传统的基于行的关系数据库,其对于每行顺序地在磁盘上存储数据,亚马逊红移顺序地存储每一列。这意味着,红移执行少得多浪费IO比基于行的数据库,因为它并没有读取执行给定的查询时,它不需要列中的数据。另外,由于类似的数据被顺序地存储,亚马逊红移可以有效地压缩数据,这进一步降低IO的它需要执行返回结果的量。

亚马逊红移的架构和底层平台也优化,可为数据仓库工作负载的高性能。红移具有大规模并行处理(MPP)架构,这使它能够分配和跨多个低成本节点并行化查询。节点本身的数据仓库工作负荷而设计的。它们含有大量的多主轴本地连接的存储,并通过最小超额认购10千兆位以太网网络连接。这种配置使吞吐量达到最大的量的存储和你的CPU之间,同时确保各节点间的数据传输仍然非常快。

当您提供一个Amazon红移集群,您可以根据您的存储和性能要求,从1到100个节点选择并轻松放大或缩小那些要求改变。与压缩存储16TB的供应集群,一个额外的大节点(XL)与压缩存储的2TB或八超大(8XL)时,有两个节点类型的选择。亚马逊红移的MPP架构可以很容易地调整你的集群,以保持与你的存储和性能需求的步伐。你可以在你的数据仓库集群容量2TB的启动,轻松地扩展到PB级的多。

并行不仅仅是查询。亚马逊红移它需要通过应用IT运营类似重物,备份和恢复了一步。例如,当装载的数据来自Amazon S3,您只需发出你的S3存储的位置的betway88体育官网SQL复制命令。红移分析您桶和并联负载的每一个节点同时内容,考虑到S3的多个连接的增加的带宽的优点。如果您选择加载循环方式你的数据,你就大功告成了。如果你选择了一个散列分区方案,您的数据会自动重新分配到正确的节点。亚马逊红移也延伸了该并行到备份,这是从每个节点取出并是自动的,连续的和增量。从S3备份还原簇也是一个节点并行操作。所有这些行动,我们的目标是尽量减少你花在执行操作大型数据集的时间。

我们对性能的关注带来了戏剧性的结果。亚马逊的数据仓库团队一直在试用亚马逊的Redshift,并将其与他们的内部数据仓库进行比较,对20亿行数据集进行一系列有代表性的查询。他们发现,Redshift的速度提高了10倍到150倍!

到目前为止,这些级别的性能和可伸缩性都非常昂贵。我很高兴地说,这不是我们在亚马逊做事的方式。你可以以每小时0.85美元的价格从一个2TB的Amazon Redshift节点开始,按小时付费,无需长期承诺或预付成本。这相当于每年3723美元每太字节。如果你有稳定的、长时间运行的工作负载,你可以利用我们的三年预留实例定价,将Redshift的价格降至1000美元/ tb /年以下,这是目前大多数数据仓库解决方案价格的十分之一。以Amazon.com的数据仓库团队为例,他们现有的数据仓库是一个价值数百万美元的系统,具有32个节点、128个cpu、4.2TB RAM和1.6PB磁盘。他们通过拥有2个8XL节点的Amazon Redshift集群和3.65美元/小时的3年有效预留实例价格(即每年不到32,000美元)实现了加速。

除了是昂贵的,自我管理的内部部署数据仓库需要显著的时间和资源来管理。装载,监控,调整,采取备份,并从故障中恢复是复杂和耗时的任务。亚马逊红移改变了这种通过管理的所有设置,操作和扩展数据仓库,使您所需的工作集中于分析数据和生成的业务洞察力。

我们设计了亚马逊红移集成和兼容性的考虑。红移集成了亚马逊简单存储服务(S3)和亚马逊DynamoDB,与亚马逊关系数据库服务(RDS)和Amazon Elastic MapReduce的即将推出的支持。您可以使用在JDBC或ODBC连接标准的PostgreSQL驱动程序的基于SQL的客户或商业智能工具连接到亚马逊的红移。的JasperSoft和MicroStrategy的已认证亚马逊红移与他们的平台上使用,具有额外的商业智能工具即将推出。

我相信Amazon Redshift结合了性能、价格、可管理性和兼容性,将使分析越来越大的数据集具有经济合理性。我期待着看到我们的客户如何将这项技术付诸实践。

要了解更多关于Amazon Redshift的信息,请访问AWS博客,并在该网站上注册接受邀请,观看有限预览http://aws.amazon.com/redshift

评论

博客评论由Disqus