今天亚马逊网络服务thecontinuous创新道路上又前进了一步,宣布一个新的Amazon EC2实例类型:TheCluster GPU实例。基于集群计算实例类型,ClusterGPU实例添加了两个NVIDIA Telsa M2050 gpu提供了基于gpu的每个实例computationalpower超过一个浮点运算。这个令人难以置信的力量是你去看朋友根本不用跋涉好几英里,任何人使用通常的现收现付模式,删除的investmentbarrier阻止许多组织采用gpu的workloadseven尽管他们知道会有显著的性能优势。。

从财务处理和传统的石油& gasexploration HPC应用程序集成复杂的3 d图形到在线andmobile应用程序,似乎belimitless GPU的应用处理。我们相信这些GPU资源可供everyoneto利用低成本将推动新的创新highlyparallel编程模型的应用程序。。

从CPU、GPU

构建通用架构一直是困难的;经常有很多相互冲突的需求不能得到anarchitecture将所有,所以我们往往最终聚焦于佐治亚州的要求让你服务很好。例如,最基本的抽象权衡一直latencyversus吞吐量。这些权衡甚至影响最低levelbuilding块在我们的计算机体系结构设计。现代的cpu stronglyfavor低延迟的操作与纳秒的时钟周期和我们建立了通用软件体系结构,可以利用这些lowlatencies很好。现在,我们生成的能力越来越高clockrates已经停滞和CPU架构改进转移焦点towardsmultiple核心,我们看到它becomingharder有效地使用这些计算机系统。。

我们的通用cpu notperforming权衡一个领域是大量的细粒度并行性。具有巨大的计算需求的图形processingis这样一个领域,但其中每个thetasks相对较小,经常执行的一组操作datain管道的形式。这个管道的吞吐量更importantthan个人的延迟操作。因为它的聚焦延迟,通用CPU产生,而低效的图形处理系统。Thislead诞生的图形处理单元(GPU)的集中onproviding非常细粒度的并行模型,处理组织inmultiple阶段,数据流经的地方。GPU的模型要高任务并行性描述管道的不同阶段,以及asdata并行在每个阶段,导致一种高效,产量很高计算架构。。

早期的GPU系统非常特定于供应商和mostlyconsisted图形运营商能够在硬件中实现并行数据流操作。这产生了一个全新的一代computerarchitectures突然相对简单的工作站可以使用forvery复杂图形计算机辅助设计等任务。然而这些fixedfunctions顶点和片段操作最终变得太restrictivefor下一代图形的进化,所以新的GPU架构必威体育精装版应用官网ed特定于用户的程序可以运行在每个阶段的管道。随着这些项目越来越复杂和对新业务,比如几何处理增加,GPU architectureevolved在前馈管道组成的通用32-bitprocessing单位处理任务和数据并行性。不同阶段werethen可用单位之间进行负载平衡。。

Tesla_M2050。jpg

通用GPU编程

编程GPU进化以类似的方式;它从早期的api主要操作程序inhardware直通。第二代api GPU系统仍在幕后graphics-orientedbut实现动态分配专门的任务在通用的管道。api的第三代,然而,留下graphicsspecifics接口,而是专注于暴露的管道ageneric高度并行引擎支持任务和数据并行性。。

与第二代api andengineers研究者已经开始使用GPU通用计算作为现代GPU的thegeneric处理单元非常适合任何制度都可以分解成细粒度并行任务。但随着第三generationinterfaces通用GPU编程的真正力量是开着的。thetaxonomy传统并行的编程的管道acombination SIMD(单指令多数据)在一个阶段,SPMD(单个项目,多个数据)之间的结果如何路由阶段。Aprogrammer将编写一系列线程每个定义个人SIMDtasks然后SPMD程序来执行这些线程和收集和存储/ combinethe这些操作的结果。输入数据通常被组织为一个网格。。

NVIDIA的CUDA SDK提供了一个更高级别的C语言接口withextensions支持多线程和dataparallelism。的必威体育精装版应用官网er写单c函数称为“”内核”对数据进行操作,根据executionconfiguration由多个线程执行。轻松地促进不同的输入模型,线程可以beorganized线程阻塞层次结构的一个、两个andthree-dimensional处理器的向量,矩阵和卷。记忆areorganized全局内存,per-thread-block内存和线程privatememory。。

这个组合非常基本的原语驱动器wholerange不同的编程风格:map和reduce,分散和聚集,以及流过滤和流扫描。所有正在运行的atextreme吞吐量等高端gpu支持特斯拉”费米”CUDA架构已经接近500核产生超过500 GigaFLOPSper GPU。。

英伟达”费米”架构的实现NVIDIATesla 20-series gpu(我们提供实例与特斯拉M2050 gpu)地区大步从gpu早些时候他们提供高性能doubleprecision浮点运算(64 fp)和ECC GDDR5内存。。

telsa_side_2。png

Amazon EC2集群GPU实例

上周透露世界fastestsupercomputer现在是天河1 a的峰值性能4。701次。天河- 1 a运行on14,336 Xeon X5670处理器和7168 Nvidia Tesla gpu M2050general目的。系统中的每个节点包含两个Xeon processorsand GPU。。

EC2集群GPU实例提供了更多权力每实例:两个Xeon处理器X5570结合两个NVIDIA TeslaM2050 GPU。这给了你一个多每个实例浮点运算处理能力。默认情况下,我们允许任何客户的实例化集群8 instancesmaking 8次浮点运算的难以置信的力量可供任何人使用。这个实例极限是一个默认使用极限,而不是技术限制。如果你大集群通过我们可以提供这些请求Amazon EC2 instancerequest形式。如果你愿意切换到单精度浮动theTesla M2050甚至会给你一个TeraFLOP每GPU性能,增加总体性能。。

我们已经看到早期客户lifesciences,金融、石油天然气、电影制片厂和图形行业becomingvery兴奋这些实例给他们的力量。虽然每个人都在行业多年来一直被通用GPU处理adirection以惊人的潜力,已经做出重大投资ashigh-risk鉴于快速移动技术和编程。。

云中的集群GPU编程与Amazon web服务的变化。世界上最先进的GPU的力量是nowavailable供每个人使用没有任何前期投资,删除和不确定因素,拥有自己的GPU将涉及基础设施。我们已经见过的EC2实例集群计算”传统的“HPChas解锁了每个人使用,但是集群GPU实例把这个onestep进一步创新资源,甚至达到ofmost以外的专业人士现在供每个人使用以非常低的成本。8次浮点运算HPC集群GPU-enabled节点将只花费你大约17美元超过。。

CPU或GPU

令人兴奋,因为它是让GPU编程可用foreveryone使用,解开其惊人的潜力,它肯定不产出这是结束的开始基于CPU的高性能计算。BothGPU和CPU架构自己的甜蜜点,虽然我相信我们willsee GPU编程的方向转移,基于CPU的HPC依然重要。。

gpu的工作最好在理想情况下解决usingmassive细粒度并行性的问题集,使用例如至少5000 - 10000个线程。可以构建应用程序,利用这种级别的parallelismone需要输入一个非常特定的内核,内核函数,threads-blocks,网格threads-blocks,分层内存映射等。配置内核执行不是一件小事情,需要GPU devicespecific知识。有很多技术,每个程序员hasgrown,如分支,不可用,或者应该avoidedon gpu如果想真正利用它的力量。。

HPC编程为cpu非常方便GPUprogramming相比传统串行编程的能力受够可以组合使用多个强大的处理器。虽然高效parallelprogramming cpu上绝对也需要一定程度的专业知识itsmodels和功能更接近传统的编程。Wherekernel功能在GPU最好写成简单的数据操作和具体的数学操作,CPU HPC编程可以基于任何levelof复杂性没有任何的限制,例如GPU memorymodels。应用程序、库和工具对CPU编程plentifuland非常成熟,给必威体育精装版应用官网人广泛的选项和programmingparadigms。。

一个领域,我希望将取得进展与可利用的集群GPU实例是HPCprogramming模型相结合的组合cpu和GPU的力量,因为毕竟theCluster GPU实例基于集群计算实例与theirpowerful四酷睿i7处理器。。

一些好的洞察convertcertain算法所需的工作高效运行在gpu UCB /英伟达””设计EfficientSorting冲击gpu的算法”纸。。

集群计算机集群GPU和亚马逊EMR

Amazon Elastic MapReduce(EMR)使它很容易运行Hadoop MapReduce()的大规模并行处理任务。亚马逊EMR将处理工作负载并行化、节点配置和扩展,和集群管理,这样客户可以专注于编写实际的HPC程序。。

从今天开始亚马逊EMR可以利用集群计算和集群GPU实例,让顾客更强大的组件来基地大规模数据处理和分析。这些程序依赖于重要的网络I / O也将受益于低延迟,完整的实例之间的对分带宽10 gbps以太网网络的集群。。

从这里去哪里?吗?

更多信息在新集群GPU forAmazon EC2实例访问高效能的计算与Amazon EC2页面。为更多的信息是用与Amazon Elastic MapReduce看到HPC集群实例亚马逊EMR详细信息页面。Alsomore细节上可以找到AWS必威体育精装版应用官网erblog。詹姆斯•汉密尔顿有interestign见解GPGPU。。

评论

博客评论的Disqus