在硬盘的可靠性

||评论 (

今天的开幕式上有对硬盘的可靠性研究的两篇论文。这两个文件呈现吹走一些在系统故障模型的共同假设的非常有趣的结果。

比安卡施罗德加斯·吉布森从CMU在他们的论文现实世界中的磁盘故障:什么是100万小时平均无故障时间你意味着什么?,调查从HPC和互联网站点约100000磁盘的故障率。有一个范围本文有趣的结果,但我认为那些都是最重要的是在磁盘故障的统计特性的部分。在本节中比安卡表明,两种常见的假设,即磁盘故障是独立的,即无故障工作时间如下的指数分布,不是由所收集的数据的支持。他们的数据显示出相反的:磁盘更换计数显示自相关的显著水平时,TBF分布表现出很大的更高变异比指数分布和预计剩余时间,直到下一个磁盘故障增长与它一直自上次故障的时间。

爱德华多·皮涅罗,沃尔夫 - 迪特里希·韦伯,和路易斯·安德烈·巴罗佐从谷歌在他们的论文在一个大的磁盘驱动器故障的人口发展趋势有关于这种影响磁盘故障的因素有趣的结果。在他们的研究中,他们发现有硬盘故障率和利用率,环境条件,如温度,或年龄之间没有相关性。这意味着较高的磁盘利用率或磁盘的年龄有它失败的可能性没有显著影响。他们的确发现制造商/型号和故障率之间存在很强的相关性。基本上,你当你谈论磁盘可靠性一分钱一分货。鉴于一般的磁盘大批量到货,你可能要照顾与你想减少这些强大的故障相关性的影响如何部署这些磁盘。

唯一的例外是缺乏相关的是,婴儿死亡率盘显示出与高利用率的相关性:如果一个新盘是非常糟糕的,你可以通过把它的高负荷检测这一点。这可以激励一个较长的老化时间来清除这些坏盘出来。本文然后进入智能参数是否可以作为阻碍磁盘故障预测一个有趣的讨论。

这两篇论文都在6%-10%的范围内报告磁盘故障率:在约100000磁盘上的数据中心,您将需要更换每年最多磁盘6000到10000之间。而当你想成为更具成本效益的这些利率才会上升。故障率和报告的故障相关性是当你建立具有成本效益的可靠存储您的应用程序要考虑到很重要的。

(顺便说一句,你最好让所有的这个别人担心的,所以存储你的数据在S3:-))

评论

博客评论由Disqus