在硬盘的可靠性

| | 评论( )

今天的开幕式上有两篇论文的研究硬盘的可靠性。这两个文件非常有趣的结果,吹走一些常见的假设故障建模的系统。。

比安卡施罗德加思•吉布森卡耐基-梅隆的在他们的论文中磁盘失败在现实世界中:1000000小时的MTTF是什么意思吗?吗?,调查约100000的失败率磁盘从HPC和网站。有一系列有趣的结果,但是我认为的最重要的部分磁盘故障的统计特性。在本节中比安卡表明两个常见的假设,磁盘失败是独立的,故障间隔时间服从指数分布,通过收集到的数据不支持。数据得出相反的结论:磁盘替换计数显示出汽车的高度相关性,转发的延长分布显示变化远高于一个指数分布和预期的剩余时间,直到下一个磁盘故障长时间以来最后的失败。。

ibsen Pinheiro爱德华多、研究路易斯安德烈·巴罗佐从谷歌在他们的论文中失败的大量磁盘驱动器人口的趋势有有趣的结果对影响磁盘失败的因素。在他们的研究中他们发现,之间没有相关性磁盘故障率和利用率、环境条件如温度、或年龄。这意味着磁盘的磁盘利用率高和年龄没有显著影响的概率将会失败。他们确实发现很强的相关性之间的制造商/模型和失败率。基本上你得到你支付当你谈论磁盘可靠性。鉴于磁盘通常抵达大批量您可能想要照顾你如何部署这些磁盘作为你想减少这些强大的失效相关性的影响。。

缺乏相关的唯一的例外是,婴儿死亡率为磁盘显示相关性高利用率:如果一个新磁盘是蹩脚的可以检测这个把一个高负载。这可能促使延长老化期杂草这些坏的磁盘。本文然后走进一个有趣的讨论是否可以使用智能参数的预测阻碍磁盘故障。。

这两篇论文报告磁盘失败率在6%到-10%范围:在一个数据中心约有100000磁盘需要取代6000年至10000年每年磁盘。这些利率只会去你想成为更符合成本效益。失败率和报告故障相关性非常重要考虑当你建筑成本有效可靠的存储应用程序。。

(顺便说一句你更好的让别人担心,所以存储你的数据S3:-))

评论

博客评论的Disqus