세계에서 생산되는 모든 새로운 정보의 90% 이상이 자기 매체에 저장되고 대부분이 하드 디스크 드라이브에 저장되는 것으로 추정됩니다. 그 중요성에도 불구하고 디스크 드라이브의 고장 패턴(failure patterns of disk drives) 과 수명에 영향을 미치는 주요 요인에 대한 연구는 비교적 적은 편입니다. 대부분의 이용 가능한 데이터는 가속 노화 실험 또는 비교적 규모가 작은 현장 연구의 외삽을 기반으로 합니다.
더욱이 대규모 인구 연구에서는 작동 중인 구성 요소에서 상태 신호를 수집할 수 있는 인프라가 거의 없으며, 이는 자세한 오류 분석에 중요한 정보입니다.
Carnegie Mellon University 에서 실시한 약 100,000개의 드라이브에 대한 연구에 따르면 고객은 드라이브 공급업체에서 제공하는 MTBF (평균 고장 간격)에서 제안한 것보다 훨씬 더 높은 비율로 디스크 드라이브를 교체합니다 .
하드 디스크 오류
Carnegie Mellon 의 연구에서는 SCSI , FC 및 SATA 드라이브 를 실행하는 고성능 컴퓨팅 사이트와 인터넷(Internet) 서비스 사이트 를 포함한 대규모 생산 시스템을 조사했습니다. 해당 드라이브의 데이터시트에는 100만~150만 시간의 MTBF 가 나열되어 있으며, 이 연구에서는 "최대 0.88%"의 연간 고장률을 의미해야 한다고 밝혔습니다. 그러나 연구에 따르면 일반적인 연간 교체율은 2%에서 4% 사이이며 "일부 시스템에서는 최대 13%가 관찰되었습니다."
하드 드라이브와 하드 드라이브가 있는 컴퓨터를 구입하는 소비자에게 이것이 의미하는 바는 무엇입니까?
저는 25년 이상의 엔지니어링, 제조 및 소프트웨어 개발 경험이 있으므로 먼저 자동차 및 비행기에서 하드 드라이브 및 스마트폰에 이르는 일반적인 제조 프로세스의 중요한 측면을 살펴보겠습니다. 모든 최종 제품의 일반적인 제조업체는 실제로 최종 제품을 구성하는 몇 가지 구성 요소를 생산합니다. 사실, 그들은 제조 및 종종 거의 모든 하위 구성 요소의 설계를 아웃소싱하여 공급자가 전혀 없는 것부터 광범위한 사양, 테스트 및 감독에 이르기까지 감독하도록 합니다. 구성 요소를 공급하기 위해 선택한 공급업체는 종종 최저가 입찰자가 되는 반면 일부 제조업체는 가격, 품질 및 신뢰성의 조합인 가치를 기반으로 최고의 공급업체를 선택합니다.
이러한 아웃소싱 시스템은 종종 계층화된 공급업체 기반이라고 합니다. Tier 1 공급업체는 최종 제품의 제조업체에 직접 공급합니다. 1차 공급업체에 대한 공급업체는 2차 공급업체이므로 먹이 사슬 아래로 내려갑니다. 기술적으로 하드 드라이브 제조업체의 경우 실제로 컴퓨터 제조업체의 1차 공급업체입니다. 이 시스템 은 미국 (States)정부 가 (Government)미국 (United) 자동차 제조업체(US Automobile Manufacturers) 의 구제금융 여부를 놓고 씨름 할 때 사람들이 파산하도록 허용되면 수십만 명이 일자리를 잃을 것이라고 말한 것으로 인용된 이유를 설명합니다. 그들은 모든 계층 공급 업체의 직원을 언급했습니다.
이와 같은 시스템에서 최종 제품의 품질은 공급망에서 가장 약한 고리만큼만 좋습니다. 대부분의 공급업체는 제품의 품질을 보장하기 위해 매우(Very) 복잡하고 엄격한 품질 관리 및 설계 방법을 사용하지만 결국에는 여전히 인적 오류의 가능성이 있습니다. 세계에서 가장 정교한 소등, 24시간 연중무휴, 컴퓨터 제어 및 로봇화된 제조 공장조차도 사람의 실수에 노출될 수 있습니다. 로봇을 프로그래밍하는 사람은 작업에 집중하지 않아 로봇이 100번째 작업마다 목표에서 마이크로미터의 일부만 벗어나 도록 하여 동료의 동일한 컴퓨터 가 문제가 없는데도 하드 드라이브에 문제가 발생할 수 있습니다.
이와 같은 초기 실패는 드문 일이 아닙니다. 모든 보증에서 "제조 결함"이라고 하는 것입니다. 업계 내부 용어는 유아 사망률 실패(Infant Mortality Failure) ( IMF )입니다. 보증은 IMF(IMFs) 로부터 귀하를 보호하기 위한 것이기 때문에 시간 제한이 있습니다 . 사실 IMF 의 수준 은 다양(IMFs) 합니다 . 대부분의 전자 제품은 번인이라고 하는 일종의 테스트를 거칩니다. 이것은 즉각적인 실패 또는 처음 몇 분 동안의 실패에 대한 테스트입니다. 이는 거의 즉시 치명적인 고장을 일으키는 중대한 제조 결함으로 인해 발생합니다.
더 귀찮은 IMF(IMFs) 는 소비자인 당신에게 짧은 시간 동안 흠잡을 데 없이 성능을 발휘한 다음 꽝, 죽게 만드는 것입니다. 제조업체는 이제 제조업체에 대한 귀하의 의견이 변색되기 때문에 이러한 실패를 싫어합니다. 번인(burn-in) 동안의 실패에 대해 전혀 알지 못했고 실패에 대해 알지 못해 기뻤지만 중요한 마감일 전날 밤에 하드 드라이브가 죽으면 총체적으로 나서 전 세계에 보상을 요구합니다. 이 오류로 인한 비용은 장기적이며 새 하드 드라이브 비용보다 높습니다. 영원히 고객을 잃을 수 있습니다. 이것이 내가 다른 HP 컴퓨터가 훌륭한 컴퓨터일지라도 결코 소유하지 않을 이유입니다. 나는 나쁜 것을 얻었고 그것은 HP에 대해 영원히 나를 더럽혔습니다.
관련(Related) : 하드 드라이브 자체가 지워졌습니다! 나는 무엇을 합니까 ?
그렇다면 자신을 보호하기 위해 무엇을 할 수 있습니까?
나는 개인적으로 새로운 전자 제품을 구매하기 전에 항상 많은 조사를 합니다. IMF 는 문제의 근본 원인을 찾아 수정할 때까지 한 제조업체 또는 모델에 지속적으로 문제가 될 수 있습니다. 제조상의 문제가 아니라 설계상의 결함일 수도 있습니다. 나는 최근에 새로운 대형 화면 HD TV를 구입했고 여러 출처의 리뷰를 읽고 2010년 모델이 초기(3개월 이내) 블랙 레벨 손실을 경험하고 충분하지 않다는 것을 알게 될 때까지 최고급 Panasonic 3D Plasma 를 원한다고 생각했습니다. 2011년 모델에서 수정되었는지 확인하기 위해 정보를 사용할 수 있었습니다. 그래서 나는 두 번째 선택지를 샀다.
특히 컴퓨터 하드 드라이브로 할 수 있는 또 다른 분명한 일은 데이터를 백업하거나 전체 시스템을 이미지화하는 것입니다. 저는 개인적으로 Acronis True Image(Acronis True Image) 라는 제품을 사용합니다 . 전체 시스템의 백업 이미지를 만든 다음 매일 밤 증분 백업을 만듭니다. 항상 이전 최신 버전으로 재설정할 수 있도록 10개의 과거 증분을 유지하도록 설정했습니다. 나는 이것을 전용 1TB 외장 하드 드라이브(Hard Drive) 에 백업합니다 . 그 하드 드라이브가 고장 나면 어떻게 하시겠습니까? 글쎄요, 컴퓨터 하드 드라이브와 외장 하드 드라이브가 동시에 고장날 가능성은 희박하지만 저는 제 사업을 소유하고 있으므로 안전을 위해 중복 백업을 수행하는 중복 외장 하드 드라이브가 있습니다.
나는 또한 연장 코드 옆에 있는 Walmart 에서 구입하는 종류가 아니라 (Walmart)Best Buy 또는 기타 컴퓨터 소모품 소매점과 같은 소매점에서 제공하는 양질의 서지 보호기를 구입하는 것이 좋습니다. 나는 약 $40 USD 의 (USD)Belkin 장치를 사용 합니다.
잠재적인 오류에 대해 하드 디스크를 모니터링하기 위해(Freeware to Monitor Hard Disk for Potential Failure) 일부 프리웨어가 필요한 경우 이를 확인하십시오 .(Check this if you need some Freeware to Monitor Hard Disk for Potential Failure.)
이 게스트 포스트의 저자인 Randy L. Miller는 Alagad Incorporated의 CEO입니다.(The author of this Guest Post, Randy L. Miller is the C.E.O of Alagad Incorporated.)
Why did my hard disk fail or crash so fast & for no apparent reason?
It is estimated that over 90% of all new informatiоn produced in the world is being stored on magnetic media, most of it on hard disk drives. Despite their importance, there is relatively little рublished work on the failure patterns of disk drives, and the key factors that affect their lifetime. Most available data are either based on extrapolation from accelerated aging experiments or from relatively modest-sized field studies.
Moreover, larger population studies rarely have the infrastructure in place to collect health signals from components in operation, which is critical information for detailed failure analysis.
Customers replace disk drives at rates far higher than those suggested by the estimated mean time between failure (MTBF) supplied by drive vendors, according to a study of about 100,000 drives conducted by Carnegie Mellon University.
Hard Disk Failure
A Carnegie Mellon study examined large production systems, including high-performance computing sites and Internet services sites running SCSI, FC, and SATA drive. The datasheets for those drives listed MTBF between 1 million to 1.5 million hours, which the study said should mean annual failure rates “of at most 0.88%.” However, the study showed typical annual replacement rates of between 2% and 4%, “and up to 13% observed on some systems.”
So what does this mean to you, the consumer who purchases hard drives and computers with hard drives?
I have over 25 years of engineering, manufacturing, and software development experience so first let’s examine an important aspect of typical manufacturing processes from automobiles and airplanes to hard drives and smartphones. The typical manufacturer of any end product actually produces a few of the components that make up the end product. They, in fact, outsource the manufacture and often the design of almost all subcomponents giving the supplier oversight ranging from none at all to expansive specifications, testing, and oversight. The supplier picked to supply the component is often the lowest bidder while some manufacturers choose the best supplier based on the value which is a combination of price, quality, and reliability.
This system of outsourcing is often referred to as the tiered supplier base. A tier one supplier supplies directly to the manufacturer of the end product. The suppliers to the tier one supplier are tier two suppliers, and so goes it down the food chain. Technically in the case of a hard drive manufacturer, they, in fact, are a tier-one supplier to the computer manufacturer. This system explains why when the United States Government was wrestling with whether to bail out the US Automobile Manufacturers people were quoted as saying if they are allowed to go under, hundreds of thousands of people will lose their jobs. They were referring to the employees of all the tier suppliers.
In a system like this, the quality of the end product is only as good as the weakest link in the supply chain. Very complex and rigid quality control and design methods are used by most suppliers to ensure the quality of their products but in the end, it still comes down to the potential for human error. Even the most sophisticated lights out, 24/7, computer-controlled, & robotized manufacturing plant in the world is subject to human error. The person programming the robot may not be concentrating on the task causing the robot to place a microchip a fraction of a micrometer off target every 100th operation causing your hard drive to have problems when your co-worker’s identical computer us just fine.
Early failures like this are not uncommon. It is what all warranties refer to as “manufacturing defects”. The inside industry term is Infant Mortality Failure (IMF). Warranties have a time limit because they are intended to protect you against IMFs. There are in fact different levels of IMFs. Most electronics go through some sort of test often referred to as burn-in. This is testing for an immediate failure or a failure in the first few minutes. These are caused by gross manufacturing defects that cause catastrophic failure almost immediately.
The more bothersome IMFs are the ones that make it all the way to you, the consumer, perform flawlessly for a short period of time, and then bam, it’s dead. The manufacturers hate these failures because now your opinion of the manufacturer is tarnished. You never knew of the failures during burn-in and were happy not knowing about them but when your hard drive dies the night before a critical deadline, you go ballistic and demand the world for compensation. The cost of this failure is long-term and higher than the cost of a new hard drive. It may result in a lost customer forever. This is why I will never own another HP computer even though they may be great computers. I got a bad one and it tarnished me against HP forever.
Related: Hard drive wiped itself! What do I do?
So what can you do to protect yourself?
I personally always do a lot of research before any new electronics purchase. IMF can be a persistent problem with one manufacturer or model until the root cause of the problem is found and corrected. It could even be a design flaw and not a manufacturing problem. I recently purchased a new big-screen HD TV and I thought I wanted the top of the line Panasonic 3D Plasma until I learned through reading reviews from several sources that the 2010 models experience early (within 3 months) loss of black levels and not enough information was available to determine if it was fixed in the 2011 models. So I bought my second choice.
The other more obvious thing you can do specifically with a computer hard drive is to back up your data or image your entire system. I personally use a product called Acronis True Image. I make a backup image of my entire system and then make incremental backups every night. I have it set to keep 10 past increments so I can always reset back to an earlier recent version. I back this up to a dedicated 1 TB external Hard Drive. What if that hard drive fails you say? Well, the likelihood of your computer hard drive and your external hard drive failing at the same time is remote but I own my own business so I have a redundant external hard drive that I do redundant backups on just to be safe.
I would also recommend you get a good quality surge protector, not the kind you get at Walmart next to the extension cords but a good quality unit from a retailer like Best Buy or any computer supply retailer. I USE A Belkin unit that costs around $40 USD.
Check this if you need some Freeware to Monitor Hard Disk for Potential Failure.
The author of this Guest Post, Randy L. Miller is the C.E.O of Alagad Incorporated.