數(shù)十年專注企業(yè)數(shù)字化轉(zhuǎn)型、智能化升級、企業(yè)上云解決方案服務(wù)商
工單提交 實名認(rèn)證 騰佑科技咨詢熱線咨詢熱線: 400-996-8756
百度云服務(wù)中心騰佑科技公司
云服務(wù)器活動 服務(wù)器租用 服務(wù)器托管 機柜租賃 帶寬租賃
  • 最新資訊
  • 熱門資訊
  • 最熱資訊
智能建站

Raid磁盤陣列真的是100%安全嗎?Raid常見故障有哪些?

發(fā)布時間:2022-07-18 作者:admin

簡述:數(shù)據(jù)恢復(fù)既然是數(shù)據(jù)災(zāi)難的一種補救措施,那設(shè)計安全的RAID磁盤陣列系統(tǒng)也會出現(xiàn)數(shù)據(jù)災(zāi)難嗎?RAID設(shè)計的初衷大約有3個原因:解決容量問題、解決IO性能問題與解決存儲安全(冗余)問題。從數(shù)據(jù)恢復(fù)的角度看,我們暫不討論容量與IO性能方面,僅討論

由于數(shù)據(jù)恢復(fù)是數(shù)據(jù)災(zāi)難的補救措施,因此設(shè)計安全RAID磁盤陣列系統(tǒng)也會出現(xiàn)數(shù)據(jù)災(zāi)難嗎?

RAID設(shè)計的初衷大約有三個原因:解決容量問題和問題IO性能問題和解決存儲安全(冗余)問題。從數(shù)據(jù)恢復(fù)的角度來看,我們暫時不討論容量和IO在性能方面,只討論存儲安全。

RAID存儲安全組織方案在存儲中很常見RAID1、RAID5及其變形,基本設(shè)計理念相似,可以通過一定的算法,使用多個硬盤之間的算法維護,以確保當(dāng)部分?jǐn)?shù)據(jù)異常時,可以通過特定的算法恢復(fù)。拿RAID5的設(shè)計方法,舉個簡單的例子,如果我們想記錄兩個數(shù)字,那么我們可以記錄更多的冗余,就像我們記錄3和5一樣,然后記錄8(3 5的和),所以如果我們不記得是什么和5,我們只需要用8-5來計算丟失的數(shù)字,剩下的就是這樣。在磁盤陣列中,當(dāng)一組三塊盤的目的是用某種算法保存數(shù)據(jù)時,也是如此RAID5正常工作時,全部寫入RAID數(shù)據(jù)正確地寫在特定的磁盤地址上,并生成特定的計算值(通常稱為驗證和),此時讀寫效率最好。但當(dāng)其中一個磁盤出現(xiàn)故障時,存儲在故障磁盤上的原始數(shù)據(jù)將通過其他硬盤數(shù)據(jù)恢復(fù),當(dāng)然,控制器(硬盤)RAID為RAID卡,軟RAID事實上,這是一個驅(qū)動程序)將負(fù)責(zé)這項工作。同時,為了確保不停機,控制器還將確保存儲的正?;?,以免操作系統(tǒng)認(rèn)為硬盤系統(tǒng)有問題。

從以上原則來看,RAID存儲安全也存在一些難以避免的漏洞,雖然不太可能,但存儲存在RAID數(shù)據(jù)價值可能無法評估,任何故障都可能導(dǎo)致信息災(zāi)難。

轉(zhuǎn)入正題,RAID故障的可能性有:

1.降級時,未及時rebuild:

RAID算法上的數(shù)據(jù)安全冗余是通過多余的存儲空間提供的,但當(dāng)某些磁盤出現(xiàn)故障時,RAID如果管理員不及時更換盤子,則無法提供此類存儲冗余。REBUILD整卷,此時其余工作的硬盤再次出現(xiàn)故障,RAID卷便不能正常工作。這類故障在RAID數(shù)據(jù)恢復(fù)比例相當(dāng)高,服務(wù)器維護管理跟不上。

2、控制器故障:

由于物理硬盤與操作系統(tǒng)之間的數(shù)據(jù)存儲鏈接,控制器是連接的RAID其組成不是自然約定(具體),硬盤容量大小,硬盤數(shù)量多少,RAID組成級別、邏輯磁盤分割、塊大小、驗證方法等因素組合成不同的因素RAID信息(RAID元數(shù)據(jù)),這些RAID信息有時候會寫在陣列卡上,有時候會寫在硬盤上,還有的時候兩者皆有。如果控制器出現(xiàn)故障,在許多情況下不能更換新的控制器RAID由于成本考慮,中低端控制器在這方面的漏洞要大得多。如果控制器出現(xiàn)故障,在許多情況下不能更換新的控制器RAID由于成本考慮,中低端控制器在這方面的漏洞要大得多。同時,即使你記得原來的RAID數(shù)據(jù)恢復(fù)方法(見相關(guān)文章)也是結(jié)構(gòu)重建的錯誤方法。

三、固件算法缺陷:

RAID控制器的實現(xiàn)是一種非常復(fù)雜的算法,如創(chuàng)建、重建、降級和保護。當(dāng)然,復(fù)雜性更多的是提供盡可能安全的無漏算法,盡管制造商不會輕易承認(rèn)控制器BUG,但毫無疑問,這些問題在任何控制器上都是不可避免的。因為固件算法BUG,許多無法解釋的故障可能會發(fā)生。例如,在一些服務(wù)器數(shù)據(jù)恢復(fù)案例中,有一些早期生產(chǎn)DELL會有2950服務(wù)器RAID一塊盤OFFLINE后故障盤與報警燈不一致的情況,導(dǎo)致客戶在更換故障盤REBUILD拉錯盤,整個RAID組崩潰。

4、IO通道堵塞RAID掉盤:

RAID為了數(shù)據(jù)的絕對安全,控制器將盡量避免將數(shù)據(jù)寫在不穩(wěn)定的存儲介質(zhì)上,以便當(dāng)控制器和物理硬盤進行時IO當(dāng)時,如果時間超過一定的閥值或不符合校準(zhǔn)關(guān)系,相應(yīng)的存儲設(shè)備將不再具備連續(xù)工作的能力,但將被迫離線,并通知管理員盡快解決問題。這種設(shè)計的初衷很好,也是正確的設(shè)計方法,但對于物理鏈接線松動,或由于硬盤機械反應(yīng)加班(硬盤可能完好)等隨機原因,控制器無法區(qū)分設(shè)備是否和以前一樣穩(wěn)定,所以一些小鏈接不在乎,會導(dǎo)致RAID卷出故障,發(fā)生此類故障的概率很大,不可避免。這也是大多數(shù)RAID出現(xiàn)故障后,硬盤沒有故障的原因。我們的許多數(shù)據(jù)恢復(fù)服務(wù)客戶會質(zhì)疑服務(wù)器制造商。事實上,這是痛苦的。在某種程度上,控制器越安全,這種現(xiàn)象就越發(fā)生。

5.控制器的穩(wěn)定性:

RAID的控制器在ONLINE狀態(tài)下(無離線盤)工作最穩(wěn)定。相對而言,當(dāng)一些硬盤損壞(可能是邏輯故障)時,控制器將處于困難狀態(tài),這也是許多中低端RAID控制器離線后讀寫性能迅速下降的原因。當(dāng)數(shù)據(jù)吞吐時,控制器的負(fù)載會大大增加IO滯留的可能性導(dǎo)致上述第4點提到的滯留RAID離線。沒有高速硬件處理芯片,沒有高速緩沖的控制器發(fā)生此類故障的概率要高得多。盡量不要選擇這種磁盤陣列控制器,以避免外費用,盡量不要選擇這種磁盤陣列控制器。

6、壞硬盤:

這種情況很有趣,很多人會認(rèn)為正常工作RAID不會有壞硬盤,因為只要硬盤壞了,RAID會讓他的壞硬盤脫機,更換新硬盤REBUILD又是好硬盤了。但事實上,這種情況是不可避免的,因為:一組RAID長時間工作后,物理硬盤的所有磁盤空間都很少讀懂,同時更是不可能。在某些情況下,硬盤會在未讀取的區(qū)域或以前讀取的區(qū)域產(chǎn)生壞道。這種壞道在控制器看來不錯,因為它沒有讀寫。這種壞磁道最直接的危害是REBUILD過程中。物理硬盤離線時,通常所有技術(shù)人員和官方資料都會盡快寫下來REBUILD,但如果其他硬盤有這種通常不知道的壞磁道,REBUILD全面同步全盤,一定會讀寫那些壞道。這個時候,REBUILD未完成,新盤無法上線,因為舊盤發(fā)現(xiàn)了壞道,會導(dǎo)致RAID更多的下線硬盤,這可能會導(dǎo)致RAID如果出現(xiàn)故障,數(shù)據(jù)無法自行恢復(fù)。

7.人為誤操作:

相當(dāng)一部分涉及數(shù)據(jù)恢復(fù)的數(shù)據(jù)災(zāi)難是可以避免的,但總會有這樣的情況:無關(guān)人員誤拔RAID里面的硬盤,沒有備件盤,沒有及時換盤,給RAID除塵時忘記了原來的順序,不小心刪除了原來的順序RAID配置等。

8.我暫時想不起其他原因。

除了人為原因外,這些災(zāi)難原因大多難以直接避免,只能通過結(jié)合備份構(gòu)建整體存儲安全計劃來解決。其他文章將提到原因和數(shù)據(jù)恢復(fù)主題的安全建議。

欲了解更多詳細(xì)信息“Raid0,Raid0 1,Raid1,Raid5”信息請點擊“Raid0、Raid0 1、Raid1、Raid5四者的區(qū)別”

點擊展開全文

騰佑科技(www.mubashirfilms.com)成立于2009年,總部位于河南鄭州,是一家集互聯(lián)網(wǎng)基礎(chǔ)設(shè)施及軟硬件于一體化的高新技術(shù)企業(yè),具有IDC/ISP/ICP/云牌照、雙軟等資質(zhì),并擁有多個國家版權(quán)局認(rèn)證。公司自成立以來,一直致力于發(fā)展互聯(lián)網(wǎng)IDC數(shù)據(jù)中心DataCenter、云計算Cloud、大數(shù)據(jù)BigDate、人工智能AI、內(nèi)容加速CDN、互聯(lián)網(wǎng)安全、軟件定制開發(fā)等產(chǎn)品服務(wù)及行業(yè)客戶技術(shù)一體化智能解決方案;2018年成為百度智能云AI河南服務(wù)中心。

售前咨詢熱線:400-996-8756

備案提交:0371-89913068

售后客服:0371-89913000

熱門活動

百度云服務(wù)中心
  • 熱門資訊
  • 隨便看看