面對副本強(qiáng)一致性帶來的故障處理性能挑戰(zhàn),InCloud Rail V8.0在分布式存儲組件dSAN最新架構(gòu)中引入“故障預(yù)診與實(shí)時感知”、“數(shù)據(jù)副本降級寫入”、“動態(tài)智能同步”組合方案,在充分保證數(shù)據(jù)安全性的前提下,實(shí)現(xiàn)副本故障I/O不中斷,故障中性能下降<20%,完美解決副本故障與慢盤故障難題。 在超融合實(shí)際應(yīng)用場景中,數(shù)據(jù)庫、redis隊(duì)列、PaaS服務(wù)等高I/O敏感型業(yè)務(wù)對I/O質(zhì)量有較高需求,超融合分布式存儲的I/O質(zhì)量直接決定了業(yè)務(wù)連續(xù)性與可用性,真實(shí)場景下I/O質(zhì)量問題帶來的業(yè)務(wù)連續(xù)性故障屢見不鮮。實(shí)際經(jīng)驗(yàn)告訴我們,用戶注重I/O數(shù)量的同時,需要高度關(guān)注I/O質(zhì)量,I/O質(zhì)量越來越成為不可忽視的問題,是業(yè)務(wù)連續(xù)性的重要決定因素。 在故障場景下,InCloud Rail V8.0超融合分布式存儲設(shè)計(jì)以數(shù)據(jù)安全為根本出發(fā)點(diǎn),實(shí)現(xiàn)了多種數(shù)據(jù)安全策略和方法的創(chuàng)新應(yīng)用。為了保障數(shù)據(jù)的安全性,InCloud Rail V8.0采取強(qiáng)一致性分布式存儲同步方案:即請求I/O的多個副本全部完成后請求才能完成,這種機(jī)制有效地保證了業(yè)務(wù)數(shù)據(jù)的安全、可靠、可用。 但是這種副本強(qiáng)一致性架構(gòu)也面臨挑戰(zhàn):一旦副本所在服務(wù)器或磁盤發(fā)生故障或出現(xiàn)慢盤,造成某副本無法及時完成讀寫操作,分布式存儲系統(tǒng)為了保證數(shù)據(jù)的一致性,I/O請求需等待數(shù)據(jù)同步后再進(jìn)行下一步操作,造成業(yè)務(wù)級I/O中斷,且分布式存儲系統(tǒng)受數(shù)據(jù)同步的影響導(dǎo)致大量I/O返回時延增加,呈現(xiàn)為分布式存儲之上虛擬機(jī)承載業(yè)務(wù)出現(xiàn)I/O中斷或應(yīng)用訪問延遲,故障后相當(dāng)長一段時間內(nèi)業(yè)務(wù)持續(xù)受到影響無法恢復(fù),最終使業(yè)務(wù)不可用。 InCloud Rail V8.0通過故障預(yù)診與實(shí)時感知,降低I/O中斷時間,并按照副本寫降級和智能動態(tài)恢復(fù)的方式,降低故障帶來的數(shù)據(jù)同步影響,保證強(qiáng)一致性模型的前提下,降低I/O下降時間和對整體集群性能的影響。 故障預(yù)診與實(shí)時感知:通過對集群異常的提前診斷與實(shí)時感知,做到故障時I/O不中斷,保障I/O的連續(xù)性以降低跌零可能性與時長。 副本降級寫:通過寫入健康副本和降級副本加降級圖譜,解除I/O與數(shù)據(jù)同步的強(qiáng)依賴關(guān)系,保障降級后數(shù)據(jù)副本容錯能力、I/O性能和數(shù)據(jù)一致性。 動態(tài)智能同步:通過對數(shù)據(jù)同步策略的動態(tài)精準(zhǔn)調(diào)控,降低數(shù)據(jù)同步對性能的影響,做到數(shù)據(jù)同步與業(yè)務(wù)I/O性能的均衡,最大程度降低對應(yīng)用性能的影響。 InCloud Rail V8.0通過多維度智能組合策略,最大限度保障故障場景下I/O連續(xù)性,多維度保證超融合系統(tǒng)I/O質(zhì)量,以實(shí)現(xiàn)超融合系統(tǒng)“持續(xù)可用”,InCloud Rail V8.0在追求更高I/O輸出能力的基礎(chǔ)上,更加注重I/O質(zhì)量的輸出,以更加穩(wěn)健的產(chǎn)品定位,支撐更多客戶核心關(guān)鍵業(yè)務(wù)連續(xù)運(yùn)行。 |