- 相關(guān)推薦
云計(jì)算環(huán)境下的大數(shù)據(jù)可靠存儲(chǔ)關(guān)鍵技術(shù)概述論文
呈指數(shù)級(jí)增長(zhǎng)的大數(shù)據(jù)需要被可靠存儲(chǔ),而云計(jì)算環(huán)境下的大規(guī)模分布式存儲(chǔ)節(jié)點(diǎn)和數(shù)據(jù),極大地提升了數(shù)據(jù)丟失或失效的幾率,該文從云端數(shù)據(jù)中心拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)、數(shù)據(jù)容災(zāi)技術(shù)的相關(guān)策略及系統(tǒng)節(jié)能減耗等三個(gè)方面進(jìn)行了系統(tǒng)的闡述,為大數(shù)據(jù)的可靠存儲(chǔ)技術(shù)研究提供了一定的參考依據(jù)。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);數(shù)據(jù)容災(zāi)
1概述
當(dāng)代云計(jì)算數(shù)據(jù)中心的存儲(chǔ)節(jié)點(diǎn)數(shù)量少則幾十萬多則上百萬,在規(guī)模如此龐大的海量存儲(chǔ)系統(tǒng)中,節(jié)點(diǎn)失效或磁盤損毀已然成為一種常態(tài),此外,由于網(wǎng)絡(luò)設(shè)備或者傳輸線路故障等原因?qū)е碌臄?shù)據(jù)丟失或短時(shí)不可用現(xiàn)象也常有發(fā)生。如果用戶或企業(yè)不能隨時(shí)隨地存取自己所需的數(shù)據(jù),甚至發(fā)生數(shù)據(jù)丟失的現(xiàn)象,將大大影響客戶滿意度,甚至給企業(yè)帶來巨大的經(jīng)濟(jì)損失,因此,必須采取有效措施及相關(guān)技術(shù)策略來保證云端數(shù)據(jù)的可靠存儲(chǔ)。
2云端數(shù)據(jù)中心拓?fù)浣Y(jié)構(gòu)
云端數(shù)據(jù)中心是大數(shù)據(jù)存儲(chǔ)的基礎(chǔ)平臺(tái),數(shù)據(jù)的可靠性及訪問效率與網(wǎng)絡(luò)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)緊密相關(guān)。按節(jié)點(diǎn)功能類型的不同,可將數(shù)據(jù)中心節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)分成三種類型[1]:①以server(服務(wù)器)為為中央節(jié)點(diǎn)的星型結(jié)構(gòu);②以switch(交換機(jī))為中央節(jié)點(diǎn)的星型結(jié)構(gòu);③混合結(jié)構(gòu)。三種拓?fù)浣Y(jié)構(gòu)的特點(diǎn)如下:
以server為中央節(jié)點(diǎn)的結(jié)構(gòu)將多臺(tái)server通過傳輸介質(zhì)直接互連起來,在這種結(jié)構(gòu)中,server兼任switch的角色,一方面承擔(dān)數(shù)據(jù)的加工處理工作,另一方面承擔(dān)分組的存儲(chǔ)轉(zhuǎn)發(fā)工作,以server為中心的結(jié)構(gòu)增加了服務(wù)器之間的網(wǎng)絡(luò)帶寬,擺脫了對(duì)交換機(jī)的過度依賴,提高了吞吐量;但是server之間的鏈路帶寬的不均衡增加了布網(wǎng)的復(fù)雜度。
以switch為中央節(jié)點(diǎn)的結(jié)構(gòu)將各臺(tái)server通過switch進(jìn)行互連,switch和server各司其職,switch負(fù)責(zé)分組的路由轉(zhuǎn)發(fā),server負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)加工,這種結(jié)構(gòu)布網(wǎng)簡(jiǎn)單,操作方便,可擴(kuò)展性強(qiáng),在現(xiàn)代企業(yè)數(shù)據(jù)中心應(yīng)用較廣泛;但以交換機(jī)為中心的結(jié)構(gòu)存在底層server利用率低、switch資源浪費(fèi)較為嚴(yán)重、網(wǎng)絡(luò)帶寬容量有限、靈活性差等缺點(diǎn)。
混合結(jié)構(gòu)是以上兩種結(jié)構(gòu)的一種擴(kuò)展,其設(shè)計(jì)融合了這兩種結(jié)構(gòu)的優(yōu)點(diǎn)并有效避開了各自的缺陷。
3云端數(shù)據(jù)容災(zāi)技術(shù)
容災(zāi)技術(shù)是云端大數(shù)據(jù)可靠存儲(chǔ)的一種關(guān)鍵技術(shù),良好的容災(zāi)策略不但能有效提升大數(shù)據(jù)存儲(chǔ)系統(tǒng)的可靠性,還有助于提升系統(tǒng)的訪問效率。容災(zāi)策略一般都采用冗余備份技術(shù)來實(shí)現(xiàn),以確保當(dāng)出現(xiàn)某種突發(fā)狀況導(dǎo)致存儲(chǔ)系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴(yán)重?fù)p壞時(shí),系統(tǒng)可準(zhǔn)確而快速地訪問冗余數(shù)據(jù)來維持系統(tǒng)的穩(wěn)定運(yùn)行[2]。一般來說,容災(zāi)技術(shù)按策略的不同主要分兩種:①?gòu)?fù)制冗余策略;②糾刪編碼冗余策略。
3.1復(fù)制冗余策略
復(fù)制冗余策略為系統(tǒng)中的每一個(gè)數(shù)據(jù)都建立一個(gè)或多個(gè)副本,并把若干個(gè)副本分散存儲(chǔ)在不同的網(wǎng)絡(luò)節(jié)點(diǎn)上,當(dāng)遇到某個(gè)數(shù)據(jù)損毀或失效不能正常使用時(shí),可通過訪問最近的存儲(chǔ)節(jié)點(diǎn)來獲取與原件完全一致的副本數(shù)據(jù)[3]。基于復(fù)制的冗余策略主要關(guān)注2個(gè)方面的問題:(1)副本數(shù)量設(shè)置;(2)數(shù)據(jù)放置方法。
3.1.1副本數(shù)量設(shè)置
副本系數(shù)設(shè)置主要采取兩種方式:①靜態(tài)設(shè)置副本數(shù)量,目前主流的分布式文件系統(tǒng)Hadoop的HDFS、谷歌的GFS都采用3副本策略,這種靜態(tài)設(shè)置方法操作簡(jiǎn)單,但靈活性差;②隨機(jī)動(dòng)態(tài)設(shè)置副本數(shù)量,即系統(tǒng)根據(jù)數(shù)據(jù)的訪問頻率、出錯(cuò)概率及網(wǎng)絡(luò)狀況等動(dòng)態(tài)因素隨機(jī)地確定副本系數(shù),動(dòng)態(tài)地刪除或添加副本,這種動(dòng)態(tài)機(jī)制能大大增加存儲(chǔ)空間的利用率,但動(dòng)態(tài)計(jì)算過程增加了系統(tǒng)的開銷;
3.1.2數(shù)據(jù)放置方法
巧妙的數(shù)據(jù)放置方法能通過提高并行訪問量來提升云端大規(guī)模數(shù)據(jù)的訪問效率,目前,數(shù)據(jù)放置方法一般采用順序放置和隨機(jī)放置[4]。
①順序放置方法把數(shù)據(jù)副本按順序分布存儲(chǔ)在不同節(jié)點(diǎn)上,使得排列數(shù)目相對(duì)較少,針對(duì)系統(tǒng)的隨機(jī)失效有一定的防護(hù)性,順序放置方法技術(shù)簡(jiǎn)單、易于實(shí)現(xiàn)和維護(hù),但在具體應(yīng)用時(shí),因失效具有很強(qiáng)的相關(guān)性,局部的網(wǎng)絡(luò)故障或節(jié)點(diǎn)失效就有可能導(dǎo)致整個(gè)機(jī)架的數(shù)據(jù)不可訪問。
②隨機(jī)放置方法是在可放置節(jié)點(diǎn)中隨機(jī)地選擇一系列節(jié)點(diǎn)來存放數(shù)據(jù)副本,此方法能夠降低關(guān)聯(lián)對(duì)系統(tǒng)可靠性帶來的負(fù)面影響,但在實(shí)際應(yīng)用中,由于節(jié)點(diǎn)的存儲(chǔ)、計(jì)算能力各不相同、數(shù)據(jù)的訪問熱度也不盡一致,往往達(dá)不到理想的均衡負(fù)載效果。
3.2糾刪編碼冗余策略
3.2.2LDPC編碼
LDPC碼是從蒙特卡洛及圖論演進(jìn)而成的編譯碼技術(shù),因其稀疏檢驗(yàn)矩陣(少量元素是1,其余部分全是0)特性,被研究者廣泛用于設(shè)計(jì)復(fù)雜度低的解碼算法,LDPC碼可以有效提升系統(tǒng)的容災(zāi)能力,但是構(gòu)造不規(guī)則碼字的難度也相應(yīng)成倍地增加。
3.2.3陣列編碼
陣列碼的編譯碼過程只涉及基礎(chǔ)的二進(jìn)制異或運(yùn)算,技術(shù)實(shí)現(xiàn)相對(duì)容易,而且在采用同等編譯碼的前提下,陣列碼比RS碼更能有效地提高系統(tǒng)的可靠性,與此同時(shí)保持其計(jì)算域不變大,陣列碼技術(shù)一直是大數(shù)據(jù)可靠存儲(chǔ)關(guān)鍵技術(shù)的研究熱點(diǎn),被廣泛的應(yīng)用于磁盤陣列及網(wǎng)格存儲(chǔ)系統(tǒng)中。
3.2.4RS編碼
RS碼是一種高效的糾錯(cuò)碼,既可以糾正突發(fā)錯(cuò)誤,又可以糾正隨機(jī)錯(cuò)誤,在通信領(lǐng)域中有極其廣泛的應(yīng)用,近年來,隨著大數(shù)據(jù)存儲(chǔ)技術(shù)的快速、多元化發(fā)展,有研究者對(duì)RS編碼行了改造,并將其應(yīng)用于數(shù)據(jù)存儲(chǔ)領(lǐng)域以提高系統(tǒng)的容錯(cuò)性。
4云端系統(tǒng)節(jié)能減耗技術(shù)
數(shù)據(jù)存儲(chǔ)是各種云計(jì)算服務(wù)賴以施展的基礎(chǔ),在云計(jì)算環(huán)境下,底層數(shù)據(jù)中心節(jié)點(diǎn)的規(guī)模龐大,使得數(shù)據(jù)存儲(chǔ)成本極高,主要源于添置各種網(wǎng)絡(luò)硬件設(shè)施(大型服務(wù)器、交換機(jī)、路由器等)以及支付各種存儲(chǔ)設(shè)備的高額電能消耗等。高漲的能耗開銷不但增加了系統(tǒng)的運(yùn)營(yíng)及維護(hù)成本,更催化了大氣溫室效應(yīng),嚴(yán)重破壞了自然界的生態(tài)環(huán)境,因此,不論從服務(wù)商盈利的角度,還是從環(huán)境保護(hù)的角度出發(fā),節(jié)能減耗技術(shù)都顯得尤為必要。
當(dāng)前,分布式存儲(chǔ)系統(tǒng)的節(jié)能減耗技術(shù)主要集中在兩個(gè)方面:①硬件節(jié)能策略,主要致力于降低存儲(chǔ)系統(tǒng)中的硬件設(shè)備能耗;②軟件節(jié)能策略,通過使用一些專業(yè)軟件來實(shí)現(xiàn)系統(tǒng)資源的有效分配及使用。
參考文獻(xiàn):
[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.
[2] 吳朱華.云計(jì)算核心技術(shù)剖析[M].北京:人民郵電出版社,2011.
[3] 郭仁東.網(wǎng)絡(luò)數(shù)據(jù)容災(zāi)備份技術(shù)及其應(yīng)用淺析[J].電腦知識(shí)與技術(shù),2012(31).
[4] 王意潔,孫偉東,周松等.云計(jì)算環(huán)境下的分布式存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962-986.
【云計(jì)算環(huán)境下的大數(shù)據(jù)可靠存儲(chǔ)關(guān)鍵技術(shù)概述論文】相關(guān)文章:
大數(shù)據(jù)環(huán)境下云計(jì)算對(duì)電子商務(wù)的作用論文05-02
淺析云存儲(chǔ)技術(shù)在大數(shù)據(jù)時(shí)代的運(yùn)用論文05-04
應(yīng)用:云計(jì)算環(huán)境中存儲(chǔ)必備的9大要求05-01
云計(jì)算與云數(shù)據(jù)管理技術(shù)研究的論文05-02
探析基于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全論文07-26
基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)探討論文05-02
大數(shù)據(jù)時(shí)代下軟件工程關(guān)鍵技術(shù)研討論文04-27