浪潮分布式存儲(chǔ)平臺(tái)服務(wù)石油勘探,縮短數(shù)據(jù)處理周期
當(dāng)前石油儲(chǔ)備逐步減少,石油勘探、開發(fā)難度增大,借助數(shù)據(jù)技術(shù)提高石油勘探的效率成為推動(dòng)石油行業(yè)增長的關(guān)鍵。存儲(chǔ)作為數(shù)據(jù)的載體,成為石油勘探企業(yè)轉(zhuǎn)型增效的核心競(jìng)爭力。
其實(shí)數(shù)據(jù)極致性能需求已成為業(yè)界的普遍需求,根據(jù)IDC與浪潮聯(lián)合發(fā)布的《2019年數(shù)據(jù)及存儲(chǔ)發(fā)展研究報(bào)告》,隨著新技術(shù)發(fā)展企業(yè)對(duì)數(shù)據(jù)實(shí)時(shí)性需求日益增加,到2023年實(shí)時(shí)數(shù)據(jù)將占全球數(shù)據(jù)圈24.5%的份額。
出廠前的操練
石油勘探耗資巨大,勘探數(shù)據(jù)十分寶貴,用戶把這么重要的勘探數(shù)據(jù)托付給浪潮存儲(chǔ),浪潮存儲(chǔ)團(tuán)隊(duì)自然要全力以赴。石油勘探普遍采用地震波法,原始數(shù)據(jù)量可達(dá)數(shù)PB,后期做地震資料疊前偏移成像,會(huì)對(duì)存儲(chǔ)并發(fā)性能提出較高要求。根據(jù)勘探場(chǎng)景的數(shù)據(jù)特點(diǎn),浪潮提供了容量、性能線性擴(kuò)展的分布式存儲(chǔ)平臺(tái)。
在分布式存儲(chǔ)出廠前,為了確保浪潮分布式存儲(chǔ)平臺(tái)AS13000在地震資料處理作業(yè)環(huán)境中的功能及性能,浪潮存儲(chǔ)決定在實(shí)驗(yàn)室里把整體環(huán)境搭起來,進(jìn)行出廠前的“操練”。
濟(jì)南的測(cè)試實(shí)驗(yàn)室里燈火通明,浪潮工程師團(tuán)隊(duì)用16個(gè)分布式存儲(chǔ)節(jié)點(diǎn),1:1實(shí)際搭建了一套測(cè)試系統(tǒng)。系統(tǒng)裸容量4.2PB,可用容量為3.969PB,可用容量比為73.6%。經(jīng)存儲(chǔ)集群測(cè)試驗(yàn)證,達(dá)到了進(jìn)行某石油勘探公司的項(xiàng)目環(huán)境要求。
浪潮分布式存儲(chǔ)
13 次調(diào)優(yōu)性能比業(yè)界平均水平“拔高”30%
接下來是最為關(guān)鍵的性能調(diào)優(yōu)環(huán)節(jié)。首先,浪潮存儲(chǔ)工程師團(tuán)隊(duì)在壓力機(jī)上部署了IOZONE測(cè)試工具。這是一款用來測(cè)試操作系統(tǒng)上文件系統(tǒng)性能的工具,范圍包括Write、Re-Write、Read、Re-Read、Random Read、Random Write等十余種測(cè)試內(nèi)容,可以說是360度無死角的性能測(cè)試。其次,設(shè)置測(cè)試工具模型為16MB塊大小順序讀寫,測(cè)試數(shù)據(jù)量為內(nèi)存大小的2倍以上——2倍是比較合適的設(shè)置,不然Linux會(huì)給讀寫內(nèi)容進(jìn)行緩存,讓測(cè)試結(jié)果不真實(shí)。就這樣,浪潮分布式存儲(chǔ)團(tuán)隊(duì),在壓力機(jī)上基于IOZONE測(cè)試工具一遍遍運(yùn)行、調(diào)優(yōu)。
一次次功能調(diào)優(yōu),一個(gè)個(gè)參數(shù)試驗(yàn),不夠好,再重來。一天深夜,加班回來剛剛躺下的浪潮存儲(chǔ)測(cè)試工程師腦子里又開始過篩子:白天測(cè)試結(jié)果雖然達(dá)到了客戶招標(biāo)要求,但能否還有提升空間呢?突然一個(gè)靈感閃過——是不是能換個(gè)功能的參數(shù)組合試試?他一骨碌從床上爬起來,迅速把想到的實(shí)驗(yàn)參數(shù)記錄下來,次日便帶領(lǐng)項(xiàng)目組進(jìn)行組合調(diào)優(yōu),終于讓性能上了個(gè)臺(tái)階——讀性能從25GB/s~27GB/s區(qū)間段,提升到最高28.06GB/s。
經(jīng)過長達(dá)半個(gè)月的13次系統(tǒng)級(jí)測(cè)試,浪潮16個(gè)節(jié)點(diǎn)的分布式存儲(chǔ)平臺(tái)平均寫性能達(dá)到27.4GB/s,平均讀性能達(dá)到30.55GB/s,容量和性能超出了招標(biāo)項(xiàng)目需求。最終,某石油勘探公司的工作組在浪潮濟(jì)南實(shí)驗(yàn)室看到了測(cè)試數(shù)據(jù)的Demo演示,對(duì)測(cè)試情況非常滿意。“浪潮存儲(chǔ)的實(shí)力和幾年前相比有了很大提升,這次我們的招標(biāo)方案,性能要求已經(jīng)比較高了,沒想到浪潮存儲(chǔ)還能表現(xiàn)得更好”。
測(cè)試數(shù)據(jù)
浪潮存儲(chǔ)研發(fā)工程師表示:“同等配置水平下,目前分布式存儲(chǔ)業(yè)內(nèi)平均水平為單節(jié)點(diǎn)寫1.3GB/s、讀1.5GB/s,這樣一來16個(gè)節(jié)點(diǎn)的平均寫性能是20.8GB/s、讀性能24GB/s。對(duì)比來看,浪潮分布式存儲(chǔ)在石油勘探項(xiàng)目中的性能表現(xiàn),比業(yè)界平均水平高出了20%~30%。”更高的性能意味著,浪潮分布式存儲(chǔ)平臺(tái)可以幫助石油勘探項(xiàng)目縮短勘探開發(fā)周期、提高勘探開發(fā)成功率。
浪潮分布式存儲(chǔ)的測(cè)試性能:寫性能比業(yè)界平均水平高32%,讀性能高27%
極速性能的背后是基于場(chǎng)景的技術(shù)創(chuàng)新
同等的硬件配置,浪潮分布式存儲(chǔ)為何能實(shí)現(xiàn)更好的性能?答案在場(chǎng)景化定制上。浪潮存儲(chǔ)通過內(nèi)核客戶端優(yōu)化、對(duì)象聚合、高速緩存、讀寫鎖優(yōu)化等技術(shù)創(chuàng)新,結(jié)合石油勘探不同業(yè)務(wù)階段的IO負(fù)載需求進(jìn)行深度優(yōu)化。
在數(shù)據(jù)存儲(chǔ)階段,石油勘探需要將采集到的原始地震波數(shù)據(jù)統(tǒng)統(tǒng)寫入分布式存儲(chǔ)平臺(tái),存儲(chǔ)需要提供高聚合帶寬和PB級(jí)容量,滿足海量數(shù)據(jù)的并發(fā)寫入、存儲(chǔ)需求。
在數(shù)據(jù)解釋階段,存儲(chǔ)需要提供高帶寬,能夠一次性“讀出”單個(gè)文件大小超300GB的超大文件。此時(shí)的存儲(chǔ)需求是高帶寬,超寬通路過得了萬噸輪船。
而在數(shù)據(jù)處理、分析階段,石油勘探模型處理、分析產(chǎn)生了海量的次生小文件,存儲(chǔ)需要通過小文件/對(duì)象聚合技術(shù),提升海量次生小文件的并發(fā)性能。這就如同水庫,先匯聚資源,達(dá)到一定蓄水量后再向下游統(tǒng)一輸出,存儲(chǔ)要把億級(jí)/千萬級(jí)小文件的隨機(jī)寫變?yōu)楣潭ù笮〉臄?shù)據(jù)的順序?qū)懀岣咝省?/p>
浪潮能源行業(yè)部存儲(chǔ)產(chǎn)品經(jīng)理表示,“通過在石油勘探中的部署和應(yīng)用,說明浪潮存儲(chǔ)不僅產(chǎn)品過硬能夠承載能源行業(yè)的領(lǐng)先應(yīng)用,還有專業(yè)的測(cè)試、研發(fā)、服務(wù)團(tuán)隊(duì),有能力在全球提供很好的支持”。
IDC 與浪潮聯(lián)合:新數(shù)據(jù)時(shí)代元年,分布式存儲(chǔ)成為趨勢(shì)
根據(jù)近日IDC與浪潮聯(lián)合發(fā)布的《2019年數(shù)據(jù)及存儲(chǔ)發(fā)展研究報(bào)告》,2019年中國邁入新數(shù)據(jù)時(shí)代元年。報(bào)告顯示,在2019年中國數(shù)字化轉(zhuǎn)型IT支出首次超過非數(shù)字化轉(zhuǎn)型IT支出,占比達(dá)到51%。隨著數(shù)字化轉(zhuǎn)型的不斷加速,行業(yè)新應(yīng)用爆發(fā)式增長,從數(shù)千、數(shù)萬躍升到百萬量級(jí),數(shù)據(jù)呈現(xiàn)出海量、多元、實(shí)時(shí)、多云等趨勢(shì)。數(shù)據(jù)存儲(chǔ)成為承載交通、金融、能源、通信等行業(yè)轉(zhuǎn)型的基礎(chǔ)平臺(tái),分布式存儲(chǔ)成為趨勢(shì),2023年其占比將達(dá)到40%,閃存陣列將迎來高速發(fā)展。