|
|
科學(xué)大數(shù)據(jù)管理的挑戰(zhàn)
科學(xué)大數(shù)據(jù)管理涉及數(shù)據(jù)的收集、存儲(chǔ)、處理、分析、可視化和共享等全生命周期管理。如圖?1?所示,科學(xué)應(yīng)用首先從科學(xué)裝置接入或從互聯(lián)網(wǎng)采集大量異構(gòu)實(shí)驗(yàn)或觀測(cè)數(shù)據(jù),然后經(jīng)過(guò)初步過(guò)濾、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理操作存入持久化設(shè)備形成原始科學(xué)數(shù)據(jù)。針對(duì)具體科研目標(biāo),應(yīng)用對(duì)原始數(shù)據(jù)進(jìn)一步運(yùn)算抽取實(shí)驗(yàn)特征形成特征數(shù)據(jù)??茖W(xué)應(yīng)用對(duì)特征數(shù)據(jù)整合挖掘分析形成科學(xué)發(fā)現(xiàn)量化指標(biāo),并通過(guò)可視化的方法將科學(xué)發(fā)現(xiàn)展現(xiàn)出來(lái)。最后整個(gè)流程中產(chǎn)生的所有數(shù)據(jù)都將存檔、發(fā)布以備將來(lái)查詢、驗(yàn)證等科研目標(biāo)使用。
科學(xué)大數(shù)據(jù)管理存在常見的“4V”問(wèn)題,同時(shí)也具有獨(dú)特的性質(zhì),這些性質(zhì)決定了科學(xué)大數(shù)據(jù)管理系統(tǒng)生命周期中面臨?4?個(gè)方面的挑戰(zhàn)(SPUS)。
規(guī)模動(dòng)態(tài)化(Scale Dynamic)。科學(xué)實(shí)驗(yàn)持續(xù)產(chǎn)生海量科學(xué)數(shù)據(jù),并需進(jìn)行長(zhǎng)周期持久化存儲(chǔ)。比如上文中提到的大部分科學(xué)研究項(xiàng)目(如?GWAC、LHC等)每秒產(chǎn)生?GB?量級(jí)的觀測(cè)數(shù)據(jù),并且數(shù)據(jù)無(wú)失效期,然而科研機(jī)構(gòu)卻無(wú)法事先確定存儲(chǔ)和計(jì)算資源的配置以最優(yōu)地滿足科學(xué)應(yīng)用需求。因此,如何彈性動(dòng)態(tài)地為這些數(shù)據(jù)分配存儲(chǔ)空間和數(shù)據(jù)處理資源是科學(xué)大數(shù)據(jù)管理需要面對(duì)的一個(gè)重大挑戰(zhàn)。
流水線管理(Pipeline Management)。科學(xué)實(shí)驗(yàn)有嚴(yán)密的實(shí)驗(yàn)步驟,科學(xué)裝置產(chǎn)生的海量原始科學(xué)數(shù)據(jù)會(huì)經(jīng)過(guò)大量的特征提取、轉(zhuǎn)換、分析等數(shù)據(jù)加工操作最終產(chǎn)出科研成果。以?GWAC?新星發(fā)現(xiàn)應(yīng)用為例,原始數(shù)據(jù)進(jìn)入系統(tǒng)以后,系統(tǒng)需要完成特征提取、交叉認(rèn)證等嚴(yán)密的數(shù)據(jù)處理操作;新星預(yù)警發(fā)生后,系統(tǒng)需要溯源到預(yù)警產(chǎn)生的特征記錄、天區(qū)圖、鏡頭等并對(duì)它們進(jìn)行反復(fù)確認(rèn)。此外,同一個(gè)科學(xué)裝置下也會(huì)出現(xiàn)大量類似的實(shí)驗(yàn)流程,因此有效地創(chuàng)建、執(zhí)行、管理這些實(shí)驗(yàn)步驟和數(shù)據(jù)將極大提高科學(xué)實(shí)驗(yàn)的效率。
統(tǒng)一訪問(wèn)(Unified Access)。大科學(xué)應(yīng)用經(jīng)常會(huì)對(duì)不同領(lǐng)域、不同機(jī)構(gòu)的異構(gòu)數(shù)據(jù)進(jìn)行融合挖掘分析。以中國(guó)科學(xué)家發(fā)起的?DBAR?國(guó)際科學(xué)計(jì)劃為例,為了給地區(qū)決策提供參考,需要獲取天、空、地綜合數(shù)據(jù)資源構(gòu)建共享的地球大數(shù)據(jù)平臺(tái)。這其中涉及衛(wèi)星遙感數(shù)據(jù)、氣候觀測(cè)站數(shù)據(jù)、生物觀測(cè)站數(shù)據(jù)以及社交網(wǎng)絡(luò)中的輿論熱點(diǎn)數(shù)據(jù)等異構(gòu)數(shù)據(jù)的融合管理。因此,如何用統(tǒng)一的方式訪問(wèn)多源異構(gòu)數(shù)據(jù)將極大地提升科學(xué)發(fā)現(xiàn)的價(jià)值和規(guī)模。
共享管理(Sharing Management)。科學(xué)實(shí)驗(yàn)產(chǎn)生的成果數(shù)據(jù)以及中間數(shù)據(jù)通過(guò)互聯(lián)開放共享以便集全世界科學(xué)家的力量進(jìn)行實(shí)驗(yàn)驗(yàn)證、模型改進(jìn)等后續(xù)科學(xué)研究,比如全世界物理學(xué)家通過(guò)互聯(lián)網(wǎng)從?LHC?中獲取數(shù)據(jù)進(jìn)行粒子發(fā)現(xiàn)實(shí)驗(yàn),并通過(guò)互聯(lián)網(wǎng)共享科研成果??茖W(xué)數(shù)據(jù)開放性帶來(lái)的重大問(wèn)題有:數(shù)據(jù)提供者與科研人員如何合理劃分科研成果、數(shù)據(jù)提供者著作權(quán)認(rèn)證和激勵(lì)機(jī)制、共享數(shù)據(jù)的隱私保護(hù)等。如果不能妥善解決這些問(wèn)題,將影響科研人員的積極性和科研生態(tài)圈的健康發(fā)展。