|
|
科學大數(shù)據(jù)智能分析軟件參考方案
筆者所在團隊近年來完成了多個科學、行業(yè)領域的大數(shù)據(jù)系統(tǒng)研發(fā),目前正在承擔中國科學院戰(zhàn)略性先導科技專項“地球大數(shù)據(jù)科學工程”的地球大數(shù)據(jù)挖掘分析系統(tǒng)(Big Earth Data Miner)研發(fā)任務。通過對多個領域科學家團隊的大數(shù)據(jù)分析需求進行調研,結合現(xiàn)狀及趨勢分析,筆者提出下一代科學大數(shù)據(jù)智能分析軟件的參考方案(圖1)。

該軟件系統(tǒng)基于云平臺部署,采用通用大數(shù)據(jù)系統(tǒng)和機器學習系統(tǒng)作為底層計算支撐;在此基礎上,提供滿足領域特性需求的科學大數(shù)據(jù)分布式計算處理引擎和機器學習引擎,支持科學大數(shù)據(jù)分析處理的特殊過程。同時,挖掘分析任務具有數(shù)據(jù)密集型與資源密集型相結合的特征,也存在即時分析、在線分析以及離線分析等差異明顯的服務響應需求,因此需要探索提供高效的資源管理和任務調度機制,以滿足大規(guī)模并發(fā)用戶的差異化支撐需求。
數(shù)據(jù)資源庫提供公共數(shù)據(jù)資源和個人數(shù)據(jù)資源管理,支持用戶在數(shù)據(jù)資源庫方便快捷地查找、導入個人數(shù)據(jù)資源,并進行數(shù)據(jù)共享。算法與模型庫提供通用算法及模型、領域算法及模型管理,支持算法和模型的二次開發(fā)、共享與性能優(yōu)化。其中,針對基于大數(shù)據(jù)訓練得到的模型,可探索采用遷移學習等技術實現(xiàn)跨領域共享。
智能分析環(huán)境提供多種智能分析模式。其中,工作流模式主要面向領域內(nèi)相對固化的分析場景;代碼開發(fā)模式主要面向具有研發(fā)能力和靈活分析需求的科學家團隊;可視交互式分析模式主要面向依賴可視化觀察分析的應用場景。未來還可以擴展到虛擬現(xiàn)實、增強現(xiàn)實等更多的分析模式。
該軟件系統(tǒng)通過瀏覽器提供在線的挖掘分析服務,用戶通過注冊賬戶就可開展一站式的分析工作,在此過程中云服務需要確??茖W家數(shù)據(jù)安全和用戶分析工作的隔離。此外,需要探索利用微服務架構,實現(xiàn)面向不同科學領域需求的領域化定制。
科學技術是第一生產(chǎn)力,而科學大數(shù)據(jù)的智能分析軟件則是科學研究的重要支撐工具。國內(nèi)科學家團隊在很多細分領域都取得了世界矚目的成果,但是并沒有發(fā)布具有世界影響力的開放的智能分析軟件。因此,迫切需要國內(nèi)科學家團隊與信息技術研究團隊聯(lián)合起來,瞄準交叉領域的科學探索與知識發(fā)現(xiàn),充分考慮不同領域科學家團隊的大數(shù)據(jù)分析需求,設計研發(fā)出更適用于科學大數(shù)據(jù)的智能分析軟件系統(tǒng),為人類科技進步貢獻力量。(作者:鐘華 劉杰 王偉 中國科學院軟件研究所北京?!吨袊茖W院院刊》供稿)