|
|
科學大數(shù)據(jù)的認識
作為大數(shù)據(jù)的一個分支,科學大數(shù)據(jù)正在成為科學發(fā)現(xiàn)的新型驅(qū)動力,引起有關國家和科技界的高度重視。歐盟提出“科學是一項全球性事業(yè),而科研數(shù)據(jù)是全球的資產(chǎn)”的理念。美國的“從大數(shù)據(jù)到知識”計劃、歐盟的“數(shù)據(jù)價值鏈戰(zhàn)略計劃”、英國的“科研數(shù)據(jù)之春”計劃、澳大利亞的“大數(shù)據(jù)知識發(fā)現(xiàn)”項目、歐洲“地平線?2020”計劃的“數(shù)據(jù)驅(qū)動型創(chuàng)新”課題,均聚焦于從海量和復雜的數(shù)據(jù)中獲取知識的能力,深入研究基于大數(shù)據(jù)價值鏈的創(chuàng)新機制,倡導大數(shù)據(jù)驅(qū)動的科學發(fā)現(xiàn)模式。大數(shù)據(jù)的影響已觸及自然科學、社會科學、人文科學和工程科學的各個研究領域,不同領域的大數(shù)據(jù)研究中心陸續(xù)成立。我國部署了一系列大數(shù)據(jù)科技項目,組建了不同研究方向的大數(shù)據(jù)實驗室,中國科學院推出了“科學大數(shù)據(jù)工程”計劃。
科學大數(shù)據(jù)具有數(shù)據(jù)密集型范式的特點,它具有數(shù)據(jù)的不可重復性、數(shù)據(jù)的高度不確定性、數(shù)據(jù)的高維特性、數(shù)據(jù)分析的高度計算復雜性等特征。利用大量數(shù)據(jù)的相關性可取代因果關系和理論與模型,基于數(shù)據(jù)間的相關性能夠獲得新知識、新發(fā)現(xiàn)。比如,早在?1609?年,第谷?×布拉赫的助手約翰尼斯?×開普勒從布拉赫對天體運動的系數(shù)觀察記錄中發(fā)現(xiàn)了行星運動定律,并發(fā)表了偉大的著作《新天文學》;又如,歐洲大型強子對撞機幫助物理學家檢驗關于不同粒子物理和高能物理理論的猜想,并且確定了希格斯玻色子的存在;再如,大數(shù)據(jù)使基因組學的科學發(fā)現(xiàn)成為可能;還如,時空大數(shù)據(jù)在全球環(huán)境研究變化中正發(fā)揮重大作用。
越來越多的科學發(fā)現(xiàn)證明,大科學裝置是人類認識自然世界的重要手段。對地觀測衛(wèi)星、大型望遠鏡、大型強子對撞機、高通量科學儀器、傳感器網(wǎng)絡等一系列大裝置的成功運行,使得科學大數(shù)據(jù)與大裝置和大科學間的關系越發(fā)密切。近年來,我國的大裝置諸如?500?m?口徑球面射電望遠鏡、系列空間科學衛(wèi)星等的問世,為通過科學大數(shù)據(jù)認知大自然提供了強大的基礎。為滿足龐大且日益快速增長的科學大數(shù)據(jù)的應用需求,迫切需要建立一些能夠共享數(shù)據(jù)、算法、模型的開放系統(tǒng),以此實現(xiàn)對已有數(shù)據(jù)的科學分析和集成應用。一個典型的例子是,2017?年?10?月,歐洲航天局“哨兵?-5P”衛(wèi)星發(fā)射后,每天獲取近?2?000?萬條空氣污染物及氣體的觀測數(shù)據(jù),其數(shù)據(jù)獲取量是前期任務的?10?倍以上。按照目前的處理速度,一臺計算機需要?1?200?年才能處理完?300?萬景全球衛(wèi)星影像。而基于云計算設施,可在?45?天內(nèi)完成相同處理任務,足見重大基礎設施的重要性。
真正實現(xiàn)科學大數(shù)據(jù)的大價值尚面臨著一系列技術挑戰(zhàn)。在數(shù)據(jù)規(guī)模、數(shù)據(jù)增速、數(shù)據(jù)類型、數(shù)據(jù)質(zhì)量、數(shù)據(jù)價值等方面給科學大數(shù)據(jù)處理技術與方法提出了新的科學技術問題和方向。
以上主要體現(xiàn)在?5?個方面:①數(shù)據(jù)存儲管理方面??茖W大數(shù)據(jù)本身固有的特征亟待面向海量、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)高效存儲管理的數(shù)據(jù)庫。②數(shù)據(jù)分析方法方面。數(shù)據(jù)產(chǎn)生和數(shù)據(jù)分析過程的分離使得數(shù)據(jù)噪聲增多,問題驅(qū)動的研究方式逐漸被數(shù)據(jù)驅(qū)動的研究方式所代替。③模型和算法方面。隨著半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)比重的逐漸增多,針對該類數(shù)據(jù)的特征學習方法逐漸超越并取代傳統(tǒng)的數(shù)據(jù)模型和算法。④計算體系結(jié)構(gòu)方面。新型存儲器件和計算器件不斷涌現(xiàn),使得通用處理器和單一體系結(jié)構(gòu)的單機逐漸過渡為專用處理器、多核和分布式大規(guī)模異構(gòu)集群。⑤計算和服務方面。以互聯(lián)網(wǎng)為媒介的云計算模式和分布式高性能數(shù)據(jù)中心逐漸成為大數(shù)據(jù)處理的新型模式。
中國科學院正在開展科學大數(shù)據(jù)研究的一些實踐。如正在進行的中國科學院戰(zhàn)略性先導科技專項(A類)“地球大數(shù)據(jù)科學工程”,地球大數(shù)據(jù)是一種典型的科學大數(shù)據(jù),是具有空間屬性的地球科學大數(shù)據(jù)。該專項力求突破超大規(guī)模跨域分布式資源技術瓶頸問題,有效推動地球大數(shù)據(jù)技術創(chuàng)新、聚合多時空數(shù)據(jù)管理與關聯(lián)融合以及問題導向數(shù)據(jù)挖掘與分析,以達到只要有終端和互聯(lián)網(wǎng),任何人在任何地點都可以享受到地球大數(shù)據(jù)提供的多樣服務,實現(xiàn)重大科學發(fā)現(xiàn)和一站式全方位宏觀決策支持服務的目的。
又如基于科學大數(shù)據(jù)的國際科學計劃。我們于?2016?年發(fā)起的“數(shù)字絲路”(DBAR)國際計劃,就是要實現(xiàn)大數(shù)據(jù)匯集、大數(shù)據(jù)服務、大數(shù)據(jù)分析和大數(shù)據(jù)呈現(xiàn)支撐,形成“一帶一路”科學大數(shù)據(jù)平臺。這個為期?10?年的科學計劃,將為“一帶一路”可持續(xù)發(fā)展、糧食安全、生態(tài)環(huán)境保護、氣候變化監(jiān)測、災害風險應對,以及文化—自然遺產(chǎn)保護與發(fā)展等提供科學決策。
再如基于科學大數(shù)據(jù)的研究項目。聯(lián)合國設立了一項名為“全球脈動”的計劃,其使命之一是用大數(shù)據(jù)應對氣候挑戰(zhàn)。2014?年,在聯(lián)合國氣候變化峰會召開之際,來自?46?個國家的大數(shù)據(jù)應對氣候變化項目參加了獎項競爭“挑戰(zhàn)”,最終?9?個項目獲得不同的獎勵。我們的“對地觀測大數(shù)據(jù)應對全球變化”研究項目入選其中,顯示了空間對地觀測大數(shù)據(jù)在氣候變化研究中的作用和價值。
科學大數(shù)據(jù)正深刻改變傳統(tǒng)的科研模式,正驅(qū)動現(xiàn)代科學研究的迅猛發(fā)展??茖W大數(shù)據(jù)正在為科技創(chuàng)新帶來大機遇。作為少量依賴因果關系,而主要依靠相關性發(fā)現(xiàn)新知識的新模式,科學大數(shù)據(jù)已成為繼經(jīng)驗、理論和計算模式之后的數(shù)據(jù)密集型科學范式的典型代表。