首頁> 中國發(fā)展門戶網(wǎng)> 本網(wǎng)獨家>

大數(shù)據(jù)時代下生命科學(xué)研究面臨的挑戰(zhàn)及解決方案

2024-06-27 10:09

來源：中國網(wǎng)·中國發(fā)展門戶網(wǎng)

分享到：

鏈接已復(fù)制

字體：小大

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊在過去的幾個世紀(jì)中，生命科學(xué)一直處于快速發(fā)展和演變的階段，從最初對生命現(xiàn)象的簡單觀察和描述，到如今分子生物學(xué)、基因組學(xué)和系統(tǒng)生物學(xué)等領(lǐng)域的興起，生命科學(xué)研究范式持續(xù)演變。這種研究范式的變化深受生物數(shù)據(jù)類型和規(guī)模的發(fā)展所推動，并帶來了生命科學(xué)發(fā)展演進(jìn)的3個階段（圖1）——每個階段都在前一個階段的基礎(chǔ)上遞進(jìn)，不斷涌現(xiàn)新的技術(shù)和方法來快速推動生命科學(xué)研究的不斷進(jìn)步。

第1階段（16世紀(jì)—20世紀(jì)下半葉）：以觀察總結(jié)和假設(shè)驅(qū)動為主，實驗數(shù)據(jù)作為輔助支持和驗證依據(jù)。在早期，生物學(xué)家主要依靠手工實驗和觀察描述獲取數(shù)據(jù)，并從中提煉歸納出一些假說。但這些數(shù)據(jù)通常是表面的、局部的、有限的，產(chǎn)生的假說也是宏觀和粗略的，無法對生命的深層機(jī)制進(jìn)行解析。其原因在于認(rèn)知水平和技術(shù)的限制導(dǎo)致無法獲得和解析更深層次的生物學(xué)數(shù)據(jù)。這一時期的生命科學(xué)研究的典型代表有：16世紀(jì)的安德烈·維薩里通過動物和人體的解剖數(shù)據(jù)全面認(rèn)識機(jī)體結(jié)構(gòu)；19世紀(jì)，達(dá)爾文通過環(huán)球考察采集和分析大量標(biāo)本數(shù)據(jù)提出進(jìn)化論等。其后，隨著物理學(xué)、化學(xué)等學(xué)科的發(fā)展，以及實驗技術(shù)和分析方法的快速進(jìn)步，尤其是DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)和中心法則的提出，將生命科學(xué)研究引入分子生物學(xué)時代。生物學(xué)家可以將復(fù)雜的生命系統(tǒng)拆解為微觀的分子和細(xì)胞組分并逐個進(jìn)行研究，以獲得對生物系統(tǒng)單一維度、深層次的描述數(shù)據(jù)。研究人員通常采用被動分析的方法，即根據(jù)事先提出的假設(shè)來遍歷和解釋實驗數(shù)據(jù)，此時形成的是對生命系統(tǒng)深入?yún)s零散、片面的認(rèn)知。

第2階段（20世紀(jì)下半葉—21世紀(jì)初）：以組學(xué)數(shù)據(jù)為基礎(chǔ)，結(jié)合生物信息學(xué)分析和實驗驗證。測序技術(shù)的出現(xiàn)和“人類基因組計劃”的實施將生命科學(xué)引入了高通量生物研究時代?；蚪M學(xué)、轉(zhuǎn)錄組學(xué)、表觀組學(xué)、糖組學(xué)等多種組學(xué)技術(shù)呈現(xiàn)了細(xì)胞在不同層面的整體生命圖景。生物學(xué)家能夠在早期發(fā)育、癌癥、衰老、疾病等多個生命過程中進(jìn)行高通量、大規(guī)模的數(shù)據(jù)采集。此時，他們不再局限于驗證特定的假設(shè)，而是通過多種組學(xué)數(shù)據(jù)來探索未知領(lǐng)域。多組學(xué)數(shù)據(jù)的分析需要更復(fù)雜的計算工具和算法，包括生物信息學(xué)、統(tǒng)計學(xué)等。這些工具和方法幫助研究人員從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和關(guān)聯(lián)，從而獲得更全面、更深入的生物學(xué)知識。另外，使用生物信息學(xué)對組學(xué)數(shù)據(jù)分析獲得的知識還需要使用濕實驗進(jìn)行驗證。盡管這一階段能夠?qū)ι飳W(xué)數(shù)據(jù)進(jìn)行低維度的描述和解釋，卻難以對復(fù)雜的生命系統(tǒng)進(jìn)行高維度模擬，以實現(xiàn)對生命的全面系統(tǒng)解析。

第3階段（21世紀(jì)初至今）：以生物大數(shù)據(jù)驅(qū)動，使用人工智能和干濕融合對生命系統(tǒng)進(jìn)行解析與重構(gòu)。生命系統(tǒng)呈現(xiàn)分子、細(xì)胞、組織、個體等多層次的結(jié)構(gòu)，并且這些層次之間高度互聯(lián)、動態(tài)調(diào)控，形成了一個復(fù)雜的系統(tǒng)；而由此獲得的數(shù)據(jù)也具有多層次、動態(tài)變化的特點。此外，隨著生命科學(xué)研究的不斷深入，海量的多組學(xué)數(shù)據(jù)、文獻(xiàn)資料和其他生物學(xué)數(shù)據(jù)持續(xù)涌現(xiàn)和積累，從而導(dǎo)致數(shù)據(jù)規(guī)模和復(fù)雜性進(jìn)一步增加。這種多類型、多維度且體量巨大的生物學(xué)數(shù)據(jù)被稱為生物大數(shù)據(jù)。然而，傳統(tǒng)的數(shù)據(jù)分析方法已經(jīng)無法滿足處理這一復(fù)雜性的需求。針對不同層次、不同維度、不同類型的生物大數(shù)據(jù)進(jìn)行有效整合、匯集和深入分析，以揭示其中蘊含的高維度生物規(guī)律，成為當(dāng)今生命科學(xué)研究面臨的挑戰(zhàn)之一。人工智能，尤其是神經(jīng)網(wǎng)絡(luò)技術(shù)，因其擅長從低維度的大規(guī)模數(shù)據(jù)中提取高維度隱匿規(guī)律的優(yōu)勢成為解決這一挑戰(zhàn)的有效工具。例如，AlphaFold能夠預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)，GeneCompass等工具能模擬基因調(diào)控網(wǎng)絡(luò)。這些工具和技術(shù)證明了使用人工智能可以挖掘生物大數(shù)據(jù)中數(shù)據(jù)之間的關(guān)聯(lián)，抽提生命的內(nèi)在結(jié)構(gòu)，從而更全面地理解生命現(xiàn)象的本質(zhì)和規(guī)律，揭示生物體內(nèi)部復(fù)雜的互動關(guān)系和調(diào)控機(jī)制。然而，當(dāng)前人工智能技術(shù)仍然僅能有效整合、分析某一層面的生物數(shù)據(jù)（如轉(zhuǎn)錄組）。要實現(xiàn)對復(fù)雜互聯(lián)的生命系統(tǒng)進(jìn)行全面、系統(tǒng)和深刻的認(rèn)知，需要積累更多的系統(tǒng)性生物大數(shù)據(jù)，并運用人工智能技術(shù)對多模態(tài)的生物大數(shù)據(jù)進(jìn)行有效整合，以實現(xiàn)對生命系統(tǒng)整體圖景的認(rèn)知。而且，人工智能指導(dǎo)的自動化機(jī)器人已經(jīng)實現(xiàn)了在化學(xué)和材料學(xué)上自主設(shè)計、規(guī)劃和執(zhí)行真實世界的實驗，從而顯著提高了科學(xué)發(fā)現(xiàn)的速度和數(shù)量，并改善了實驗結(jié)果的可復(fù)制性和可靠性。未來使用生物大數(shù)據(jù)訓(xùn)練的人工智能結(jié)合自動化機(jī)器人，將可能建立干濕融合的自進(jìn)化研究新范式，以實現(xiàn)對更復(fù)雜的生命系統(tǒng)進(jìn)行更高效和更深入的解析。

綜上，生物學(xué)數(shù)據(jù)推動生命科學(xué)發(fā)展經(jīng)歷了從觀察總結(jié)和假設(shè)驅(qū)動為主、組學(xué)數(shù)據(jù)為基礎(chǔ)到生物大數(shù)據(jù)驅(qū)動的3個遞進(jìn)階段。在這個過程中，生物學(xué)數(shù)據(jù)呈現(xiàn)規(guī)模遞增、類型豐富和層次加深的特點，也推動了對生命本質(zhì)的認(rèn)知從對生命系統(tǒng)宏觀總結(jié)、生命元件深入認(rèn)知、生命系統(tǒng)全面低維度描述到生命系統(tǒng)解析和重構(gòu)的不斷深入。

數(shù)據(jù)驅(qū)動生命科學(xué)研究的內(nèi)涵和特點

數(shù)據(jù)驅(qū)動生命科學(xué)研究的內(nèi)涵體現(xiàn)在其對研究范式、方法論和認(rèn)知模式的深刻影響上。強(qiáng)調(diào)了以數(shù)據(jù)為核心的研究方法，將數(shù)據(jù)的采集和分析置于中心位置。這意味著研究者不再僅依賴于個別案例或局部現(xiàn)象，而是通過收集大規(guī)模、多樣化的生物學(xué)數(shù)據(jù)來推動研究的發(fā)展。數(shù)據(jù)驅(qū)動的生命科學(xué)研究具有跨學(xué)科性和整合性的特點。隨著技術(shù)的發(fā)展和數(shù)據(jù)的積累，生命科學(xué)的研究越來越需要跨越不同學(xué)科領(lǐng)域，如生物學(xué)、計算機(jī)科學(xué)、統(tǒng)計學(xué)等，進(jìn)行數(shù)據(jù)的整合和分析。數(shù)據(jù)驅(qū)動的生命科學(xué)研究著重于量化生物現(xiàn)象，并試圖將其系統(tǒng)化地理解。傳統(tǒng)的生物學(xué)研究往往是基于定性觀察和描述，而數(shù)據(jù)驅(qū)動的方法則更加注重通過數(shù)據(jù)收集、處理和分析，建立生物系統(tǒng)的量化模型。這種量化和系統(tǒng)化的方法使得研究者能夠更全面地理解生命系統(tǒng)的復(fù)雜性，并從中發(fā)現(xiàn)隱藏的規(guī)律和關(guān)聯(lián)。數(shù)據(jù)驅(qū)動的生命科學(xué)研究強(qiáng)調(diào)實驗數(shù)據(jù)與數(shù)字化建模的結(jié)合。通過收集大量的實驗數(shù)據(jù)，并運用數(shù)學(xué)模型和計算方法進(jìn)行數(shù)字化建模，進(jìn)行高通量、高準(zhǔn)確度地預(yù)測和篩選，從而可以高效驗證和修正生物學(xué)理論，并提出新的假設(shè)和預(yù)測。這種濕實驗與數(shù)字化建模結(jié)合的研究方式使得生命科學(xué)研究更加系統(tǒng)和深入，推動了生物學(xué)知識的不斷進(jìn)步。

數(shù)據(jù)驅(qū)動生命科學(xué)研究的特征具有3項顯著性特點。生物學(xué)數(shù)據(jù)具有多樣性和豐富性的特點。生物數(shù)據(jù)涵蓋了生物系統(tǒng)的各個層次和多個方面——從基因組序列到蛋白質(zhì)結(jié)構(gòu)，再到細(xì)胞功能和生物表型，生物學(xué)數(shù)據(jù)包含了豐富的信息，為研究者提供了深入探索生命現(xiàn)象的基礎(chǔ)。生物學(xué)數(shù)據(jù)具有高維度和大規(guī)模的特點。隨著技術(shù)的進(jìn)步，生物學(xué)數(shù)據(jù)的維度和規(guī)模不斷增加。例如，基因組學(xué)和轉(zhuǎn)錄組學(xué)等高通量測序技術(shù)的出現(xiàn)，使得研究者能夠同時研究成千上萬個基因或基因表達(dá)物，從而獲得高維度的數(shù)據(jù)。這種高維度和大規(guī)模的數(shù)據(jù)為研究者提供了更全面的視角，使他們能夠發(fā)現(xiàn)更復(fù)雜的生物學(xué)規(guī)律。生物學(xué)數(shù)據(jù)往往具有動態(tài)性和時空特征。生物系統(tǒng)具有在不同時間和空間尺度上的變化。例如，轉(zhuǎn)錄組數(shù)據(jù)可以反映基因在不同發(fā)育階段或不同環(huán)境條件下的表達(dá)變化，蛋白質(zhì)互作網(wǎng)絡(luò)數(shù)據(jù)可以揭示細(xì)胞內(nèi)信號傳導(dǎo)的動態(tài)過程。這種動態(tài)性和時空特征使得研究者能夠更深入地理解生命系統(tǒng)的復(fù)雜性，并探索其調(diào)控機(jī)制和功能。

生物大數(shù)據(jù)組成和特點

大數(shù)據(jù)（Big Data）通常代表了大量、多樣、不斷變化且快速聚合屬性的巨型數(shù)據(jù)集，并且這些屬性過于復(fù)雜或“大”，無法通過傳統(tǒng)手段處理。而生物大數(shù)據(jù)在廣義上被定義為來源于或用于生物的海量數(shù)據(jù)。目前，比較常見的生物大數(shù)據(jù)類型包括：研究類型數(shù)據(jù)，如基因組、蛋白質(zhì)組、轉(zhuǎn)錄組、糖組等多種組學(xué)測序數(shù)據(jù)，以及成像數(shù)據(jù)、藥物研發(fā)和臨床試驗數(shù)據(jù)等；電子健康數(shù)據(jù)，如電子醫(yī)療檔案、可移動/穿戴設(shè)備采集的實時監(jiān)控數(shù)據(jù)等；生物樣本庫，如生物多樣性資源庫、臨床樣本庫等；知識成果，如生物相關(guān)的文獻(xiàn)、專利、標(biāo)準(zhǔn)等。

生物大數(shù)據(jù)除了具備“大數(shù)據(jù)”的特點外，還具有明顯的生物學(xué)數(shù)據(jù)自身特性，即大數(shù)據(jù)量（volume）、多樣化（variety）、高速（velocity）和有價值（value）的“4V”特點（圖2）。生物學(xué)研究技術(shù)和手段的快速發(fā)展推動了生物大數(shù)據(jù)的高速發(fā)展，使生物學(xué)研究從表面的點觀測進(jìn)入全面和更深層次的圖像和數(shù)據(jù)解析。

大數(shù)據(jù)量。容量是大數(shù)據(jù)中涉及的數(shù)據(jù)量的絕對大小。國際癌癥組織建立了癌癥基因組圖譜計劃（TCGA），目前已收錄的來自各種癌癥的組學(xué)數(shù)據(jù)已突破2.5 PB。自2015年，中國科學(xué)院北京基因組研究所（國家生物信息中心）建立了國內(nèi)首個組學(xué)原始數(shù)據(jù)匯交、存儲、管理與共享系統(tǒng)GSA（組學(xué)原始數(shù)據(jù)歸檔庫），目前數(shù)據(jù)量已突破42 PB。數(shù)據(jù)庫的數(shù)據(jù)量上升速度之快完美地凸顯了生物大數(shù)據(jù)的蓬勃發(fā)展。

多樣化。多樣化代表所收集數(shù)據(jù)的多樣性，組學(xué)技術(shù)的進(jìn)步和電子醫(yī)療的出現(xiàn)，產(chǎn)生了不同來源、不同格式和不同用途的大量數(shù)據(jù)，擴(kuò)大了可用和需要處理的數(shù)據(jù)類型和數(shù)據(jù)源的范圍。對于生物學(xué)樣本的研究，經(jīng)歷了從文本數(shù)據(jù)、圖像數(shù)據(jù)、芯片數(shù)據(jù)到高通量測序數(shù)據(jù)的變化，擴(kuò)充了生物學(xué)的研究材料。

高速。速度是由輸入和處理數(shù)據(jù)的速度定義的，指的是數(shù)據(jù)創(chuàng)建、處理和分析的速度和頻率。近年來，為應(yīng)對生物大數(shù)據(jù)的急劇增長，人工智能方法被用于生物大數(shù)據(jù)的解析。

有價值。價值表示所收集的數(shù)據(jù)在臨床研究的結(jié)果變化、行為改變和工作流程改進(jìn)方面的有用性。所有研究性生物大數(shù)據(jù)的產(chǎn)出，都在特定的方面加深了生物學(xué)的認(rèn)識，推動了生物學(xué)研究的發(fā)展，體現(xiàn)了生物大數(shù)據(jù)不可忽視的價值性。例如，臨床的影像學(xué)數(shù)據(jù)高效、精準(zhǔn)地幫助醫(yī)生判斷患者的病灶和原因，測序數(shù)據(jù)的解析全面地闡釋了表型的根本原因等。

技術(shù)發(fā)展推動生物大數(shù)據(jù)的產(chǎn)生

生物技術(shù)和信息技術(shù)的融合推動了生命科學(xué)從“假說驅(qū)動”向“數(shù)據(jù)驅(qū)動”的轉(zhuǎn)變，促進(jìn)了生物大數(shù)據(jù)的爆發(fā)式增長、精準(zhǔn)解析和生命科學(xué)的巨大進(jìn)步。自從“人類基因組計劃”實施以來，測序技術(shù)得到了快速發(fā)展，引發(fā)了基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組、糖組等多種組學(xué)數(shù)據(jù)急劇增加，同時也催生了生物技術(shù)與信息技術(shù)的融合，推動生命科學(xué)研究進(jìn)入數(shù)據(jù)型科學(xué)發(fā)現(xiàn)的時代。

在生命科學(xué)的發(fā)展過程中，得益于測序技術(shù)的快速發(fā)展，組學(xué)類型的生物大數(shù)據(jù)增長尤為凸顯。自1977年Sanger第一代測序技術(shù)出現(xiàn)以來，第二代高通量測序技術(shù)、第三代單分子全長測序技術(shù)和第四代納米孔測序技術(shù)相繼涌現(xiàn)，廣泛應(yīng)用于生物學(xué)各個領(lǐng)域，推動了生命科學(xué)研究的巨大進(jìn)步。Sanger測序技術(shù)被用于細(xì)菌和噬菌體基因組的測序，但其1次只能分析1個測序反應(yīng)，產(chǎn)量有限、時間花費長且成本高昂，導(dǎo)致“人類基因組計劃”耗時10多年才完成。自2004年以來，“下一代測序”（next-generation sequencing）技術(shù)的發(fā)展實現(xiàn)了高通量平行測序，大幅增加了測序數(shù)據(jù)的輸出量。第二代測序技術(shù)支持基因組、轉(zhuǎn)錄組和表觀遺傳組等多種組學(xué)測序，單次測序可以產(chǎn)生4億條讀段、120 GB數(shù)據(jù)。第三代測序技術(shù)又被稱為“長讀段”測序，可以檢測全基因組重復(fù)和結(jié)構(gòu)變異檢測，實時靶向讀取DNA分子。最新的第三代測序儀，平均讀長可達(dá)10—15 kb，產(chǎn)生約36.5萬個讀段。第四代測序技術(shù)是基于納米孔系統(tǒng)的DNA測序技術(shù)，裝置小巧可達(dá)手持尺寸，超過100 kb的DNA可以穿過納米孔，通過許多通道，以相對較低的成本獲得數(shù)十到數(shù)百Gb的序列。測序技術(shù)的快速發(fā)展對基礎(chǔ)研究、臨床診斷治療等具有重要意義。隨著精準(zhǔn)醫(yī)療概念的提出，電子健康記錄開始發(fā)展。盡管存在不適當(dāng)訪問等潛在風(fēng)險，但電子健康記錄的便攜性、準(zhǔn)確性和即時性為精準(zhǔn)醫(yī)療策略、醫(yī)療體系完善和智能療法篩選等提供了重要支持。

在生命科學(xué)研究中，信息技術(shù)和生物技術(shù)的規(guī)模化應(yīng)用豐富了生物樣本庫的建設(shè)。伴隨著生物大數(shù)據(jù)的急劇增長，美國國立生物技術(shù)信息中心（NCBI）數(shù)據(jù)庫、歐洲生物信息學(xué)研究所（EBI）數(shù)據(jù)庫、日本DNA數(shù)據(jù)庫（DDBJ）和中國國家基因組數(shù)據(jù)中心等大數(shù)據(jù)庫中的數(shù)據(jù)類型不斷豐富，包括從多組學(xué)測序原始數(shù)據(jù)到表達(dá)信息矩陣，數(shù)據(jù)量從TB向PB甚至更高不斷增加，從而為生命科學(xué)領(lǐng)域的研究提供了豐富的數(shù)據(jù)資源。此外，生物大數(shù)據(jù)的發(fā)展也推動了知識成果的積累，促進(jìn)了生物學(xué)數(shù)據(jù)相關(guān)文獻(xiàn)不斷提升和生物技術(shù)專利的快速更新迭代，極大地推動了生物領(lǐng)域的研究，有望給生物學(xué)和生物醫(yī)學(xué)研究領(lǐng)域帶來革命性的變化。

大數(shù)據(jù)時代下生命科學(xué)研究面臨的挑戰(zhàn)及解決方案

面對生物大數(shù)據(jù)驅(qū)動生命科學(xué)研究新范式的發(fā)展趨勢，研究人員面臨著來自不同來源的多維度大數(shù)據(jù)的挑戰(zhàn)。這些大數(shù)據(jù)包括龐大的結(jié)構(gòu)化和非結(jié)構(gòu)化的信息集合。如何有效地從如此龐大的原始數(shù)據(jù)中提取信息對于推動科學(xué)發(fā)明、工業(yè)進(jìn)步和經(jīng)濟(jì)發(fā)展至關(guān)重要。隨著新型生物技術(shù)的發(fā)展，具有多模態(tài)、多維度、分布分散、關(guān)聯(lián)隱匿、多層次交匯等特點的生物大數(shù)據(jù)逐漸形成。如何建立適合生命科學(xué)的數(shù)據(jù)處理和分析流程，構(gòu)建共享可及且高速傳輸?shù)臄?shù)據(jù)庫，有效整合數(shù)據(jù)，為生命科學(xué)AI Ready（人工智能就緒）的實現(xiàn)提供完整、安全、真實和契合的高質(zhì)量數(shù)據(jù)，將促進(jìn)新的科學(xué)發(fā)現(xiàn)并拓展生命科學(xué)的探索范圍。

生物大數(shù)據(jù)處理的挑戰(zhàn)

大量的數(shù)據(jù)在收集整合過程中，因不同實驗室和研究人員之間的差異及技術(shù)平臺差異等因素都可能引起批次效應(yīng)。批次效應(yīng)會導(dǎo)致數(shù)據(jù)變異性增加，真陽性生物信號和假陰性信號的膨脹。當(dāng)批次效應(yīng)被誤認(rèn)為感興趣的結(jié)果（假陽性）時，可能會引發(fā)更嚴(yán)重的后果。針對批次效應(yīng)，如今較為公認(rèn)的方法包括：ComBat包，通過經(jīng)驗貝葉斯估計器來校正數(shù)據(jù)的批次效應(yīng)；Seurat包，通過建立錨定的方法將不同批次之間相似的細(xì)胞集成單細(xì)胞簇。

除了批次效應(yīng)的存在，數(shù)據(jù)也可能出現(xiàn)缺失的情況，會導(dǎo)致建模偏差增加或模型準(zhǔn)確性降低的問題。針對不同的缺失情況，有著不同的插補解決方案。最簡單的插補方法是將信息替換為數(shù)據(jù)全局特征的值（平均值或中位數(shù)等），但是簡單的插補會導(dǎo)致標(biāo)準(zhǔn)誤差太小，未考慮不確定性。多重插補方法是處理缺失值最常用的方法，即多次對缺失值進(jìn)行插補，并結(jié)合結(jié)果以考慮觀察到的變異性并減少推斷誤差。

大量生物學(xué)數(shù)據(jù)的出現(xiàn)，不可避免地會出現(xiàn)批次效應(yīng)和缺失。針對這些問題優(yōu)化統(tǒng)一前期數(shù)據(jù)處理的流程，并開發(fā)更加合理的處理批次效應(yīng)和插補缺失值的方法，以使分析結(jié)果更加的可靠，避免出現(xiàn)假陽性的結(jié)果。但這些方法只能限制批次效應(yīng)和減少數(shù)據(jù)缺失的影響，最終仍需要制定統(tǒng)一的實驗和數(shù)據(jù)標(biāo)準(zhǔn)。

生物大數(shù)據(jù)分析的挑戰(zhàn)

大數(shù)據(jù)的出現(xiàn)不僅為深入研究生物系統(tǒng)提供了前所未有的機(jī)會，也為數(shù)據(jù)挖掘和分析提出了新的挑戰(zhàn)。大數(shù)據(jù)分析的首要需求是找到兼顧成本和時間的解決方案。建立有效的生物信息工作流程系統(tǒng)和分析工具對生物數(shù)據(jù)的分析至關(guān)重要。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已成為從生物大數(shù)據(jù)生成處理信息的最先進(jìn)技術(shù)，這些技術(shù)在Cloud、Hadoop、apache Spark等大數(shù)據(jù)平臺上執(zhí)行時，可以有效地從此類生物大數(shù)據(jù)中提取信息。針對多組學(xué)數(shù)據(jù)異構(gòu)化的性質(zhì)，使用具有并行計算的分布式系統(tǒng)的算法適合大數(shù)據(jù)分析。如MapReduce可以在由數(shù)千臺計算機(jī)組成的大型集群上使用各種并行和分布式算法。

針對生命科學(xué)數(shù)據(jù)的高維度、異質(zhì)性和復(fù)雜性等特征，應(yīng)著力發(fā)展生物大數(shù)據(jù)的先進(jìn)分析方法和工具，以加快大數(shù)據(jù)分析速度、減少分析成本、降低分析的技術(shù)壁壘。建立標(biāo)準(zhǔn)的大數(shù)據(jù)分析流程，以期能夠得到準(zhǔn)確、可復(fù)現(xiàn)和可解釋的分析結(jié)果。數(shù)據(jù)驅(qū)動的研究新范式的發(fā)展對數(shù)據(jù)分析的方法、工具和算力等資源提出了新的挑戰(zhàn)，需要加快建設(shè)新一代數(shù)據(jù)分析基礎(chǔ)建設(shè)，以做好迎接新范式的準(zhǔn)備。

生物大數(shù)據(jù)共享可及的挑戰(zhàn)

在全國乃至全球范圍內(nèi)，生物數(shù)據(jù)的共享可及是大數(shù)據(jù)研究的重要組成部分。需要建立數(shù)據(jù)庫用于儲存原始或分析結(jié)果數(shù)據(jù)，以實現(xiàn)數(shù)據(jù)公開和可共享。國際上已經(jīng)建立了多個用于儲存生命科學(xué)數(shù)據(jù)的數(shù)據(jù)庫。例如，NCBI建立的GenBank數(shù)據(jù)庫是世界上最大的基因組數(shù)據(jù)庫之一。另外，蛋白質(zhì)數(shù)據(jù)銀行（PDB）是一個著名的大分子結(jié)構(gòu)信息數(shù)據(jù)庫，儲存了包括蛋白質(zhì)、核酸等多種生物大分子的信息。我國國家基因庫生命大數(shù)據(jù)平臺（CNGBdb）已歸檔了3721個研究項目，多組學(xué)數(shù)據(jù)量達(dá)6612 TB，支撐了全球近300個科研單位的科研數(shù)據(jù)匯交和共享。需要高效的程序以使數(shù)據(jù)能夠快速且完整的提供給研究人員。Fasq是一個高效的數(shù)據(jù)傳輸軟件，它能夠在30 s內(nèi)傳輸24 GB的數(shù)據(jù)。然而，它需要大量的互聯(lián)網(wǎng)連接帶寬，數(shù)據(jù)傳輸?shù)某杀痉浅０嘿F。Smart HDFS（Hadoop分布式文件系統(tǒng)）是一種異步多管道文件傳輸協(xié)議，它使用全局和局部優(yōu)化技術(shù)來選擇更高性能的數(shù)據(jù)節(jié)點，從而提升數(shù)據(jù)傳輸?shù)男阅堋?/p>

盡管我國已經(jīng)建立起如國家基因庫生命大數(shù)據(jù)平臺等的大型數(shù)據(jù)庫，但其存儲仍存在著規(guī)范性不強(qiáng)、存儲量不高、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)可用性不足和存在大量的使用壁壘等問題。因此，我國生命科學(xué)領(lǐng)域需要更好地統(tǒng)籌協(xié)調(diào)和資源整合，加強(qiáng)科學(xué)數(shù)據(jù)資源的整合與共享，建立規(guī)范化的數(shù)據(jù)存儲流程，構(gòu)建高存儲容量、低使用壁壘的數(shù)據(jù)庫，以滿足數(shù)據(jù)驅(qū)動下的新范式的需求。面對數(shù)據(jù)傳輸?shù)奶魬?zhàn)，我國還應(yīng)該加強(qiáng)數(shù)據(jù)供給模式的改革，提升數(shù)據(jù)傳輸?shù)挠布O(shè)施，設(shè)計和優(yōu)化傳輸程序，以提供更加快速的傳輸速度為重點，并建立相關(guān)協(xié)議對數(shù)據(jù)訪問進(jìn)行管理，進(jìn)而保護(hù)數(shù)據(jù)的真實性。

建立大數(shù)據(jù)+生命科學(xué)研究新范式

將生物大數(shù)據(jù)處理成AI Ready狀態(tài)對于數(shù)據(jù)驅(qū)動的生命科學(xué)研究至關(guān)重要。這一過程為人工智能系統(tǒng)的訓(xùn)練和優(yōu)化提供了基礎(chǔ)，并為人工智能系統(tǒng)提供了豐富的信息資源，有助于提高其理解世界的能力，增強(qiáng)預(yù)測和決策的準(zhǔn)確性，實現(xiàn)個性化服務(wù)和定制化產(chǎn)品，同時推動創(chuàng)新和發(fā)現(xiàn)。面對生命現(xiàn)象中復(fù)雜的非線性關(guān)系和難以預(yù)測的特征，大數(shù)據(jù)驅(qū)動下的人工智能技術(shù)展現(xiàn)出強(qiáng)大的能力，并已在生命科學(xué)領(lǐng)域的多個方面展現(xiàn)出顛覆性的應(yīng)用潛力。例如，Geneformer在基于3000萬個單細(xì)胞轉(zhuǎn)錄組的大規(guī)模語料庫進(jìn)行了預(yù)訓(xùn)練，以實現(xiàn)上下文特異性預(yù)測；跨物種生命基礎(chǔ)大模型GeneCompass在超過1.2億個單細(xì)胞的訓(xùn)練數(shù)據(jù)集上實現(xiàn)了對基因表達(dá)調(diào)控規(guī)律的全景式學(xué)習(xí)理解等多個生命科學(xué)問題的分析。

然而，在我國在實現(xiàn)AI Ready過程中，核心技術(shù)仍相對匱乏，需大力發(fā)展自主原創(chuàng)的算法、模型和工具等。針對生命科學(xué)的AI Ready過程中大數(shù)據(jù)的多模態(tài)和多維度等特征，急需發(fā)展針對性的先進(jìn)計算與分析方法。未來應(yīng)開發(fā)更加適合生物大數(shù)據(jù)分析的硬件、軟件和新計算介質(zhì)，并在生命科學(xué)和人工智能技術(shù)的融合過程中，探索新的人工智能-生物交互模式。充分利用人工智能+生物大數(shù)據(jù)，同時與濕實驗結(jié)合，將建立干濕融合的生命科學(xué)研究新范式。

總結(jié)和未來展望

數(shù)據(jù)驅(qū)動的生命科學(xué)作為生物科學(xué)領(lǐng)域的重要趨勢，正面臨著海量生物大數(shù)據(jù)的包括數(shù)據(jù)存儲、傳輸、處理和分析等多個方面的挑戰(zhàn)。然而，通過不斷開發(fā)新的技術(shù)和方法，尤其是人工智能技術(shù)的發(fā)展，能夠更高效地整合和分析生物大數(shù)據(jù)，從而挖掘生物學(xué)內(nèi)在規(guī)律，深入理解生物系統(tǒng)的復(fù)雜性。

未來，為實現(xiàn)對復(fù)雜生命系統(tǒng)更完美的模擬和解構(gòu)，需從數(shù)據(jù)質(zhì)量、處理算法、場景化等多方面進(jìn)行優(yōu)化。應(yīng)生產(chǎn)和獲取高質(zhì)量系統(tǒng)性的生物大數(shù)據(jù)。當(dāng)前的生物學(xué)數(shù)據(jù)雖然規(guī)模大、類型多，但數(shù)據(jù)來源各異、離散度高、偏差大，整體數(shù)據(jù)質(zhì)量水平不高。而且生命系統(tǒng)是多層級的復(fù)雜系統(tǒng)，要將不同層級打通，需要如胚胎發(fā)育、疾病、癌癥、衰老等生命過程的多維度、多模態(tài)、時空對齊的高質(zhì)量、系統(tǒng)性生物大數(shù)據(jù)，為人工智能提供可靠的數(shù)據(jù)基礎(chǔ)，減少噪聲和偏差的影響。需開發(fā)生命適配的人工智能算法。生物大數(shù)據(jù)具有多維度、多層次、非結(jié)構(gòu)化和動態(tài)變化的特點，當(dāng)前人工智能算法難以有效處理。未來需要針對生物數(shù)據(jù)特點開發(fā)生命適配的人工智能算法，來更好捕捉復(fù)雜生命網(wǎng)絡(luò)中的結(jié)構(gòu)和規(guī)律。增強(qiáng)模型的解釋性，揭示潛在的生物學(xué)機(jī)制也是未來重要的研究方向。整合生物學(xué)數(shù)據(jù)、利用人工智能技術(shù)以及自動化的高通量實驗和數(shù)據(jù)獲取技術(shù)。有望實現(xiàn)干濕融合的自進(jìn)化模式，為生命科學(xué)研究帶來革命性范式革新。

（作者：江海平、劉文豪、李鑫，中國科學(xué)院動物研究所北京干細(xì)胞與再生醫(yī)學(xué)研究院；高純純、楊運桂，國家生物信息中心；編審：楊柳春?！吨袊茖W(xué)院院刊》供稿）

【責(zé)任編輯：殷曉霞】

色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

LANGUAGES

新聞

財經(jīng)

觀點

文化

國情

承建網(wǎng)站

專業(yè)平臺

外宣平臺

大數(shù)據(jù)時代下生命科學(xué)研究面臨的挑戰(zhàn)及解決方案