色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

 
 

生物醫(yī)學(xué)大數(shù)據(jù)發(fā)展的新挑戰(zhàn)與趨勢

發(fā)布時間:2018-09-07 11:49:40  |  來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)  |  作者:張國慶 李亦學(xué) 王澤峰 趙國屏  |  責(zé)任編輯:趙斌宇
關(guān)鍵詞:生物醫(yī)學(xué),大數(shù)據(jù),整合,交互,數(shù)據(jù)挖掘

以主題為基礎(chǔ)、以交互為導(dǎo)向的數(shù)據(jù)共享

NCBI?和?EBI?等機構(gòu)通過數(shù)據(jù)遞交服務(wù)匯聚了大量的數(shù)據(jù)資源,并通過網(wǎng)絡(luò)提供數(shù)據(jù)共享。截至?2018?年?7月,NCBI?和?EBI?提供的生物序列、分子結(jié)構(gòu)、遺傳信息、表型信息等可以共享的數(shù)據(jù)接近資源都已經(jīng)超過?60?項,這些數(shù)據(jù)資源極大地促進(jìn)了生命科學(xué)與生物醫(yī)學(xué)研究。除了共享第三方遞交的數(shù)據(jù)資源外,以美國國家癌癥研究院(NCI)建立的?TCGA(The Cancer Genome Atlas)數(shù)據(jù)庫、英國的國家隊列?UK?Biobank(UKB)等,采用的是另外一種模式,即依托大型科研項目產(chǎn)出的數(shù)據(jù),提供分級共享,滿足不同類型的科研需求。介于這兩者之間,中小型研究團(tuán)隊利用自身的數(shù)據(jù)采集能力和整合能力,建立了大量的種類繁多、規(guī)模懸殊、質(zhì)量參差不齊的數(shù)據(jù)庫和知識庫,提供數(shù)據(jù)查詢、瀏覽、下載服務(wù),部分?jǐn)?shù)據(jù)庫還提供在線分析服務(wù)。Nucleic Acids Research?每年第?1?期都出版數(shù)據(jù)庫專刊,到目前為止,已經(jīng)發(fā)表了?1?737?篇數(shù)據(jù)庫相關(guān)論文,其已經(jīng)成為生物醫(yī)學(xué)數(shù)據(jù)庫領(lǐng)域最有影響力的???。

這些按照數(shù)據(jù)類型(如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等)、物種(如人類、人類以外、脊椎動物、無脊椎動物、微生物等)、研究目的(如遺傳變異、轉(zhuǎn)錄因子、調(diào)控網(wǎng)絡(luò))等方式建設(shè)的數(shù)據(jù)庫,在推進(jìn)數(shù)據(jù)共享方面發(fā)揮了巨大的作用。但是隨著數(shù)據(jù)類型和規(guī)模的日益擴大,如何存儲、組織、訪問存放在不同平臺上的不同類型的生物醫(yī)學(xué)數(shù)據(jù)成為新的挑戰(zhàn)。為此,研究者提出?FAIR?原則,即可發(fā)現(xiàn)(findable)、可訪問(accessible)、互操作(interoperable)和重用(re-usable)?;?FAIR?原則,BD2K、OmicsDI等平臺采用搜索引擎等技術(shù)突破傳統(tǒng)的以主題為基礎(chǔ)建設(shè)的數(shù)據(jù)庫的局限性,對?EBI、NCBI?等數(shù)據(jù)中心的數(shù)據(jù)資源提供統(tǒng)一檢索服務(wù),實現(xiàn)以搜索引擎為核心的數(shù)據(jù)跨庫整合,更好地滿足用戶一站式的數(shù)據(jù)共享需求。

除了搜索技術(shù)外,數(shù)據(jù)可視化、在線分析也是用戶利用數(shù)據(jù)的重要手段。新的可視化技術(shù),包括?HTML5、JavaScript?等?Web?展示技術(shù)在數(shù)據(jù)平臺中的應(yīng)用越來越廣泛,用于大分子展示、分子影像、基因組瀏覽器等。此外,依托數(shù)據(jù)庫的分子序列、分子結(jié)構(gòu)、調(diào)控及相互作用網(wǎng)絡(luò)等數(shù)據(jù),數(shù)據(jù)庫根據(jù)自身特點,集成了序列比對、多序列比對、結(jié)構(gòu)相似性比較、網(wǎng)絡(luò)結(jié)構(gòu)分析等在線分析的工具,也極大地加強了數(shù)據(jù)的可交互性。

在建設(shè)生物醫(yī)學(xué)大數(shù)據(jù)平臺時,TB?量級的數(shù)據(jù)下載需求對數(shù)據(jù)下載、單庫檢索等數(shù)據(jù)共享手段提出了嚴(yán)峻的挑戰(zhàn)。因此在延續(xù)按照主題(數(shù)據(jù)類型、物種、研究領(lǐng)域)組織數(shù)據(jù)的基礎(chǔ)上,引入跨庫搜索引擎、可視化、在線分析等在線交互技術(shù),通過更加準(zhǔn)確地返回用戶數(shù)據(jù)訪問結(jié)果的方式,提高數(shù)據(jù)共享效率。

以傳統(tǒng)信息技術(shù)為基礎(chǔ)、以前沿信息技術(shù)為導(dǎo)向的數(shù)據(jù)挖掘

從分析的角度來看,生物醫(yī)學(xué)大數(shù)據(jù)包括生命科學(xué)研究數(shù)據(jù),以及臨床醫(yī)學(xué)數(shù)據(jù)。在生物信息學(xué)、計算生物學(xué)、系統(tǒng)生物學(xué)等計算學(xué)科的支持下,以基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組等組學(xué)數(shù)據(jù)為代表的生命科學(xué)研究數(shù)據(jù)的分析方法已經(jīng)日趨成熟,分析流程日益普及,正在逐步成為傳統(tǒng)的信息技術(shù)。臨床醫(yī)學(xué)數(shù)據(jù)在數(shù)據(jù)統(tǒng)計、數(shù)據(jù)建模、機器學(xué)習(xí)等技術(shù)的支持下,SAS、MATLAB、R?語言等分析工具也得到了廣泛應(yīng)用。

數(shù)據(jù)挖掘能力,尤其是組學(xué)數(shù)據(jù)挖掘能力,越來越難以滿足飛速增長的數(shù)據(jù)產(chǎn)出。其面臨的主要挑戰(zhàn)在于:數(shù)據(jù)量越來越大,需要速度更快的數(shù)據(jù)壓縮、傳輸、分析方法;數(shù)據(jù)維度越來越高,需要更加準(zhǔn)確的降維方法?;?GPU(圖形處理器)、FPGA(現(xiàn)場可編程門陣列)等硬件技術(shù),對傳統(tǒng)的生物信息分析方法的限速步驟進(jìn)行算法優(yōu)化,在序列比對、分子對接得到越來越多的應(yīng)用。而以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù),在醫(yī)學(xué)影像處理、高維數(shù)據(jù)降維等方面的應(yīng)用呈現(xiàn)爆發(fā)式的增長,包括致盲性視網(wǎng)膜疾病與肺炎、阿爾茨海默病、皮膚癌、腦膜瘤等醫(yī)學(xué)影像輔助診斷等。此外,區(qū)塊鏈技術(shù)由于其去中心的特性,也開始在生物醫(yī)學(xué)數(shù)據(jù)共享方面得到應(yīng)用。

前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用,將涵蓋數(shù)據(jù)預(yù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)分析、數(shù)據(jù)共享等范圍,提升數(shù)據(jù)挖掘能力。

<  1  2  3  >  


返回頂部