<noscript id="wwww0"><dd id="wwww0"></dd></noscript>
<nav id="wwww0"><code id="wwww0"></code></nav>
      • <small id="wwww0"></small><sup id="wwww0"><cite id="wwww0"></cite></sup>
      • <sup id="wwww0"></sup>

        911国产在线专区,国产精品亚洲片在线va,亚洲欧美国产天堂,按摩喷潮在线播放无码,国产口爆吞精视频网站,比较有韵味的熟妇无码

         
         

        科學(xué)大數(shù)據(jù)管理技術(shù)與系統(tǒng)

        發(fā)布時(shí)間:2018-09-07 11:51:11  |  來源:中國(guó)網(wǎng)·中國(guó)發(fā)展門戶網(wǎng)  |  作者:黎建輝 李躍鵬 王華進(jìn) 陳明奇  |  責(zé)任編輯:趙斌宇
        關(guān)鍵詞:科學(xué)大數(shù)據(jù),融合查詢,流水線,數(shù)據(jù)共享,彈性伸縮

         

         

         

         

        計(jì)算和存儲(chǔ)管理組件。即計(jì)算和存儲(chǔ)資源隨上層應(yīng)用負(fù)載規(guī)模的變化而彈性伸縮,從而達(dá)到處理時(shí)間與資源投入的比例最優(yōu)化。目前,彈性伸縮分為漸進(jìn)式和定量式兩種方案。漸進(jìn)式伸縮方法監(jiān)控上層應(yīng)用對(duì)底層計(jì)算和存儲(chǔ)資源的競(jìng)爭(zhēng)度,動(dòng)態(tài)地增加或縮減底層資源。例如,在?AWS?云平臺(tái)的?E-MapReduce?集群上運(yùn)行的?MapReduce?作業(yè)對(duì)資源的競(jìng)爭(zhēng)度是集群剩余可用內(nèi)存的數(shù)量,競(jìng)爭(zhēng)度超過閾值會(huì)將新計(jì)算或存儲(chǔ)節(jié)點(diǎn)納入集群從而完成集群的自動(dòng)擴(kuò)容。定量式伸縮方法是通過預(yù)估目標(biāo)應(yīng)用的計(jì)算和存儲(chǔ)資源需求,提前確定應(yīng)用的計(jì)算和存儲(chǔ)資源規(guī)模。與漸進(jìn)式伸縮相比,定量式伸縮的反應(yīng)時(shí)間較短,然而定量式伸縮方法高度依賴對(duì)目標(biāo)應(yīng)用的計(jì)算和對(duì)存儲(chǔ)資源需求的準(zhǔn)確預(yù)估,如通過建立目標(biāo)應(yīng)用的負(fù)載模型預(yù)估系統(tǒng)的計(jì)算和存儲(chǔ)資源。

        數(shù)據(jù)流水線管理組件。通過對(duì)數(shù)據(jù)處理流程的抽象,將數(shù)據(jù)處理過程映射為流水線中的若干邏輯處理單元,從而對(duì)數(shù)據(jù)處理過程進(jìn)行規(guī)范和統(tǒng)一管理。通常情況下,流水線中?1?個(gè)處理單元代表?1?個(gè)函數(shù)、WebService?或?SQL?語句等,處理單元的輸出可以作為其他?1?個(gè)或多個(gè)處理單元的輸入;通過分支、循環(huán)等方式,這些處理單元組裝在一起統(tǒng)一管理完成科學(xué)發(fā)現(xiàn)的流程。流水線管理與工作流、指令流等有相似的形式化表示,如?Pi?代數(shù)、Petri?網(wǎng)等,通過這些流水線形式化表示,系統(tǒng)可在理論上保證執(zhí)行過程的準(zhǔn)確性并對(duì)異常進(jìn)行捕獲處理。在實(shí)際應(yīng)用中,除了保證流水線的正確運(yùn)行之外,流水線管理還需要解決數(shù)據(jù)接入、數(shù)據(jù)溯源、中間數(shù)據(jù)轉(zhuǎn)換等核心問題,常見的流水線管理工具有?Apache Nifi、Stream Set?等。

        數(shù)據(jù)融合查詢管理組件。即用統(tǒng)一的方式訪問分析多源異構(gòu)數(shù)據(jù)。目前數(shù)據(jù)融合主要有聯(lián)邦數(shù)據(jù)庫(kù)(Federate Database)、多模型數(shù)據(jù)庫(kù)(Multi-model Database)、多存儲(chǔ)數(shù)據(jù)庫(kù)(Polystore Database)、數(shù)據(jù)集成(Data Integration)4?種方式。聯(lián)邦數(shù)據(jù)庫(kù)將多個(gè)自治的異構(gòu)或同構(gòu)數(shù)據(jù)庫(kù)中的數(shù)據(jù)透明地映射到一個(gè)全局視圖中,具有自治、異源或異構(gòu)、分布式的明顯特征,比如在?SQL Server?2000?和?Mysql?5.0?中的?Federate?功能。多模型數(shù)據(jù)庫(kù)是指一個(gè)數(shù)據(jù)庫(kù)后端存儲(chǔ)多種類型的數(shù)據(jù),如?OrientDB、ArangoDB?等。多存儲(chǔ)數(shù)據(jù)庫(kù)架構(gòu)沒有統(tǒng)一全局視圖,而是由局部視圖和中間視圖構(gòu)成,通過統(tǒng)一的查詢語言進(jìn)行查詢,典型的?Polystore?架構(gòu)有?BigDAWG、Myria?等。根據(jù)數(shù)據(jù)轉(zhuǎn)換的方式,數(shù)據(jù)集成可以分為在線集成和離線集成兩種方式。離線集成將不同數(shù)據(jù)源中數(shù)據(jù)通過?ETL?轉(zhuǎn)換,存儲(chǔ)在全局視圖數(shù)據(jù)源中進(jìn)行統(tǒng)一管理分析,如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖泊、DataHub?等方式。在線集成通過解析查詢語句將局部視圖中的數(shù)據(jù)在線轉(zhuǎn)換為全局視圖,如?Sparksql、Impala、Presto?等。

        數(shù)據(jù)共享管理組件。該組件的根本任務(wù)是疏通數(shù)據(jù)擁有者到用戶之間的鏈路,促進(jìn)數(shù)據(jù)資源在擁有者和用戶之間的流通、傳播與重用。目前科學(xué)數(shù)據(jù)共享機(jī)制模式的研究主要集中在數(shù)據(jù)匯交機(jī)制、數(shù)據(jù)出版機(jī)制、數(shù)據(jù)聯(lián)盟機(jī)制和服務(wù)激勵(lì)機(jī)制(積分機(jī)制、在線計(jì)算服務(wù)模式)4?個(gè)方面,如王晴、李成贊等從政策法規(guī)、技術(shù)保障、評(píng)價(jià)激勵(lì)等方面對(duì)數(shù)據(jù)共享機(jī)制進(jìn)行了深入分析和論證。數(shù)據(jù)共享的隱私保護(hù)技術(shù)中最具代表性的是區(qū)塊鏈技術(shù),如丁偉等、翁健等提出了基于區(qū)塊鏈的數(shù)據(jù)共享方法,通過公私鑰等非對(duì)稱加密算法將數(shù)據(jù)存儲(chǔ)在區(qū)塊鏈上,從而更大程度上保護(hù)了用戶數(shù)據(jù)的隱私,并在醫(yī)療、基因等領(lǐng)域進(jìn)行了驗(yàn)證。

        <  1  2  3  4  5  6  7  >  


        返回頂部
        911国产在线专区
        <noscript id="wwww0"><dd id="wwww0"></dd></noscript>
        <nav id="wwww0"><code id="wwww0"></code></nav>
          • <small id="wwww0"></small><sup id="wwww0"><cite id="wwww0"></cite></sup>
          • <sup id="wwww0"></sup>