大數(shù)據(jù)分析處理技術(shù)新體系的思考

發(fā)布時(shí)間：2022-03-01 09:45:38 | 來源：中國(guó)網(wǎng)·中國(guó)發(fā)展門戶網(wǎng) | 作者：程學(xué)旗、劉盛華、張儒清 | 責(zé)任編輯：楊霄霄

關(guān)鍵詞：大數(shù)據(jù),技術(shù)架構(gòu),系統(tǒng)棧,新模式,新范式,安全可信

中國(guó)網(wǎng)/中國(guó)發(fā)展門戶網(wǎng)訊信息社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代后，人們的日常工作和行為、各種在線系統(tǒng)（如信息系統(tǒng)、工業(yè)生產(chǎn)線）的工作狀態(tài)、各類傳感器的信號(hào)、導(dǎo)航定位系統(tǒng)（全球定位系統(tǒng)?GPS、北斗衛(wèi)星導(dǎo)航系統(tǒng)等）產(chǎn)生的記錄等作為“經(jīng)驗(yàn)”被常規(guī)地記錄成為大規(guī)模數(shù)據(jù)。不同于以往為驗(yàn)證科學(xué)理論和猜想而記錄和收集的科學(xué)大數(shù)據(jù)，記錄這些大規(guī)模數(shù)據(jù)起初并沒有明確的科學(xué)目標(biāo)。但是，它們卻制造了另外的機(jī)會(huì)。人們可以通過這些數(shù)據(jù)發(fā)現(xiàn)和總結(jié)出規(guī)律，并依據(jù)這些規(guī)律提升系統(tǒng)的效率，也可預(yù)測(cè)、判斷未來的趨勢(shì)，甚至輔助做出更加科學(xué)理性的決策。這個(gè)過程所依賴的就是大數(shù)據(jù)分析處理技術(shù)。因此，大數(shù)據(jù)分析處理技術(shù)旨在利用數(shù)據(jù)科學(xué)的方法和廣泛記錄下來的數(shù)據(jù)，以實(shí)現(xiàn)從數(shù)據(jù)到信息、信息到知識(shí)、知識(shí)到?jīng)Q策的價(jià)值轉(zhuǎn)換。

當(dāng)前，數(shù)字經(jīng)濟(jì)成為社會(huì)經(jīng)濟(jì)的一個(gè)重要內(nèi)涵，數(shù)據(jù)成為關(guān)鍵生產(chǎn)要素，大數(shù)據(jù)處理技術(shù)越來越深刻地影響著世界的運(yùn)行狀態(tài)。隨著越來越多的數(shù)據(jù)被記錄、收集和存儲(chǔ)，如何深刻洞察數(shù)據(jù)分布規(guī)律、高效挖掘數(shù)據(jù)價(jià)值，成為智能化時(shí)代需要解決的關(guān)鍵問題。據(jù)美國(guó)國(guó)際數(shù)據(jù)公司（IDC）的報(bào)告，2020?年全球數(shù)據(jù)量為?44?ZB?左右，2025?年全球數(shù)據(jù)量將達(dá)到?175?ZB。而這些數(shù)據(jù)只有?2%?得到了留存，且留存的僅?50%?被使用過。由此可見，線性提升的數(shù)據(jù)處理能力并無法匹配指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)規(guī)模，使得兩者之間的“剪刀差”越來越大。與此同時(shí)，在龐大的數(shù)據(jù)空間中，對(duì)特定任務(wù)真正有價(jià)值的核心數(shù)據(jù)卻往往是極度稀疏或不完整的。以上現(xiàn)象即數(shù)據(jù)泛濫與高價(jià)值數(shù)據(jù)缺失并存的表現(xiàn)。

以互聯(lián)網(wǎng)平臺(tái)企業(yè)服務(wù)為代表的智能化應(yīng)用大都采用“大數(shù)據(jù)＋大模型＋大算力”支撐的大數(shù)據(jù)分析處理技術(shù)，主要通過系統(tǒng)的優(yōu)化來增加數(shù)據(jù)處理規(guī)模并提升計(jì)算性能，從而有效解決了一些相對(duì)低階復(fù)雜度的預(yù)測(cè)判定問題，如圖像分類、語音識(shí)別、結(jié)構(gòu)預(yù)測(cè)，以及規(guī)則明確的人機(jī)對(duì)弈游戲等。而在開放復(fù)雜的系統(tǒng)環(huán)境下，數(shù)據(jù)動(dòng)態(tài)生成演化，影響系統(tǒng)運(yùn)行狀態(tài)的不確定因素和變量巨大，從而導(dǎo)致一些高階復(fù)雜的問題難以直接模型化，或近似求解的結(jié)果不可信，如金融風(fēng)險(xiǎn)預(yù)測(cè)、個(gè)性智能診療、開放環(huán)境下的自動(dòng)駕駛等。在這些高階復(fù)雜的真實(shí)系統(tǒng)中，數(shù)據(jù)采集分布往往是不穩(wěn)定和不完備的，這對(duì)要求精準(zhǔn)判別的大數(shù)據(jù)分析處理模式提出了新的挑戰(zhàn)。

同時(shí)，解決數(shù)據(jù)與算法的安全可信問題也已迫在眉睫。數(shù)據(jù)流通共享的過程中面臨著數(shù)據(jù)濫用、隱私泄露的情況。數(shù)據(jù)本身可能也會(huì)引入真實(shí)世界存在的偏差，或者在對(duì)抗攻擊下數(shù)據(jù)被污染，使得大數(shù)據(jù)分析模型做出有偏的、錯(cuò)誤的決策。在大數(shù)據(jù)分析處理技術(shù)逐漸應(yīng)用于關(guān)鍵領(lǐng)域的當(dāng)下，如何讓大數(shù)據(jù)技術(shù)以一種安全可信的方式服務(wù)于各個(gè)領(lǐng)域，是未來大數(shù)據(jù)發(fā)展必須面對(duì)的又一個(gè)難題。

本文首先回顧了近?10?年來大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀，并針對(duì)數(shù)據(jù)泛濫與數(shù)據(jù)缺失并存、大數(shù)據(jù)分析研判的復(fù)雜不確定性和數(shù)據(jù)安全缺失等挑戰(zhàn)，提出大數(shù)據(jù)分析的新范式和安全可信的大數(shù)據(jù)處理新架構(gòu)，探索大數(shù)據(jù)支撐智能應(yīng)用的新模式。在此基礎(chǔ)上，提出構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧，并展望新技術(shù)體系下的牽引性需求與重大應(yīng)用。

大數(shù)據(jù)分析處理現(xiàn)狀

近?10?年來，在產(chǎn)學(xué)研各界及政府主導(dǎo)的大力推動(dòng)下，大數(shù)據(jù)技術(shù)架構(gòu)、生態(tài)環(huán)境及各行各業(yè)的大數(shù)據(jù)應(yīng)用發(fā)展迅速。

大數(shù)據(jù)技術(shù)架構(gòu)

海量數(shù)據(jù)促進(jìn)了大數(shù)據(jù)技術(shù)架構(gòu)的發(fā)展。大數(shù)據(jù)管理技術(shù)方面。傳統(tǒng)關(guān)系數(shù)據(jù)庫（SQL）主要處理較少數(shù)據(jù)和較小并發(fā)訪問規(guī)模，而且存在大量讀寫硬盤和日志記錄操作，難以橫向擴(kuò)展，無法滿足互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)管理需求。為了實(shí)現(xiàn)更多的數(shù)據(jù)管理、更大規(guī)模的并發(fā)訪問及更多樣的數(shù)據(jù)模式，面向特定需求的各類非關(guān)系型數(shù)據(jù)庫（NoSQL）和從底層重構(gòu)的分布式關(guān)系數(shù)據(jù)庫（NewSQL）正在快速發(fā)展。其中，NewSQL?保持了傳統(tǒng)數(shù)據(jù)庫支持事務(wù)處理正確執(zhí)行四要素（ACID）和?SQL?標(biāo)準(zhǔn)查詢等特性，并具備與?NoSQL?同樣優(yōu)秀的可擴(kuò)展性。大數(shù)據(jù)處理技術(shù)方面。根據(jù)處理需求的不同，存在多種不同的并行計(jì)算模型，包括以?Hadoop、Spark?為代表的批處理，以?Spark Streaming、Flink、STORM?為代表的高實(shí)時(shí)性的流處理，以?Apache Beam、Lambda?為代表的流批一體混合處理，以及以?GraphX、Apache Giraph?為代表的圖處理。同時(shí)，圖數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)處理的爆發(fā)性需求也推動(dòng)了圖流處理模式的融合。除此之外，計(jì)算硬件逐漸發(fā)展為多種計(jì)算單元（如?CPU、GPU、NPU?等）組成的異構(gòu)計(jì)算系統(tǒng)，新型硬件和軟件的多層次融合進(jìn)一步提升了大數(shù)據(jù)處理效率。大數(shù)據(jù)分析技術(shù)方面。分析需求逐漸從小規(guī)模、單源、單一模態(tài)數(shù)據(jù)的統(tǒng)計(jì)挖掘分析轉(zhuǎn)變?yōu)楹Ａ俊⒍嘣础⒍嗄B(tài)數(shù)據(jù)的復(fù)雜異質(zhì)關(guān)聯(lián)。深度學(xué)習(xí)技術(shù)的快速發(fā)展，推動(dòng)了大數(shù)據(jù)分析模型能力的提升。神經(jīng)網(wǎng)絡(luò)模型在?2012?年的計(jì)算機(jī)視覺的目標(biāo)識(shí)別項(xiàng)目?ImageNet?比賽奪冠后重回人們的視野，隨后誕生了一系列突破性的工作，包括知識(shí)圖譜提供知識(shí)服務(wù)、生成對(duì)抗網(wǎng)絡(luò)合成真實(shí)數(shù)據(jù)、AlphaGo?圍棋戰(zhàn)勝人類、GPT-3?預(yù)訓(xùn)練語言模型等。此外，日益成熟的深度學(xué)習(xí)框架（如?TensorFlow、PyTorch、飛槳等）也降低了使用深度學(xué)習(xí)分析大數(shù)據(jù)的門檻。

大數(shù)據(jù)應(yīng)用

近年來大數(shù)據(jù)分析處理技術(shù)飛速發(fā)展，催生了眾多大數(shù)據(jù)應(yīng)用，賦能了大量行業(yè)的智能化發(fā)展，一些標(biāo)志性的應(yīng)用從模式和能力上顛覆了傳統(tǒng)的信息技術(shù)能力。科學(xué)發(fā)現(xiàn)方面。DeepMind?公司的?Alpha-fold?可基于蛋白質(zhì)的基因序列數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)，進(jìn)而分析蛋白質(zhì)的屬性，幫助生物學(xué)取得了重大進(jìn)展。數(shù)字經(jīng)濟(jì)方面。電商平臺(tái)的興起，連接遍布全球各個(gè)角落的消費(fèi)者和供貨方，通過交易大數(shù)據(jù)的精準(zhǔn)分析，提高了交易效率，推動(dòng)了在線支付與數(shù)字貨幣的使用，顛覆了社會(huì)征信的模式；基于大數(shù)據(jù)進(jìn)行的金融風(fēng)險(xiǎn)研判、小微金融和普惠式金融等也促進(jìn)了數(shù)字經(jīng)濟(jì)的繁榮。社會(huì)安全方面。我國(guó)使用大數(shù)據(jù)方法輔助公共衛(wèi)生、金融等領(lǐng)域的社會(huì)治理與決策；美國(guó)嘗試研究大數(shù)據(jù)技術(shù)在解決社會(huì)不平等、城市政策制定方面的作用。生命健康方面。英國(guó)基于海量學(xué)術(shù)論文和臨床試驗(yàn)結(jié)果研發(fā)了治愈運(yùn)動(dòng)神經(jīng)衰退等多種藥物，以及近兩年各國(guó)大量使用的數(shù)字接觸追蹤技術(shù)，輔助預(yù)測(cè)了疫情傳播速度和趨勢(shì)，分別被列入《麻省理工科技評(píng)論》2020?年和?2021?年的“全球十大突破性技術(shù)”。國(guó)內(nèi)外大數(shù)據(jù)技術(shù)的應(yīng)用改變了諸多傳統(tǒng)行業(yè)中耗時(shí)耗力的工作方式，取得了智能高效的豐碩成果。

大數(shù)據(jù)生態(tài)建設(shè)

大數(shù)據(jù)分析處理的繁榮離不開大規(guī)模數(shù)據(jù)資源共享、技術(shù)架構(gòu)開放和算法模型開源所形成的技術(shù)生態(tài)發(fā)展。開源數(shù)據(jù)方面。開源數(shù)據(jù)支撐各類大數(shù)據(jù)技術(shù)的構(gòu)建。例如，2009?年美國(guó)斯坦福大學(xué)發(fā)布的視覺數(shù)據(jù)集?ImageNet、2015?年美國(guó)麻省理工學(xué)院發(fā)布的大規(guī)模醫(yī)療信息數(shù)據(jù)庫?MIMIC-Ⅲ、2020?年斯坦福大學(xué)發(fā)布的圖數(shù)據(jù)集?Open Graph Benchmark，都極大地影響了大數(shù)據(jù)技術(shù)的發(fā)展。開源軟件方面。Apache?軟件基金會(huì)基于?Hadoop?生態(tài)先后發(fā)布了一整套完善的分布式存儲(chǔ)與處理框架?Map-Reduce、線性代數(shù)計(jì)算框架?Mahout、機(jī)器學(xué)習(xí)庫?MLlib?等，旨在讓開發(fā)者快速實(shí)現(xiàn)和應(yīng)用大數(shù)據(jù)分析處理算法。2014?年以來，深度神經(jīng)網(wǎng)絡(luò)的開源框架，如?Caffe、Tensorflow、PyTorch?等，更是為從大數(shù)據(jù)中學(xué)習(xí)面向不同任務(wù)的智能模型提供了重要支持。開源模型方面。基于大規(guī)模數(shù)據(jù)學(xué)習(xí)的?BERT、GPT3?等預(yù)訓(xùn)練語言模型，大幅降低了相關(guān)技術(shù)的應(yīng)用成本，拓寬了下游應(yīng)用場(chǎng)景。此外，如何保障數(shù)據(jù)安全和個(gè)人隱私，最近也得到了各國(guó)政府和組織的高度重視。因此，兼顧技術(shù)發(fā)展和數(shù)據(jù)安全，平衡效率和風(fēng)險(xiǎn)，建立良好的大數(shù)據(jù)生態(tài)環(huán)境，仍需要進(jìn)一步探索。

新一代大數(shù)據(jù)分析處理需求

當(dāng)前針對(duì)大規(guī)模異質(zhì)化數(shù)據(jù)集合，主流的大數(shù)據(jù)分析處理方法是在通用模型框架下不斷嘗試超大規(guī)模的模型參數(shù)，實(shí)現(xiàn)“端到端”的分析推斷。在這種模式下，大數(shù)據(jù)分析處理能力很大程度依賴于算力平臺(tái)和數(shù)據(jù)資源的支持。在實(shí)際應(yīng)用中，這些大數(shù)據(jù)分析處理技術(shù)面臨著真實(shí)場(chǎng)景和關(guān)鍵領(lǐng)域中數(shù)據(jù)泛濫與缺失并存、大數(shù)據(jù)分析研判的復(fù)雜不確定性、數(shù)據(jù)安全監(jiān)管缺失等挑戰(zhàn)，最終使得分析處理存在過程可解釋性差、模型泛化能力弱、因果規(guī)律不清晰、研判結(jié)果不可信、數(shù)據(jù)價(jià)值利用率低等問題。為解決這些挑戰(zhàn)性問題，我們需要重新思考大數(shù)據(jù)處理架構(gòu)與分析模式，新一代的大數(shù)據(jù)分析處理技術(shù)體系應(yīng)該在各種實(shí)時(shí)場(chǎng)景下實(shí)現(xiàn)高價(jià)值知識(shí)生成、持續(xù)在線的瞬時(shí)決策、安全可信的推理研判，以及適用于未來各種有人-無人結(jié)合的在線系統(tǒng)行動(dòng)優(yōu)化。本文認(rèn)為，新一代大數(shù)據(jù)分析處理至少需要滿足如下?4?個(gè)方面的需求。

人在回路的計(jì)算范式。為解決現(xiàn)有大數(shù)據(jù)分析處理方法難以攻克的高階復(fù)雜問題，需要在其中引入人的智能與決策，強(qiáng)調(diào)人、機(jī)器及數(shù)據(jù)之間的有機(jī)交互。不同于原來的人機(jī)交互，即機(jī)器按照人的指令，或人聽機(jī)器的輸出結(jié)果，而是更關(guān)注人腦和機(jī)器思維的深度融合計(jì)算。

廣譜關(guān)聯(lián)的分析模式。為解決大數(shù)據(jù)價(jià)值密度低、極稀疏、不均勻、關(guān)鍵信息缺失的問題，一方面，融合各個(gè)對(duì)象在“人機(jī)物”融合的多域多維數(shù)據(jù)空間中留下的多元異構(gòu)信號(hào)，利用關(guān)聯(lián)增強(qiáng)信號(hào)；另一方面，融合數(shù)據(jù)與知識(shí)，構(gòu)建終生學(xué)習(xí)、可遷移擴(kuò)展的知識(shí)體系，形成數(shù)據(jù)驅(qū)動(dòng)與知識(shí)制導(dǎo)深度融合的新分析模式。

在線增強(qiáng)的處理架構(gòu)。隨著萬物互聯(lián)和智能泛在發(fā)展，大數(shù)據(jù)云邊端協(xié)同計(jì)算技術(shù)和解耦化的云邊端處理框架成為熱點(diǎn)。基于云計(jì)算環(huán)境下的流批混合處理將進(jìn)一步向邊緣端發(fā)展，訓(xùn)練學(xué)習(xí)與推理預(yù)測(cè)將在前端設(shè)備上融合一體。利用云邊端資源彈性調(diào)度能力，實(shí)現(xiàn)感知與認(rèn)知能力前置，支持在線環(huán)境下基于動(dòng)態(tài)活性數(shù)據(jù)的瞬時(shí)決策，從而形成去中心化、異構(gòu)分布、持續(xù)在線的新型計(jì)算框架。

安全可信的大數(shù)據(jù)分析。安全可信是滿足關(guān)鍵領(lǐng)域和場(chǎng)景下認(rèn)知和決策安全的基本需求。一方面，著重關(guān)注大數(shù)據(jù)分析處理結(jié)果的可解釋、可信和公平性；另一方面，實(shí)現(xiàn)數(shù)據(jù)在收集、存儲(chǔ)、使用、流通中的安全保護(hù)和異常檢測(cè)，保證在強(qiáng)對(duì)抗攻擊下分析處理模型與方法的魯棒性和免疫性。

新一代大數(shù)據(jù)分析處理軟件棧

在高效的大數(shù)據(jù)價(jià)值提取、安全可信的分析處理目標(biāo)下，針對(duì)以上?4?個(gè)大數(shù)據(jù)分析處理的重要需求，未來急需建立自立自強(qiáng)的大數(shù)據(jù)分析處理技術(shù)新體系，發(fā)展新一代大數(shù)據(jù)分析處理軟件棧（圖?1），從底層數(shù)據(jù)操作系統(tǒng)、通用分析處理中間件、業(yè)務(wù)驅(qū)動(dòng)的計(jì)算環(huán)境及框架?3?個(gè)方面進(jìn)行研究。

全棧式的大數(shù)據(jù)系統(tǒng)軟件

發(fā)展并涵蓋數(shù)據(jù)接入、流式處理、圖計(jì)算、訓(xùn)推一體等多個(gè)方面的大數(shù)據(jù)系統(tǒng)軟件。

數(shù)據(jù)接入方面。針對(duì)當(dāng)前數(shù)據(jù)采集流程中數(shù)據(jù)來源繁多、數(shù)據(jù)類型混合及異質(zhì)數(shù)據(jù)存儲(chǔ)效率低下的難題，研究“人機(jī)物”融合的數(shù)據(jù)匯聚與融合方法，支持對(duì)多種數(shù)據(jù)源的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的采集與融合，探索高效的存儲(chǔ)算法，提高底層存儲(chǔ)空間利用效率，支持對(duì)數(shù)據(jù)的高效壓縮與還原，實(shí)現(xiàn)對(duì)“人機(jī)物”三元數(shù)據(jù)空間中的多源異構(gòu)數(shù)據(jù)進(jìn)行高效感知、采集、融合與存儲(chǔ)，為系統(tǒng)提供高質(zhì)量的數(shù)據(jù)流接入。

流式處理方面。現(xiàn)有大數(shù)據(jù)處理框架中存在計(jì)算模式單一的問題，即單獨(dú)追求大批量或強(qiáng)時(shí)效。針對(duì)這一問題，將研究多計(jì)算模式融合的流式處理框架，支持批處理、流處理、圖處理等多種計(jì)算模式，實(shí)現(xiàn)低延時(shí)、大流量、強(qiáng)時(shí)效的數(shù)據(jù)處理，以應(yīng)對(duì)不斷接入的高速數(shù)據(jù)流。

關(guān)聯(lián)數(shù)據(jù)的計(jì)算方面。現(xiàn)有計(jì)算框架難以適應(yīng)圖結(jié)構(gòu)數(shù)據(jù)的強(qiáng)數(shù)據(jù)依賴性、高隨機(jī)訪存與非均勻冪律分布特性。針對(duì)這一問題，研究針對(duì)圖結(jié)構(gòu)和網(wǎng)絡(luò)大數(shù)據(jù)的計(jì)算引擎，提出大規(guī)模圖數(shù)據(jù)的新型分布式計(jì)算框架和并行計(jì)算機(jī)制，定制大規(guī)模圖數(shù)據(jù)的查詢語言標(biāo)準(zhǔn)與規(guī)范，實(shí)現(xiàn)圖查詢與圖分析語言的標(biāo)準(zhǔn)化。

訓(xùn)練推理方面。現(xiàn)有云端大數(shù)據(jù)處理架構(gòu)難以滿足大規(guī)模服務(wù)的實(shí)時(shí)性與計(jì)算資源需求。針對(duì)這一問題，研究云邊端協(xié)同的訓(xùn)推一體框架，將大數(shù)據(jù)分析處理中的訓(xùn)練與推斷流程從云端推向邊緣，支持訓(xùn)推一體，在數(shù)據(jù)生成的邊端提供服務(wù)和執(zhí)行計(jì)算，實(shí)現(xiàn)“認(rèn)知前置”和終生學(xué)習(xí)，以提供分布式、低延遲、持續(xù)在線的智能服務(wù)和瞬時(shí)決策。

重構(gòu)大數(shù)據(jù)分析處理流程

從預(yù)處理、數(shù)據(jù)表征、語義分析與知識(shí)推理、決策研判到可視化的全技術(shù)鏈上升級(jí)創(chuàng)新。

數(shù)據(jù)質(zhì)量處理與簡(jiǎn)約計(jì)算方面。針對(duì)數(shù)據(jù)質(zhì)量處理，可發(fā)展利用群智技術(shù)挖掘高質(zhì)量數(shù)據(jù)，以低成本、高效率的方式實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的采集處理；針對(duì)簡(jiǎn)約計(jì)算方面，可研究基于數(shù)據(jù)復(fù)雜度的近似計(jì)算理論和優(yōu)化算法框架，以此指導(dǎo)人們尋找面向計(jì)算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法，構(gòu)建具有高效計(jì)算能力的模型。

大數(shù)據(jù)高階表征與建模方面。探索基于無監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)表征學(xué)習(xí)的理論與方法，從大規(guī)模未標(biāo)注的語料數(shù)據(jù)中抽取高層次語義抽象的數(shù)據(jù)表征，提高語義表征的泛化能力；研究基于小樣本數(shù)據(jù)的預(yù)訓(xùn)練—微調(diào)模型，在大規(guī)模無監(jiān)督語料訓(xùn)練得到的數(shù)據(jù)表征基礎(chǔ)上，構(gòu)建輔助上層任務(wù)的通用高質(zhì)量數(shù)據(jù)表征；探索基于領(lǐng)域知識(shí)的預(yù)訓(xùn)練數(shù)據(jù)建模理論與方法，將人類知識(shí)融合到預(yù)訓(xùn)練模型中，提升預(yù)訓(xùn)練模型的學(xué)習(xí)效率等。同時(shí)，為應(yīng)對(duì)數(shù)據(jù)多源異構(gòu)造成的知識(shí)隔閡，有必要進(jìn)一步發(fā)展跨模態(tài)數(shù)據(jù)表征和建模、多源知識(shí)融合技術(shù)，以實(shí)現(xiàn)全域知識(shí)聯(lián)合和利用。

大數(shù)據(jù)驅(qū)動(dòng)的語義分析與知識(shí)推理方面。研究面向細(xì)粒度語義單元的大數(shù)據(jù)語義融合方法，顯著提高多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)融合的效果；研究樣本稀疏環(huán)境下的領(lǐng)域知識(shí)獲取、大規(guī)模常識(shí)獲取與理解、知識(shí)獲取中的人機(jī)協(xié)作機(jī)制與方法，提升知識(shí)獲取的能力，大幅提高知識(shí)庫的規(guī)模；研究基于知識(shí)圖譜的可解釋分析方法、數(shù)據(jù)驅(qū)動(dòng)與知識(shí)引導(dǎo)深度融合的新型語義分析方法，顯著提升知識(shí)驅(qū)動(dòng)下各類模型的效果和可解釋性。

人機(jī)結(jié)合的增量決策研判方面。未來大量物理設(shè)備、無人設(shè)備、人腦，通過泛在網(wǎng)絡(luò)實(shí)現(xiàn)“上線”和“互聯(lián)”，為人的參與提供了基本的物質(zhì)條件。人作為具備智能的自然系統(tǒng)，如何參與到機(jī)器智能的系統(tǒng)回路中是一個(gè)關(guān)鍵問題。未來應(yīng)重點(diǎn)解決思維融合或決策融合的問題，探索人腦數(shù)據(jù)及機(jī)器智能系統(tǒng)信息可相互轉(zhuǎn)換的新型數(shù)據(jù)科學(xué)理論，并設(shè)計(jì)高效能的計(jì)算方法。當(dāng)下的算法模型不會(huì)隨著數(shù)據(jù)的生成而持續(xù)學(xué)習(xí)，即無法應(yīng)對(duì)連續(xù)和意外變化的環(huán)境，特別是在任務(wù)關(guān)鍵型應(yīng)用程序中更需謹(jǐn)慎。因此，研究持續(xù)學(xué)習(xí)、在線學(xué)習(xí)等技術(shù)，實(shí)現(xiàn)算法模型持續(xù)在線瞬時(shí)決策十分必要。

探索式可視化分析方面。研究新型的跨主體（人、機(jī)、物）可視交互理論，構(gòu)建多人協(xié)同的混合主動(dòng)式可視分析范式，支持多人同時(shí)對(duì)相同或不同的可視化視圖進(jìn)行多角度的探索，設(shè)計(jì)相應(yīng)的可視表達(dá)與交互形式；研究圍繞大數(shù)據(jù)可視化的認(rèn)知計(jì)算與聚合理解模型、方法與核心技術(shù)，構(gòu)建人機(jī)協(xié)同智能及其驅(qū)動(dòng)的大數(shù)據(jù)可視內(nèi)容與屬性的自動(dòng)理解關(guān)鍵技術(shù)；提升圍繞大數(shù)據(jù)可視化的計(jì)算機(jī)自動(dòng)理解、表示與生成能力等，構(gòu)建大數(shù)據(jù)可視計(jì)算與交互技術(shù)體系。

建立任務(wù)驅(qū)動(dòng)的大數(shù)據(jù)計(jì)算環(huán)境

從可組合的模塊化編程框架、可伸縮的大數(shù)據(jù)分析處理框架、任務(wù)感知的知識(shí)重構(gòu)模型裁剪這?3?個(gè)方面發(fā)力，為各行各業(yè)提供場(chǎng)景感知、共識(shí)感知的更優(yōu)質(zhì)和更靈活的分析處理環(huán)境。

可組合的模塊化編程框架方面。未來可發(fā)展面向多業(yè)務(wù)可擴(kuò)展、可重構(gòu)的敏捷開發(fā)框架，構(gòu)建多形態(tài)分析模式庫和智能業(yè)務(wù)編程框架，突破多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)分析和全息展示，實(shí)現(xiàn)對(duì)數(shù)據(jù)、算法、模型的高層次抽象，形成支撐面向任務(wù)場(chǎng)景的智能組合分析算子庫，實(shí)現(xiàn)智能算法的內(nèi)生性支持，賦能人機(jī)混合的交互式協(xié)同分析。

可伸縮的大數(shù)據(jù)分析處理框架方面。未來可發(fā)展支持彈性計(jì)算、可伸縮模型、可彈性配置的處理框架，即根據(jù)實(shí)際應(yīng)用的任務(wù)場(chǎng)景與計(jì)算資源的需求等方面劃分各種任務(wù)，滿足特定需求、精度需求、延時(shí)需求、實(shí)時(shí)性需求等；同時(shí)，構(gòu)建可伸縮的大數(shù)據(jù)分析處理框架，能夠靈活配置計(jì)算資源和數(shù)據(jù)規(guī)模，以實(shí)現(xiàn)彈性適配。

任務(wù)感知的知識(shí)重構(gòu)和模型裁剪方面。未來可發(fā)展面向任務(wù)的高級(jí)知識(shí)計(jì)算語言和模型裁剪技術(shù)，基于通用知識(shí)圖譜實(shí)現(xiàn)面向特定領(lǐng)域任務(wù)的知識(shí)重構(gòu)，建立起常識(shí)與領(lǐng)域知識(shí)融合的知識(shí)計(jì)算引擎，顯著提升知識(shí)管理和利用的能力與效率。

推動(dòng)新一代大數(shù)據(jù)分析處理技術(shù)發(fā)展建議

建立理論基礎(chǔ)。大數(shù)據(jù)分析處理技術(shù)新體系的建立，離不開基礎(chǔ)理論的突破。建立數(shù)據(jù)復(fù)雜性和大數(shù)據(jù)可計(jì)算性理論。回歸數(shù)據(jù)本原，探索數(shù)據(jù)在分布規(guī)律、結(jié)構(gòu)規(guī)則和時(shí)空尺度方面的規(guī)律性，以此設(shè)計(jì)高效能的計(jì)算方法。探索異質(zhì)廣譜關(guān)聯(lián)的大數(shù)據(jù)分析理論。將各類目標(biāo)在“人機(jī)物”融合的多維數(shù)據(jù)空間留下的微弱信號(hào)進(jìn)行關(guān)聯(lián)放大，研究廣域開環(huán)、非統(tǒng)一量綱環(huán)境下瞬時(shí)決策推斷方法的收斂性理論。研究大數(shù)據(jù)分析處理的安全可信理論。一方面，研究數(shù)據(jù)的安全共享和隱私計(jì)算理論，保障數(shù)據(jù)流通共享過程中的安全性；另一方面，研究數(shù)據(jù)的固有偏差性和數(shù)據(jù)遭受攻擊時(shí)的分析處理的魯棒性極限和可驗(yàn)證理論，建立可防范、可審計(jì)、可追責(zé)的機(jī)制，保證強(qiáng)對(duì)抗環(huán)境下分析處理結(jié)果的可信。

加大應(yīng)用牽引。新大數(shù)據(jù)分析處理技術(shù)體系應(yīng)能全面高效賦能行業(yè)、產(chǎn)業(yè)、安全領(lǐng)域。同時(shí)，還需要利用科學(xué)發(fā)現(xiàn)、生命健康、社會(huì)治理等牽引性應(yīng)用場(chǎng)景來推動(dòng)大數(shù)據(jù)分析處理新體系的健康、良性發(fā)展。科學(xué)發(fā)現(xiàn)方面。研究借助大數(shù)據(jù)分析技術(shù)從大量實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律，形成基于大數(shù)據(jù)分析的新型科學(xué)研究方法論。生命健康方面。研究大數(shù)據(jù)方法用于輔助復(fù)雜化合物分子的發(fā)現(xiàn)，降低新型藥物的研發(fā)成本，加快提升綜合醫(yī)療水平，利用大數(shù)據(jù)手段應(yīng)對(duì)重大疫情和事件的高效用、持續(xù)在線決策。社會(huì)治理方面。充分發(fā)揮大數(shù)據(jù)技術(shù)在多方復(fù)雜關(guān)聯(lián)問題、社會(huì)群體認(rèn)知建模分析中的優(yōu)勢(shì)，構(gòu)建人工輔助智能決策系統(tǒng)，實(shí)現(xiàn)政府決策科學(xué)化、社會(huì)治理精準(zhǔn)化、公共服務(wù)高效化。

數(shù)據(jù)治理生態(tài)環(huán)境。大數(shù)據(jù)技術(shù)的應(yīng)用與發(fā)展離不開良性的數(shù)據(jù)治理和技術(shù)生態(tài)建設(shè)。個(gè)人隱私保護(hù)。需要相應(yīng)的法律法規(guī)加以規(guī)范。例如，歐盟2016年出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》，幫助公民控制個(gè)人隱私數(shù)據(jù)；我國(guó)于?2021?年發(fā)布了《中華人民共和國(guó)數(shù)據(jù)安全法》和《中華人民共和國(guó)個(gè)人信息保護(hù)法》，對(duì)大數(shù)據(jù)的采集與使用給予合理的管控和監(jiān)督。保證數(shù)據(jù)的安全流通共享。需要建立數(shù)據(jù)流通交易規(guī)則規(guī)范，優(yōu)化數(shù)據(jù)共享、交易、流通相關(guān)的制度，明確數(shù)據(jù)權(quán)屬分配，探索數(shù)據(jù)交易市場(chǎng)，構(gòu)建有序的數(shù)據(jù)流通環(huán)境。

綜上所述，未來應(yīng)發(fā)展突破通用模型架構(gòu)、分析模式和計(jì)算范式，建立新架構(gòu)、新模式、新范式，以及安全可信的大數(shù)據(jù)分析處理技術(shù)新體系；構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧；研究和發(fā)展相應(yīng)的理論，踐行牽引性應(yīng)用；建立良性的數(shù)據(jù)治理生態(tài)，推動(dòng)大數(shù)據(jù)分析處理技術(shù)的持續(xù)進(jìn)步和跨越式發(fā)展。

（作者：程學(xué)旗、劉盛華、張儒清，中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院；《中國(guó)科學(xué)院院刊》供稿）

911国产在线专区,国产精品亚洲片在线va,亚洲欧美国产天堂,按摩喷潮在线播放无码,国产口爆吞精视频网站,比较有韵味的熟妇无码

大數(shù)據(jù)分析處理技術(shù)新體系的思考

相關(guān)文章