(電子商務(wù)研究中心訊) 1引言
數(shù)據(jù)資源開發(fā)利用的目的是實(shí)現(xiàn)大數(shù)據(jù)價(jià)值。大數(shù)據(jù)是指為決策問題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱[1];大數(shù)據(jù)問題是指不能用當(dāng)前技術(shù)在決策希望的時(shí)間內(nèi)處理分析的數(shù)據(jù)資源開發(fā)利用問題[1]。就當(dāng)下而言,現(xiàn)有技術(shù)難以處理PB級別以上的數(shù)據(jù)。PB級別的數(shù)據(jù)規(guī)模已經(jīng)超過了大部分企業(yè)和機(jī)構(gòu)自身積累的業(yè)務(wù)數(shù)據(jù)規(guī)模,這說明PB級別數(shù)據(jù)規(guī)模的應(yīng)用涉及了企業(yè)和機(jī)構(gòu)外部的數(shù)據(jù),這是質(zhì)的轉(zhuǎn)變。在PB級別數(shù)據(jù)規(guī)模下,企業(yè)和機(jī)構(gòu)可以用歷史數(shù)據(jù)、跨界數(shù)據(jù)等足夠多的數(shù)據(jù)來做決策。這將對科學(xué)研究、政府治理、民生改善、產(chǎn)業(yè)發(fā)展發(fā)揮革命性的作用。PB級別數(shù)據(jù)規(guī)模帶來的技術(shù)挑戰(zhàn)也是非常明顯的,即“大數(shù)據(jù)問題”。從技術(shù)角度看,PB級別的數(shù)據(jù)量給計(jì)算機(jī)的硬件和軟件都帶來了挑戰(zhàn):機(jī)械硬盤、盤陣、體系結(jié)構(gòu)、計(jì)算框架、數(shù)據(jù)移動、多地計(jì)算/異地計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)分析等。隨著計(jì)算技術(shù)的進(jìn)步,這些技術(shù)問題是否就會得到解決?回答是否定的。摩爾定律(Moore’s Law)不能解決大數(shù)據(jù)問題,摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來的[2]。其內(nèi)容為:當(dāng)價(jià)格不變時(shí),集成電路上可容納的元器件的數(shù)目,每隔18~24個(gè)月便會增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18~24個(gè)月翻一倍以上。這一定律揭示了信息技術(shù)進(jìn)步的速度。自從PC時(shí)代以來,每次技術(shù)進(jìn)步生產(chǎn)的計(jì)算機(jī)以億萬臺計(jì),每臺計(jì)算機(jī)都在生產(chǎn)數(shù)據(jù)?,F(xiàn)在想將很多臺計(jì)算機(jī)生產(chǎn)的數(shù)據(jù)集中起來處理和分析,顯然是現(xiàn)有技術(shù)不能實(shí)現(xiàn)的。這就是大數(shù)據(jù)問題產(chǎn)生的根源。大數(shù)據(jù)問題的關(guān)鍵技術(shù)挑戰(zhàn)在于:找到隱含在低價(jià)值密度數(shù)據(jù)資源中的價(jià)值;在希望的時(shí)間內(nèi)完成所有的任務(wù)。前者需要領(lǐng)域業(yè)務(wù)知識和數(shù)據(jù)技術(shù)相結(jié)合,這種結(jié)合的理論和新型算法構(gòu)成了大數(shù)據(jù)的分析基礎(chǔ)和應(yīng)用基礎(chǔ);后者需要設(shè)計(jì)新的計(jì)算機(jī)、集群體系、計(jì)算框架、存儲體系和數(shù)據(jù)管理方法,這些構(gòu)成了大數(shù)據(jù)的計(jì)算基礎(chǔ)和數(shù)據(jù)基礎(chǔ)。另外,這兩個(gè)挑戰(zhàn)都涉及了一些抽象的數(shù)學(xué)理論,這是大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)。面對大數(shù)據(jù)問題的挑戰(zhàn),需要研究如何發(fā)展大數(shù)據(jù),如何從實(shí)踐總結(jié)經(jīng)驗(yàn),抓住核心問題重點(diǎn)突破,實(shí)現(xiàn)原始創(chuàng)新,從基礎(chǔ)做起,掌握核心技術(shù),探索大數(shù)據(jù)的基礎(chǔ)理論,為解決大數(shù)據(jù)如何用、如何管、如何算等關(guān)鍵問題提供理論指導(dǎo)。
2大數(shù)據(jù)的基礎(chǔ)
信息化和大數(shù)據(jù)二者的關(guān)系是“不混淆、不沖突”。
●不混淆是指信息化和大數(shù)據(jù)是不同的,不能混為一談,信息化是生產(chǎn)數(shù)據(jù)的,大數(shù)據(jù)是開發(fā)數(shù)據(jù)的。從技術(shù)角度來看,信息化是技術(shù)進(jìn)步促進(jìn)數(shù)據(jù)增長;大數(shù)據(jù)是數(shù)據(jù)增長促進(jìn)技術(shù)進(jìn)步。
●不沖突是指大數(shù)據(jù)不取代信息化,信息化不包含大數(shù)據(jù)。這樣,信息化工作照樣做,并且信息化仍然將快速發(fā)展。但大數(shù)據(jù)已經(jīng)從信息化工作中獨(dú)立出來,如果說信息化對應(yīng)的技術(shù)叫信息技術(shù)(information technology,IT),那么大數(shù)據(jù)對應(yīng)的技術(shù)可以叫數(shù)據(jù)技術(shù)(data technology,DT)。
核心點(diǎn)是數(shù)據(jù)增長促進(jìn)技術(shù)進(jìn)步。例如,當(dāng)前10 PB規(guī)模的數(shù)據(jù)無論是從上海到北京,或者是從一個(gè)數(shù)據(jù)中心到另外一個(gè)數(shù)據(jù)中心,甚至從一個(gè)存儲集群到另一個(gè)存儲集群,都是困難的、難以忍受的。既然數(shù)據(jù)大到難以移動,那么如何集成多個(gè)數(shù)據(jù)資源進(jìn)行計(jì)算,如何設(shè)計(jì)數(shù)據(jù)不移動、軟件移動的計(jì)算模型,實(shí)現(xiàn)多地計(jì)算、異地計(jì)算。又如,如何開發(fā)利用數(shù)據(jù)資源,如何確保數(shù)據(jù)安全和數(shù)據(jù)主權(quán),這些都是數(shù)據(jù)量增長對技術(shù)進(jìn)步的要求。
信息化的技術(shù)和大數(shù)據(jù)的技術(shù)是不同的,參考文獻(xiàn)[1]給出了二者技術(shù)的對比。這樣,信息化的基礎(chǔ)研究和大數(shù)據(jù)的基礎(chǔ)研究也是不一樣的。大數(shù)據(jù)的基礎(chǔ)包括:應(yīng)用基礎(chǔ)、分析基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)5個(gè)方面。
大數(shù)據(jù)的應(yīng)用基礎(chǔ)包括各學(xué)科、各領(lǐng)域的基于數(shù)據(jù)的新方法、新范式、新理論等,用于支撐基于大數(shù)據(jù)的科學(xué)研究方法、社會發(fā)展方式、經(jīng)濟(jì)建設(shè)模式和國防安全手段。大數(shù)據(jù)的應(yīng)用基礎(chǔ)是建立在大數(shù)據(jù)技術(shù)、產(chǎn)品、工具和解決方案之上的,而這些產(chǎn)品和工具的開發(fā)需要大數(shù)據(jù)的分析基礎(chǔ)。大數(shù)據(jù)的分析基礎(chǔ)包括大數(shù)據(jù)分析理論與框架、大數(shù)據(jù)分析方法和算法、業(yè)務(wù)驅(qū)動的分析理論和方法等,大數(shù)據(jù)分析方法和算法的實(shí)現(xiàn)和實(shí)施需要大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)。大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)包括大數(shù)據(jù)的治理和管理、存儲理論和模型、可視化等;大數(shù)據(jù)的計(jì)算基礎(chǔ)包括多地計(jì)算/異地計(jì)算、計(jì)算框架、硬件設(shè)備、網(wǎng)絡(luò)設(shè)備等;大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)包括數(shù)據(jù)的數(shù)學(xué)結(jié)構(gòu)、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性等。圖1給出了大數(shù)據(jù)基礎(chǔ)的邏輯關(guān)系。

圖1大數(shù)據(jù)基礎(chǔ)邏輯關(guān)系
自2012年起,國家自然科學(xué)基金委員會對大數(shù)據(jù)研究開始立項(xiàng),總體資助情況分布如圖2所示。

圖2 2012—2016年國家自然科學(xué)基金資助的以“大數(shù)據(jù)”為主題詞的項(xiàng)目數(shù)
從圖2可以看出,在這5年期間,大數(shù)據(jù)相關(guān)項(xiàng)目資助數(shù)持續(xù)增長,尤其是在2014年,相對于2013年有較大幅度的增長。2012年,大數(shù)據(jù)概念剛剛興起,國家自然科學(xué)基金項(xiàng)目申請時(shí)間點(diǎn)已過,所以2012年幾乎沒有什么項(xiàng)目。2013年,各學(xué)部開始支持大數(shù)據(jù)項(xiàng)目,全社會掀起大數(shù)據(jù)熱,各行各業(yè)都在討論大數(shù)據(jù)。于是,到2014年,大數(shù)據(jù)項(xiàng)目大幅度增長,主要是應(yīng)用基礎(chǔ)的研究項(xiàng)目大幅度增長,幾乎每個(gè)學(xué)部都支持了大數(shù)據(jù)的研究項(xiàng)目(如圖3所示)。受資助的大數(shù)據(jù)相關(guān)項(xiàng)目在應(yīng)用基礎(chǔ)、分析基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)各方面的項(xiàng)目資助占比情況如圖4所示??傮w來看,科研項(xiàng)目關(guān)注最多的是對各個(gè)領(lǐng)域大數(shù)據(jù)應(yīng)用問題的研究(應(yīng)用基礎(chǔ)占62%),其次主要集中在大數(shù)據(jù)挖掘方法研究(即分析基礎(chǔ)占18%),其他依次為:數(shù)據(jù)基礎(chǔ)(占11%)、計(jì)算基礎(chǔ)(占7%)和數(shù)學(xué)基礎(chǔ)(占2%)。

圖3 2012—2016年國家自然科學(xué)基金委員會各學(xué)部資助項(xiàng)目數(shù)分布

圖4 2012—2016年在五大基礎(chǔ)方面的項(xiàng)目數(shù)總占比
從2012—2016年每年的占比情況來看(如圖5所示),應(yīng)用基礎(chǔ)有明顯的上升趨勢;分析基礎(chǔ)在2013年有明顯的上升,隨后占比較為平穩(wěn);數(shù)據(jù)基礎(chǔ)歷年占比都較為平穩(wěn),且所占比重也并不大;計(jì)算基礎(chǔ)所占比例呈現(xiàn)出逐年下降的趨勢(2016年稍有回升);數(shù)學(xué)基礎(chǔ)被關(guān)注的比例歷年很低,并維持穩(wěn)定(低比例)。

圖5 2012—2016年在五大基礎(chǔ)方面的項(xiàng)目數(shù)年度占比
從圖5可以看出,在2012年大數(shù)據(jù)發(fā)展初期,計(jì)算框架和計(jì)算能力是推動大數(shù)據(jù)發(fā)展最急需的基礎(chǔ),而之后隨著開源計(jì)算框架的出現(xiàn),計(jì)算基礎(chǔ)的比例又開始下降。然而,2016年,數(shù)據(jù)開放共享成為趨勢和重點(diǎn),數(shù)據(jù)遷移、異地交換的需求又促進(jìn)研究者探索新的計(jì)算框架。并且,分析基礎(chǔ)在2013年的突增也說明當(dāng)時(shí)對大數(shù)據(jù)方法需求的增長,隨后相對穩(wěn)定。在計(jì)算基礎(chǔ)下降的過程中,應(yīng)用基礎(chǔ)占比逐漸上升,這說明越來越多的領(lǐng)域參與到大數(shù)據(jù)的研究中來。
圖6為2012—2016年國家自然科學(xué)基金項(xiàng)目在五大基礎(chǔ)方面的項(xiàng)目數(shù)的變化情況。可以看出,大數(shù)據(jù)研究過程中數(shù)學(xué)基礎(chǔ)方面還需要更多的研究者參與和關(guān)注。在應(yīng)用基礎(chǔ)研究方面目前已經(jīng)涉及眾多領(lǐng)域,應(yīng)該總結(jié)共性技術(shù)和理論,減少重復(fù)研究。數(shù)據(jù)的資源性迫切需要開放共享,數(shù)據(jù)基礎(chǔ)的新問題、新技術(shù)、新理論的研究應(yīng)該建立起來。

圖6 2012—2016年在五大基礎(chǔ)方面的項(xiàng)目數(shù)年度變化情況
3大數(shù)據(jù)的應(yīng)用基礎(chǔ)
大數(shù)據(jù)的應(yīng)用滲透到越來越多的領(lǐng)域,各領(lǐng)域大數(shù)據(jù)理論和方法的研究將為創(chuàng)新大數(shù)據(jù)應(yīng)用、提升大數(shù)據(jù)價(jià)值奠定基礎(chǔ),創(chuàng)造出基于大數(shù)據(jù)的新型科學(xué)研究、管理決策、社會發(fā)展、經(jīng)濟(jì)建設(shè)方法和模式等。大數(shù)據(jù)的應(yīng)用基礎(chǔ)主要表現(xiàn)在各個(gè)學(xué)科基于大數(shù)據(jù)的創(chuàng)新,以科學(xué)研究的第四范式為代表[3],包括對人文社會科學(xué)的研究、管理決策新方法、外部事件驅(qū)動的管理決策方法、基于微觀數(shù)據(jù)的宏觀經(jīng)濟(jì)學(xué)等。
GRAY J指出[3]:幾千年前,科學(xué)研究是用實(shí)驗(yàn)解釋自然現(xiàn)象的;幾百年前,科學(xué)研究用理論模型探索科學(xué)規(guī)律,用實(shí)驗(yàn)驗(yàn)證理論;幾十年前,科學(xué)研究用計(jì)算機(jī)模擬復(fù)雜現(xiàn)象,探索其中的奧秘;現(xiàn)在,科學(xué)研究是基于對數(shù)據(jù)的探索。科學(xué)的目的是認(rèn)識宇宙、認(rèn)識物質(zhì)、認(rèn)識生命、認(rèn)識社會。
●在認(rèn)識宇宙方面:人們用了很多方法,早期科學(xué)家用肉眼觀測天空,后來用望遠(yuǎn)鏡,現(xiàn)在用射電望遠(yuǎn)鏡。這些望遠(yuǎn)鏡得到的結(jié)果是各種各樣的宇宙圖像,天文學(xué)家通過分析這些圖像來研究宇宙。
●在認(rèn)識物質(zhì)方面:人類還在研究物質(zhì)的構(gòu)成,為此于2008年建成并運(yùn)行了歐洲強(qiáng)子對撞機(jī)裝置。每一次正負(fù)電子的對撞,都產(chǎn)生了巨量的數(shù)據(jù)??茖W(xué)家們經(jīng)過不懈的努力,用了150個(gè)計(jì)算站點(diǎn)對200 PB數(shù)據(jù)用了3年時(shí)間分析,繼而科學(xué)家發(fā)現(xiàn)上帝粒子[4]。
●在認(rèn)識生命方面:自從DNA被發(fā)現(xiàn),人類對生命的認(rèn)識進(jìn)入了全新的階段,人類似乎找到生命的本質(zhì)、遺傳的本質(zhì)。DNA可以用A(腺嘌呤)、C(胞嘧啶)、G(鳥嘌呤)、T(胸腺嘧啶)4個(gè)字母的字符串表示,于是DNA變成了可以用計(jì)算機(jī)計(jì)算的數(shù)據(jù),生命科學(xué)研究就出現(xiàn)計(jì)算生物學(xué)的分支,并且迅速發(fā)展。生命科學(xué)家開始分析數(shù)據(jù),或者通過分析數(shù)據(jù)來研究生命。
●在認(rèn)識社會方面:信息化極大地推動了社會的發(fā)展和進(jìn)步,社會的抽樣調(diào)查、問卷之類的研究方法將被淘汰,國家統(tǒng)計(jì)局已經(jīng)和百度、阿里巴巴等數(shù)十家互聯(lián)網(wǎng)公司合作進(jìn)行數(shù)據(jù)收集和統(tǒng)計(jì)工作,共同推進(jìn)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用,不斷增強(qiáng)政府統(tǒng)計(jì)的科學(xué)性和及時(shí)性。
從上述分析可知,不論是自然科學(xué)還是社會科學(xué),先進(jìn)的研究方法是在數(shù)據(jù)上開展研究,這也說明,認(rèn)識數(shù)據(jù)先于認(rèn)識宇宙、認(rèn)識物質(zhì)、認(rèn)識生命和認(rèn)識社會。
大數(shù)據(jù)應(yīng)用基礎(chǔ)的主要研究方向如下。
●各學(xué)科基于大數(shù)據(jù)的新方法、新范式、新理論等,包括生命科學(xué)、物理、化學(xué)、天文、歷史、社會、管理、經(jīng)濟(jì)等學(xué)科的大數(shù)據(jù)方法和模型研究與探索。
●各領(lǐng)域基于數(shù)據(jù)的新方法、新范式、新理論等,包括醫(yī)療、金融、交通、環(huán)保、商業(yè)等領(lǐng)域的大數(shù)據(jù)創(chuàng)新模式、智能決策方法和模型研究與探索。
●用于支撐基于大數(shù)據(jù)的科學(xué)研究方法、社會發(fā)展方式、經(jīng)濟(jì)建設(shè)模式和國防安全手段。
國家自然科學(xué)基金委員會也已對上述各個(gè)研究方向開展資助,例如在生命科學(xué)的大數(shù)據(jù)方法研究項(xiàng)目有:“利用大數(shù)據(jù)信息挖掘和基因進(jìn)化方法研究禽流感病毒的跨地域傳播”“基于大數(shù)據(jù)整合挖掘的腎細(xì)胞癌分子進(jìn)化機(jī)制研究”等;商業(yè)、交通、環(huán)保等領(lǐng)域的大數(shù)據(jù)方法研究項(xiàng)目有:“大數(shù)據(jù)背景下的商業(yè)模式創(chuàng)新機(jī)制研究”“大數(shù)據(jù)驅(qū)動的產(chǎn)品精確設(shè)計(jì)理論、方法及其應(yīng)用研究”“大數(shù)據(jù)環(huán)境下的復(fù)雜城市交通系統(tǒng)預(yù)測與控制”“數(shù)據(jù)驅(qū)動的我國PM2.5污染規(guī)律模型智能構(gòu)建方法研究”“大數(shù)據(jù)驅(qū)動的我國典型重點(diǎn)流域水污染防控決策研究”以及“數(shù)據(jù)驅(qū)動的軍事復(fù)雜系統(tǒng)風(fēng)險(xiǎn)決策分析方法及其應(yīng)用研究”“面向軍事情報(bào)的多媒體大數(shù)據(jù)分析與展示”等項(xiàng)目。
4大數(shù)據(jù)的分析基礎(chǔ)
開發(fā)數(shù)據(jù)的核心是數(shù)據(jù)分析,也就是說大數(shù)據(jù)技術(shù)的核心是數(shù)據(jù)分析技術(shù)。目前,大數(shù)據(jù)分析技術(shù)主要在傳統(tǒng)方法上延伸拓展,還沒有從本質(zhì)上解決大數(shù)據(jù)利用面臨的挑戰(zhàn)。這需要探索大數(shù)據(jù)分析技術(shù)的共性問題,主要研究方向如下。
(1)傳統(tǒng)數(shù)據(jù)分析算法的改進(jìn)原理
現(xiàn)有的大數(shù)據(jù)分析理論與方法大多從傳統(tǒng)的統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)融合等領(lǐng)域派生出來,例如K-means++[5]、K-meansⅡ[6]等聚類算法對經(jīng)典K-means算法進(jìn)行了改進(jìn),實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)高效聚類。大數(shù)據(jù)的特點(diǎn)使現(xiàn)有方法超出了其使用條件和范圍。因此,如何在拓展原有方法的基礎(chǔ)上,研究適用于大數(shù)據(jù)特征的數(shù)據(jù)分析方法成為大數(shù)據(jù)時(shí)代的挑戰(zhàn),包括研究擴(kuò)展傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)融合算法的原理。
(2)新型數(shù)據(jù)挖掘算法
大數(shù)據(jù)挖掘是從大數(shù)據(jù)中尋找其規(guī)律的技術(shù)[7]。大數(shù)據(jù)具有高價(jià)值、低密度的特性,“尋找”變得更具挑戰(zhàn)性。分類分析需要有標(biāo)簽的訓(xùn)練集指導(dǎo)建模,但是大數(shù)據(jù)集中大多是沒有經(jīng)過專家打好標(biāo)簽的數(shù)據(jù),需探索新的分類方法,以利用較少的有標(biāo)簽樣本和較多的無標(biāo)簽樣本進(jìn)行學(xué)習(xí)。此外,面向高價(jià)值低密度的大數(shù)據(jù)集,存在這樣一類數(shù)據(jù)挖掘需求:發(fā)現(xiàn)給定大數(shù)據(jù)集里面少數(shù)相似的數(shù)據(jù)對象組成的、表現(xiàn)出相異于大多數(shù)數(shù)據(jù)對象而形成異常的群組,被稱為特異群組挖掘[8-10]新的大數(shù)據(jù)挖掘方法研究包括特異群組挖掘方法、面向海量數(shù)據(jù)查詢的相似性計(jì)算方法、大規(guī)模帶時(shí)序可信知識圖譜自動構(gòu)建方法、動態(tài)大圖分析方法等。
(3)高維數(shù)據(jù)分析方法
通過對大數(shù)據(jù)本身的壓縮來適應(yīng)有限存儲和計(jì)算資源,除了研發(fā)計(jì)算能力更強(qiáng)、存儲量更大的計(jì)算機(jī)之外,維規(guī)約技術(shù)(包括選維、降維、維度子空間等)是一類有效的方法,但也具備技術(shù)挑戰(zhàn)。需要面向不同類型的數(shù)據(jù)研究語義保持下的大數(shù)據(jù)維規(guī)約技術(shù)(包括特征分析、特征選擇、降維、子空間等),形成新的高維大數(shù)據(jù)分析方法和理論。
(4)深度學(xué)習(xí)方法
深度學(xué)習(xí)[11]已成為機(jī)器學(xué)習(xí)研究中的一個(gè)熱點(diǎn)領(lǐng)域,通過構(gòu)建具有多隱層的學(xué)習(xí)模型和大量訓(xùn)練數(shù)據(jù)學(xué)習(xí)特征。對深度學(xué)習(xí)的研究不僅僅聚集在視覺、圖像、語音、文本等分析研究中,也需要拓展到時(shí)間序列、復(fù)雜網(wǎng)絡(luò)等數(shù)據(jù)集上。深度學(xué)習(xí)模型優(yōu)化、計(jì)算能力等方面仍然是當(dāng)前深度學(xué)習(xí)的難點(diǎn),需要形成理論體系。
國家自然科學(xué)基金委員會在大數(shù)據(jù)分析基礎(chǔ)方面資助的項(xiàng)目有:“大數(shù)據(jù)機(jī)器學(xué)習(xí)分布式算法的可行性理論”“基于知識指導(dǎo)和模糊信息?;臅r(shí)序大數(shù)據(jù)分析和挖掘”“RADIUS K-means算法及其拓展問題的研究”“基于多源異構(gòu)不確定數(shù)據(jù)的高效用信息挖掘的研究”“面向圖像序列的深度學(xué)習(xí)理論與方法”“面向大數(shù)據(jù)的快速關(guān)聯(lián)分析關(guān)鍵技術(shù)研究”“面向大數(shù)據(jù)分析的自學(xué)習(xí)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究”“基于認(rèn)知計(jì)算的大數(shù)據(jù)挖掘理論與技術(shù)”項(xiàng)目等。
5大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)
數(shù)據(jù)是基礎(chǔ)資源和戰(zhàn)略資源,對資源競爭就會產(chǎn)生很多問題。國家之間的競爭涉及數(shù)據(jù)主權(quán)和數(shù)據(jù)安全,還有全球數(shù)據(jù)治理;一個(gè)國家內(nèi)部涉及政府和公共數(shù)據(jù)資源的開放共享、交易流通,涉及數(shù)據(jù)權(quán)屬和隱私安全保障,還涉及數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、可視化等數(shù)據(jù)可用性問題。大數(shù)據(jù)研究需要有各種各樣的數(shù)據(jù)環(huán)境,數(shù)據(jù)環(huán)境要與來源多樣、類型多樣的數(shù)據(jù)結(jié)合,并且數(shù)據(jù)規(guī)模要足夠大。需要從數(shù)據(jù)質(zhì)量保障、數(shù)據(jù)存儲和數(shù)據(jù)索引等方面,研究大數(shù)據(jù)管理和治理的基礎(chǔ)方法,包括以下幾個(gè)方面。
(1)大數(shù)據(jù)治理
確保數(shù)據(jù)稀缺性不喪失和隱私不泄露是推動和實(shí)現(xiàn)數(shù)據(jù)開放共享的關(guān)鍵,有必要探索數(shù)據(jù)隱私保護(hù)機(jī)制及模型、大數(shù)據(jù)權(quán)屬認(rèn)定與保障理論及體系、區(qū)塊鏈技術(shù),構(gòu)建數(shù)據(jù)自治開放理論體系,推動大數(shù)據(jù)交易。
(2)外部數(shù)據(jù)的質(zhì)量保障機(jī)制
大數(shù)據(jù)來源廣泛,也導(dǎo)致了數(shù)據(jù)的可靠性下降,如果不經(jīng)過處理而將非確定的大數(shù)據(jù)用在后續(xù)分析中,必然會導(dǎo)致最終結(jié)果的不確定或不準(zhǔn)確。因而要研究數(shù)據(jù)清潔的收益和代價(jià)計(jì)算,高效量化出單個(gè)數(shù)據(jù)清洗對全局結(jié)果判決質(zhì)量的提升以及清洗單個(gè)數(shù)據(jù)耗費(fèi)的開銷,從而選擇最高性價(jià)比的數(shù)據(jù)進(jìn)行清洗。研究多數(shù)據(jù)源融合的清洗問題,梳理融合中多數(shù)據(jù)源之間的依賴關(guān)系,確定數(shù)據(jù)清洗的時(shí)機(jī)與策略,達(dá)到最優(yōu)的清洗性價(jià)比。研究大數(shù)據(jù)可用性的定義與表達(dá)、大數(shù)據(jù)的錯誤傳播與可用性相關(guān)模型,大數(shù)據(jù)可用性中的可計(jì)算與計(jì)算復(fù)雜性度量模型,基于群智計(jì)算的迭代數(shù)據(jù)清洗機(jī)制等基礎(chǔ)理論和框架。
(3)大數(shù)據(jù)建模
關(guān)系模型、面向?qū)ο竽P驮谝郧暗臄?shù)據(jù)管理技術(shù)中發(fā)揮了核心作用。但原有的數(shù)學(xué)模型多是針對一種類型的數(shù)據(jù),而大數(shù)據(jù)中包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),因此需要研究相應(yīng)的建模方法,將不同類型的數(shù)據(jù)從語義上關(guān)聯(lián)在一起,以復(fù)雜關(guān)聯(lián)網(wǎng)絡(luò)等技術(shù)為基礎(chǔ)研究連接各種不同類型數(shù)據(jù)的數(shù)據(jù)描述機(jī)制,支撐對大數(shù)據(jù)的管理。
(4)大數(shù)據(jù)索引
傳統(tǒng)索引結(jié)構(gòu)常用于結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng),能夠提高小規(guī)模數(shù)據(jù)檢索速度和查詢表連接效率。然而,大數(shù)據(jù)環(huán)境下,傳統(tǒng)索引結(jié)構(gòu)存在冗余、存儲空間過大、更新困難以及不適用于分布式存儲環(huán)境等缺陷,這需要針對大數(shù)據(jù)的存儲與數(shù)據(jù)特性研究大數(shù)據(jù)索引,包括非結(jié)構(gòu)化數(shù)據(jù)索引結(jié)構(gòu)、基于分布式存儲的數(shù)據(jù)索引結(jié)構(gòu)、高維與多目標(biāo)需求下的數(shù)據(jù)索引結(jié)構(gòu)等多種索引模型和索引性能評估模型。
(5)大數(shù)據(jù)可視化機(jī)理和方法
可視化是刻畫數(shù)據(jù)之間關(guān)聯(lián)性的有效手段,可視化分析貫穿于大數(shù)據(jù)全過程,如何實(shí)現(xiàn)可視化方法協(xié)助分析大規(guī)模、高維度、多來源、動態(tài)演化的數(shù)據(jù),是當(dāng)前可視化面臨的挑戰(zhàn)。因此,需要探索大數(shù)據(jù)全局視圖可視化機(jī)理、時(shí)空相關(guān)的交互可視化機(jī)理、超大規(guī)模節(jié)點(diǎn)的高速數(shù)據(jù)渲染方法。
(6)知識圖譜
知識圖譜用于刻畫實(shí)體或概念及其之間的關(guān)系,在大數(shù)據(jù)環(huán)境下,知識圖譜更新和復(fù)雜性都急劇增加,為構(gòu)建高質(zhì)量知識圖譜和實(shí)現(xiàn)有效推理,需要研究復(fù)雜知識圖譜的語義描述方法、不確定知識圖譜的構(gòu)建與管理、基于知識圖譜的多種類型數(shù)據(jù)表示模型、跨結(jié)構(gòu)數(shù)據(jù)的存取機(jī)制和語義表示等。
國家自然科學(xué)基金委員會對數(shù)據(jù)基礎(chǔ)研究方向的資助項(xiàng)目有:“大數(shù)據(jù)協(xié)同計(jì)算及查詢服務(wù)的隱私保護(hù)”“大數(shù)據(jù)環(huán)境下的首席數(shù)據(jù)官、數(shù)據(jù)治理及組織績效關(guān)系研究”“高質(zhì)量大數(shù)據(jù)集成關(guān)鍵技術(shù)的研究”“大數(shù)據(jù)一致性錯誤管理理論與關(guān)鍵技術(shù)”“大數(shù)據(jù)集背景下概念格的多粒度構(gòu)造和存儲研究”“分布式不確定數(shù)據(jù)查詢處理關(guān)鍵技術(shù)研究”“面向大數(shù)據(jù)的信息可視化設(shè)計(jì)方法研究”“高維大數(shù)據(jù)可視化的散度模型、算法及評價(jià)”“基于外存的海量知識圖譜數(shù)據(jù)的查詢處理”等。
6大數(shù)據(jù)的計(jì)算基礎(chǔ)
大數(shù)據(jù)通常需要有能夠分析處理這些數(shù)據(jù)的軟硬件環(huán)境,即需要具有足夠計(jì)算能力的計(jì)算環(huán)境。以深度學(xué)習(xí)為例,Hinton G E于2006年在《Science》上發(fā)表的論文《Reducing the dimensionality of data with neural networks》[11]提出了數(shù)據(jù)降維方法——deep autoencoder,這成為深度學(xué)習(xí)開創(chuàng)性標(biāo)志算法之一。然而,卻并沒有作為被廣泛關(guān)注和使用的方法,而是隨著數(shù)年后計(jì)算條件和計(jì)算能力的提升,深度學(xué)習(xí)方法才開始發(fā)揮更為重要的應(yīng)用價(jià)值。這意味著需要探索新型高效能系統(tǒng)結(jié)構(gòu)、性能導(dǎo)向的大數(shù)據(jù)計(jì)算框架和多地計(jì)算/異地計(jì)算理論與方法。
(1)新型高效能系統(tǒng)結(jié)構(gòu)
當(dāng)前,計(jì)算機(jī)系統(tǒng)的計(jì)算部件、存儲部件、通信部件的功能和性能已朝著高速、高容量、高帶寬的方向發(fā)展,并具有可編程、可定制等特點(diǎn)。如何利用這些部件構(gòu)建新型高效能計(jì)算機(jī)系統(tǒng)滿足大數(shù)據(jù)處理需求,是一個(gè)迫切需要解決的問題。這需要探索可重構(gòu)、高度可配置的新型高效能系統(tǒng)結(jié)構(gòu);研究計(jì)算、存儲和通信部件的有機(jī)結(jié)合、按需配置、彈性伸縮的方法;研究可變結(jié)構(gòu)、軟硬件結(jié)合的擬態(tài)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu);研究高效能分布式存儲系統(tǒng)的構(gòu)建原理。
(2)性能導(dǎo)向的大數(shù)據(jù)計(jì)算框架
大數(shù)據(jù)的規(guī)模、計(jì)算時(shí)效性以及異構(gòu)數(shù)據(jù)分布存儲的特征,對計(jì)算機(jī)系統(tǒng)的高通量、高時(shí)效和高并行提出了挑戰(zhàn)。性能導(dǎo)向的并行計(jì)算框架是應(yīng)對大數(shù)據(jù)挑戰(zhàn)的關(guān)鍵和基礎(chǔ)。這需要研究分析大數(shù)據(jù)應(yīng)用的計(jì)算特征、通信特征和存儲特征;研究并行計(jì)算系統(tǒng)的高通量、高時(shí)效計(jì)算技術(shù),包括實(shí)時(shí)分布式內(nèi)存系統(tǒng)、內(nèi)存計(jì)算系統(tǒng)、異構(gòu)多核平臺的性能加速技術(shù)等;研究性能可預(yù)測的并行計(jì)算模型。
(3)多地計(jì)算/異地計(jì)算理論與方法
數(shù)據(jù)大的難以移動、數(shù)據(jù)重要的不愿移動,在此背景下,如何求解一個(gè)全局問題是一大挑戰(zhàn)。通常在大數(shù)據(jù)所屬地計(jì)算局部解,即大數(shù)據(jù)應(yīng)用具有數(shù)據(jù)存儲的分布性問題,在數(shù)據(jù)所在地進(jìn)行計(jì)算,產(chǎn)生的部分計(jì)算結(jié)果可能出現(xiàn)不一致、相互背離等現(xiàn)象,需要通過不同方式的計(jì)算進(jìn)行驗(yàn)證,這給求解全局問題帶來挑戰(zhàn)。因此,需要研究大數(shù)據(jù)多地計(jì)算/異地計(jì)算基礎(chǔ)問題,包括異地計(jì)算行為建模;研究局部解的局限性評估機(jī)制、局部解發(fā)送接收的身份驗(yàn)證機(jī)制、局部解的優(yōu)化融合策略;研究全局解的最優(yōu)性評估機(jī)制、提高全局解最優(yōu)率的異地選取策略等。
國家自然科學(xué)基金委員會對上述各個(gè)研究方向開展資助的項(xiàng)目有:“云計(jì)算環(huán)境下大數(shù)據(jù)本地化技術(shù)研究”“結(jié)合邏輯與物理I/O訪問信息的存儲系統(tǒng)優(yōu)化策略的研究”“互聯(lián)云環(huán)境下面向數(shù)據(jù)中心的服務(wù)資源分配與調(diào)度機(jī)制研究”“面向大數(shù)據(jù)的高時(shí)效并行計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)與技術(shù)”“大數(shù)據(jù)高效能存儲與管理方法研究”“面向大數(shù)據(jù)的計(jì)算與存儲融合CPU體系結(jié)構(gòu)研究”“分布式計(jì)算與系統(tǒng)”“面向大數(shù)據(jù)內(nèi)存計(jì)算的計(jì)算機(jī)體系結(jié)構(gòu)”“大數(shù)據(jù)環(huán)境下增量式迭代計(jì)算框架的研究與優(yōu)化”“云計(jì)算環(huán)境下面向大數(shù)據(jù)的在線聚集并行優(yōu)化機(jī)制研究”等。
7大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)
現(xiàn)有的大數(shù)據(jù)研究大多關(guān)注將傳統(tǒng)方法應(yīng)用于大數(shù)據(jù)的實(shí)際場景,而沒有從大數(shù)據(jù)的內(nèi)在結(jié)構(gòu)、本質(zhì)特征出發(fā),這制約了大數(shù)據(jù)研究的深度發(fā)展,使得大數(shù)據(jù)技術(shù)面臨瓶頸。因此,研究大數(shù)據(jù)需要從數(shù)據(jù)本身出發(fā),這離不開數(shù)學(xué)方法的支持。大數(shù)據(jù)的表示和度量是大數(shù)據(jù)研究的關(guān)鍵和基礎(chǔ),相應(yīng)地,與之密切相關(guān)的大數(shù)據(jù)代數(shù)系統(tǒng)、大數(shù)據(jù)內(nèi)在數(shù)學(xué)結(jié)構(gòu)和大數(shù)據(jù)相似性度量成為大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)的重要內(nèi)容。
(1)大數(shù)據(jù)的代數(shù)系統(tǒng)
關(guān)系代數(shù)為關(guān)系型計(jì)算提供理論依據(jù)。然而,高擴(kuò)展性是大數(shù)據(jù)分析的重要需求,傳統(tǒng)的關(guān)系數(shù)據(jù)模型難以勝任當(dāng)前存在的非結(jié)構(gòu)化數(shù)據(jù)(如文本數(shù)據(jù)、序列數(shù)據(jù)、流式數(shù)據(jù)等)的處理。近年來,已出現(xiàn)一些非關(guān)系型數(shù)據(jù)庫(如HBase、MongoDB等),在非結(jié)構(gòu)化數(shù)據(jù)上的復(fù)雜數(shù)據(jù)分析能力有所提高,并得到廣泛應(yīng)用。但是,目前缺少對非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)代數(shù)的研究。對于非關(guān)系型數(shù)據(jù),定義由數(shù)據(jù)集構(gòu)成的集合上的度量方法和運(yùn)算,形成一定論域上的數(shù)據(jù)代數(shù)等,這些都將在數(shù)學(xué)基礎(chǔ)上對非關(guān)系型數(shù)據(jù)提供理論支持,有望突破現(xiàn)有技術(shù)瓶頸。
(2)大數(shù)據(jù)內(nèi)在數(shù)學(xué)結(jié)構(gòu)
數(shù)據(jù)有復(fù)雜的拓?fù)洹⒕W(wǎng)絡(luò)等不同結(jié)構(gòu),在大數(shù)據(jù)問題中,數(shù)據(jù)本身往往具有更為復(fù)雜的內(nèi)在數(shù)學(xué)結(jié)構(gòu),例如,高維數(shù)據(jù)空間中因?yàn)榫哂幸欢ǖ募s束條件而具有流形的數(shù)據(jù)結(jié)構(gòu);又如,在圖像等非結(jié)構(gòu)化數(shù)據(jù)中,先天性地具有低秩的數(shù)學(xué)性質(zhì)。在深刻理解和挖掘內(nèi)在相應(yīng)結(jié)構(gòu)的基礎(chǔ)上,才能有效建立分析模型。針對大數(shù)據(jù)集的流形或復(fù)形等復(fù)雜數(shù)學(xué)結(jié)構(gòu)和稀疏、低秩等數(shù)學(xué)性質(zhì),設(shè)計(jì)合理描述的數(shù)據(jù)結(jié)構(gòu),構(gòu)建相應(yīng)的度量,選取多尺度自適應(yīng)的基底表示,為構(gòu)建分析模型、形成反映內(nèi)在結(jié)構(gòu)參數(shù)的分析算法提供理論支撐,并通過數(shù)學(xué)結(jié)構(gòu)的性質(zhì),保證算法的適用性。
(3)大數(shù)據(jù)的相似性度量
相似性是數(shù)據(jù)挖掘分析任務(wù)的核心。簡單數(shù)據(jù)類型的相似性度量支撐傳統(tǒng)數(shù)據(jù)分析模型,然而,針對復(fù)雜數(shù)據(jù)類型,這些相似性度量難以真實(shí)反映數(shù)據(jù)之間的關(guān)系。針對大數(shù)據(jù)復(fù)雜性特征,定義空間非剛性結(jié)構(gòu)的相似性度量和超高維、多類型的大數(shù)據(jù)相似性度量,發(fā)展非線性降維方法、核理論以及相應(yīng)的高效算法和穩(wěn)定性分析。
如前所述,大數(shù)據(jù)研究過程中數(shù)學(xué)基礎(chǔ)方面還需要更多的研究者參與和關(guān)注,目前,國家自然科學(xué)基金用在大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)方面的相對較少,但也有對上述研究方向的涉及,例如:“大數(shù)據(jù)環(huán)境下服務(wù)的存儲范式理論及操作代數(shù)研究”“大數(shù)據(jù)中的廣義稀疏幾何結(jié)構(gòu)學(xué)習(xí)方法研究”“適應(yīng)大數(shù)據(jù)處理的概率相似度學(xué)習(xí)研究”等。
8結(jié)束語
數(shù)據(jù)作為一種基礎(chǔ)性資源已經(jīng)得到廣泛認(rèn)可,大數(shù)據(jù)開始在各行各業(yè)發(fā)揮作用,同時(shí)也遇到了很多難題,例如數(shù)據(jù)質(zhì)量、數(shù)據(jù)權(quán)屬、數(shù)據(jù)開放共享、數(shù)據(jù)快速分析、異地?cái)?shù)據(jù)計(jì)算等,這些問題可以統(tǒng)稱為大數(shù)據(jù)問題。由于大數(shù)據(jù)的廣泛性,大數(shù)據(jù)問題是多層次、多樣的,需要各領(lǐng)域的科學(xué)家共同努力。本文將大數(shù)據(jù)的基礎(chǔ)問題歸類為應(yīng)用基礎(chǔ)、分析基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)五大類別。特別地,將各學(xué)科基于大數(shù)據(jù)的創(chuàng)新研究也歸類為大數(shù)據(jù)的應(yīng)用基礎(chǔ)。這是因?yàn)榭茖W(xué)研究進(jìn)入了所謂的第四范式,第四范式的科學(xué)研究需要先行積累數(shù)據(jù)、研究數(shù)據(jù)、分析數(shù)據(jù)、觀察數(shù)據(jù),然后才進(jìn)行業(yè)務(wù)研究,或者說,認(rèn)識宇宙、認(rèn)識物質(zhì)、認(rèn)識生命、認(rèn)識社會,需要先行認(rèn)識相應(yīng)的數(shù)據(jù),即認(rèn)識數(shù)據(jù)先于認(rèn)識宇宙、物質(zhì)、生命和社會。建議國家層面研究基金全面部署,探究大數(shù)據(jù)各層面的基礎(chǔ)問題,實(shí)現(xiàn)大數(shù)據(jù)原始創(chuàng)新,推動數(shù)據(jù)科學(xué)發(fā)展,有利于形成大數(shù)據(jù)的核心競爭力。(來源:大數(shù)據(jù)期刊 文/朱揚(yáng)勇 熊贇 編選:中國電子商務(wù)研究中心)
參考文獻(xiàn):
[1]朱揚(yáng)勇,熊贇.大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用[J].大數(shù)據(jù),2015007
ZHU Y Y, XIONG Y. Defining big data[J].Big Data Research, 2015007. Big Data Research, 2015007.
[2] MOORE G E. The microprocessor: engine of the technology revolution[J]. Communications of the ACM, 1997, 40(2): 112.
[3] HEY T, STEWART T, KRISTIN T. The forth paradigm:data-intensive scientific discovery[M]. Beijing: Microsoft ResearchPress, 2009.
[4] CARMI D, FALKOWSKI A, KUFLIK E, et al. Higgs after the discovery:a status report[J]. Journal of High Energy Physics, 2012, arXiv:1207.1718.
[5] BAHMANI B, MOSELEY B, VATTANI A, et al. Scalable k-means++[J]. Proceedings of the VLDB Endowment, 2012, 5(7): 622-633.
[6] ARTHUR D, VASSILVITSKII S. K-means++:the advantages of careful seeding[C]// 18th ACM-SIAM Symposium on Discrete Algorithms, January 7-9, 2007, New Orleans, Louisiana, USA. New York: ACM Press, 2007: 1027-1035.
[7]熊贇,朱揚(yáng)勇,陳志淵.大數(shù)據(jù)挖掘[M].上海:上??茖W(xué)技術(shù)出版社, 2016.
XIONG Y, ZHU Y Y, CHEN Z Y. Big data mining [M]. Shanghai: Shanghai Scientific& Technical Publishers Press, 2016.
[8]熊贇,朱揚(yáng)勇.特異群組挖掘:框架與應(yīng)用[J].大數(shù)據(jù), 2015020.
XIONG Y, ZHU Y Y. Abnormal group mining: framework and applications[J]. Big Data Research, 2015020.
[9] XIONG Y, ZHU Y Y, YU P S, et al. Towards cohesive anomaly mining[C]// 27th AAAI Conference on Artificial Intelligence (AAAI), July 14-18, 2013, Bellevue, Washington, USA. San Francisco: AAAI Press, 2013: 984-990.
[10] XIONG Y, ZHU Y Y. Mining peculiarity groups in day-by-day behavioral datasets[C]// IEEE International Conference on Data Mining (ICDM), December 6-9, 2009, Miami, Florida, USA. New Jersey: IEEE Press, 2009: 578-587.
[11] HINTON G E, SALAKHUDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.