(電子商務(wù)研究中心訊) 2014年10月25日,由eBay、CSDN共同舉辦的“大數(shù)據(jù)峰會”將在上海豫園萬麗酒店舉辦。騰訊T4技術(shù)專家、數(shù)據(jù)平臺部精準(zhǔn)推薦中心總監(jiān)李勇,以“騰訊大數(shù)據(jù)平臺與推薦應(yīng)用架構(gòu)”作為峰會的結(jié)尾。
內(nèi)容簡介:
騰訊的月活躍用戶8.3億
微信月活躍用戶4.4億
QQ空間月活躍用戶6.5億
游戲月活躍用戶過億
如今騰訊的數(shù)據(jù)分析已經(jīng)能做到始終“不落地”,即全部的實(shí)時(shí)處理。騰訊大數(shù)據(jù)平臺有如下核心模塊:TDW、TRC、TDBank、TPR和Gaia。簡單來說,TDW用來做批量的離線計(jì)算,TRC負(fù)責(zé)做流式的實(shí)時(shí)計(jì)算,TPR負(fù)責(zé)精準(zhǔn)推薦,TDBank則作為統(tǒng)一的數(shù)據(jù)采集入口,而底層的Gaia則負(fù)責(zé)整個(gè)集群的資源調(diào)度和管理。李勇還特別強(qiáng)調(diào)了數(shù)據(jù)平臺體系化是應(yīng)用基礎(chǔ),數(shù)據(jù)應(yīng)用商業(yè)化是價(jià)值導(dǎo)向。
數(shù)據(jù)平臺體系化是應(yīng)用基礎(chǔ),數(shù)據(jù)應(yīng)用商業(yè)化是價(jià)值導(dǎo)向。
騰訊深度學(xué)習(xí)平臺的挑戰(zhàn)
深度神經(jīng)網(wǎng)絡(luò)模型復(fù)雜,訓(xùn)練數(shù)據(jù)多,計(jì)算量大
模型復(fù)雜:人腦有100多億個(gè)神經(jīng)細(xì)胞,因此DNN的神經(jīng)元和權(quán)重多
訓(xùn)練數(shù)據(jù)多:大量訓(xùn)練數(shù)據(jù)才能訓(xùn)練出復(fù)雜模型
微信語音識別:數(shù)萬個(gè)神經(jīng)元,超過50,000,000參數(shù),超過4,000,000,000樣本,單機(jī)訓(xùn)練耗時(shí)以年計(jì),流行的GPU卡需數(shù)周
深度神經(jīng)網(wǎng)絡(luò)需要支持大模型
更深更寬的網(wǎng)絡(luò)能獲得更好的結(jié)果
以圖像識別為例,增加卷積層的filter數(shù)量,加大模型深度等,可獲得更好的模型質(zhì)量
深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中超參數(shù)多,需要反復(fù)多次實(shí)驗(yàn)
非線性模型:代價(jià)函數(shù)非凸,容易收斂到局部最優(yōu)解
敏感的超參數(shù):模型結(jié)構(gòu)、輸入數(shù)據(jù)處理方式、權(quán)重初始化方案、參數(shù)配置、激活函數(shù)選擇、權(quán)重優(yōu)化方法等
數(shù)學(xué)基礎(chǔ)研究稍顯不足,倚重技巧和經(jīng)驗(yàn)
騰訊深度學(xué)習(xí)平臺Mariana
騰訊有廣泛的深度學(xué)習(xí)應(yīng)用需求,其挑戰(zhàn)如下
模型復(fù)雜,訓(xùn)練數(shù)據(jù)多,計(jì)算量大
需要支持大模型
訓(xùn)練中超參數(shù)多,需要反復(fù)多次實(shí)驗(yàn)
Mariana騰訊深度學(xué)習(xí)平臺提供三個(gè)框架解決上述問題
Mariana DNN: 深度神經(jīng)網(wǎng)絡(luò)的GPU數(shù)據(jù)并行框架
Mariana CNN: 深度卷積神經(jīng)網(wǎng)絡(luò)的GPU數(shù)據(jù)并行和模型并行框架
Mariana Cluster: 深度神經(jīng)網(wǎng)絡(luò)的CPU集群框架
Mariana已支持了訓(xùn)練加速、大模型和方便的訓(xùn)練作業(yè)
微信語音識別6 GPU做到4.6倍加速比
微信圖像識別4 GPU做到2.5倍加速比,并支持大模型
Mariana已成功應(yīng)用到微信語音識別和微信圖像識別,并在廣點(diǎn)通廣告推薦的點(diǎn)擊率預(yù)估中積極嘗試
(編選:中國電子商務(wù)研究中心)