美女高潮潮喷出白浆视频,欧美村妇激情内射,日本少妇被爽到高潮无码,CHINESE猛男自慰GV

當(dāng)前位置:100EC>數(shù)字教育>作業(yè)幫云原生降本增效實踐之路
作業(yè)幫云原生降本增效實踐之路
董曉聰阿里巴巴中間件發(fā)布時間:2022年02月11日 09:50:19

(網(wǎng)經(jīng)社訊)本文整理自作業(yè)幫基礎(chǔ)架構(gòu)負(fù)責(zé)人董曉聰在云原生實戰(zhàn)峰會上的分享,講解作業(yè)幫降本增效實踐的道路上遇到的問題及經(jīng)驗,主要分為三個方面。一是作業(yè)幫的業(yè)務(wù)和現(xiàn)狀,以及為什么要做降本增效。第二,如何和阿里云一起解決在降本過程中遇到的一系列挑戰(zhàn),最后是對未來技術(shù)趨勢的展望。

01

背景

作業(yè)幫成立于 2015 年,是一家以科技手段助力普惠教育的公司,公司主要的業(yè)務(wù)分為兩大板塊。第一,作業(yè)幫 APP 是一款典型的流量互聯(lián)網(wǎng)產(chǎn)品,二是作業(yè)幫直播課,是一款典型的產(chǎn)業(yè)互聯(lián)網(wǎng)產(chǎn)品,涵蓋教育主播鏈條,如教研、教學(xué)、教務(wù)、輔導(dǎo)等。

我是 2019 年十月份加入作業(yè)幫的,當(dāng)時我看到作業(yè)幫的技術(shù)現(xiàn)狀歸納為兩點。一是規(guī)模化,另外是復(fù)雜化。

  • 規(guī)?;鹤鳂I(yè)幫線上有數(shù)千個應(yīng)用服務(wù),這么多應(yīng)用服務(wù)對應(yīng)數(shù)萬個服務(wù)實例,這么多的服務(wù)實例跑在數(shù)十萬的計算核心之上;

  • 復(fù)雜化:作業(yè)幫整體的技術(shù)棧是比較多元的。

其中占比最高的技術(shù)棧是 Golang 和 PHP,還有大量模塊是 C++、Python、Java 等進(jìn)行編寫的,作業(yè)幫創(chuàng)業(yè)之初就在云上,充分享受了云計算的紅利,后來由于一系列原因創(chuàng)建了多元的架構(gòu),性能快速迭代也是我們一貫的追求。那為什么要進(jìn)行降本增效呢?這個事之前也一直在做,只不過今天需要做得更好,其中有幾點原因:

第一點,隨著互聯(lián)網(wǎng)紅利的消退,企業(yè)希望每一分錢得到最大的收益,實現(xiàn)成本效益最大化。第二點,雖然我們一直在強(qiáng)調(diào)降本增效,但肯定還是有不必要的支出存在,這些浪費(fèi)是應(yīng)該被節(jié)省的。第三點,作為技術(shù)人員的夢想,還是想寫出更優(yōu)質(zhì)、更高性能的代碼。

在降本增效的過程當(dāng)中要注意一點,降本不能降質(zhì),降低成本時穩(wěn)定性、效率、安全不能打折扣。我們看一下成本模型。

各種各樣的特性和功能應(yīng)用在計算機(jī)上其實是一個一個的代碼模塊,這些代碼其實還是需要各種各樣的資源來運(yùn)作,有計算、存儲、網(wǎng)絡(luò)等等,那么我們看一下這個模型里降本增效怎么來做。

首先公司肯定希望自己的用戶越來越多,使用越來越活躍。其次,在應(yīng)用側(cè)降本增效做的事情就是要提升單位算力承載量,通俗來講就是 QPS。但我們面臨的一個挑戰(zhàn)就是作業(yè)幫技術(shù)棧太多元了,我們?nèi)绾握w提升?再看資源側(cè),存儲、網(wǎng)絡(luò)這些資源要么是剛需,要么就是很難控制成本。資源側(cè)降本的重點還是計算資源,而對于計算資源我們需要提升單位成本的算力。

我們面臨的挑戰(zhàn)是什么呢?就是如何選擇更優(yōu)的機(jī)型以及在選擇完機(jī)型之后,如何讓業(yè)務(wù)更加快速、無感、平滑過渡過來。在應(yīng)用和計算資源的中間還有一塊巨大的提升空間,就是兩者之間的匹配和部署的問題。在部署側(cè)我們也面臨一些困難和挑戰(zhàn)。

第一,我們在線業(yè)務(wù)集群的負(fù)載并不高。對于高吞吐的業(yè)務(wù)一般作為核心業(yè)務(wù),這些業(yè)務(wù)要留一定的空閑。對于低負(fù)載的業(yè)務(wù)要有碎片化和長尾化,把線上負(fù)載率拉低了。一方面是在線業(yè)務(wù)負(fù)載并不高,另外一方面是數(shù)據(jù)離線計算要貼地進(jìn)行,形成空間不均,還有時間上的不均,互聯(lián)網(wǎng)業(yè)務(wù)有明顯的波峰波谷。在線教育更加明顯,波峰波谷會差兩個數(shù)量級,我們一直在為波峰進(jìn)行買單。

02

如何做到降本增效

上面列舉了相關(guān)的問題和挑戰(zhàn),作業(yè)幫是如何來做的呢?我們選擇和阿里云一起,選擇開源的力量再結(jié)合一定的自研進(jìn)行相關(guān)問題的解決。在應(yīng)用層面,我們提升了主流技術(shù)棧的運(yùn)行性能,對于使用最多的檢索服務(wù)進(jìn)行架構(gòu)的重構(gòu),以此來提升性能和運(yùn)維效率。

在部署側(cè),通過 GPU 調(diào)度、ECS,在離線混部解決空間和時間的不均。在資源 K8s 技術(shù)實現(xiàn)應(yīng)用透明無感,這樣替換機(jī)型變得更加快捷。

下面基于應(yīng)用、部署簡單來聊。

應(yīng)用這一層對主流技術(shù)棧進(jìn)行優(yōu)化。第一,我們是重新編譯,我們以 FastCGI 運(yùn)行,對非線程安全進(jìn)行編譯,還有服務(wù)注冊發(fā)現(xiàn),摒棄之前傳統(tǒng)基于名字服務(wù),為了進(jìn)一步提升性能和成功率,我們還做了 LocalDNS,使用更新的內(nèi)核 4.10+,和阿里云內(nèi)核團(tuán)隊進(jìn)行相應(yīng)的調(diào)優(yōu)、優(yōu)化解決一系列問題,解決 IPVS 過多的性能和穩(wěn)定性問題。

最后得益于 Terway 網(wǎng)絡(luò)以及網(wǎng)絡(luò)做持久化,可以對性能有更明顯的提升。完成之后裸框架可以有幾倍的提升,可以帶來 43% 左右的收益。檢索服務(wù)作為底層服務(wù),對其性能要求比較高,傳統(tǒng)架構(gòu)一般是計算存儲耦合在一起的,隨著底下文件數(shù)量越來越多,單機(jī)無法容納,要進(jìn)行切片。每個切片要高可靠、高性能,由此形成二維矩陣,這種情況下存在諸多的問題,比如說像數(shù)據(jù)更新周期長、整體運(yùn)維效率并不高,還有系統(tǒng)的瓶頸遲遲得不到解決。

要解決上述問題要做計算和存儲的分離,我們引入 Fluid 做一個關(guān)鍵的紐帶。Fluid 是一款基于 K8s 的數(shù)據(jù)編排系統(tǒng),用于解決云原生過程中遇到的訪問數(shù)據(jù)過程復(fù)雜、訪問數(shù)據(jù)慢等一系列問題,JindoRuntime 用于實現(xiàn)緩存的加速,當(dāng)我們使用 Fliud 和 JindoRuntime 完成整個檢索系統(tǒng)的重構(gòu)之后,獲得的收益也比較明顯。

首先,作業(yè)幫的數(shù)據(jù)更新周期從之前小時級別縮短到三分鐘以內(nèi),運(yùn)維整個機(jī)器交付從之前天級別縮短到了小時級別,程序性能也得到大幅度提升,提升比例有 30%,帶來了萬核級別資源的縮減。

我們再聊一下部署側(cè),作業(yè)幫線上有大量 AI 推理類業(yè)務(wù),不光是圖像識別 OCR、語音識別、合成這一塊。這些業(yè)務(wù)計算 GPU 長時間脫離整個運(yùn)維體系,我們希望通過容器化改造將其納管到統(tǒng)一運(yùn)維體系里來。我們調(diào)研業(yè)界主流的技術(shù)方案,它們或多或少都會對 GPU 性能造成一定損耗,最后我們選擇了阿里云開源方案實現(xiàn)了 GPU Share 的調(diào)度方案。

作業(yè)幫 GPU 服務(wù)所使用的算力和顯存相對比較固定,我們就實現(xiàn)了一套匹配機(jī)制。類似經(jīng)典的背包問題。當(dāng)完成整體一套之后,線上 GPU 資源的使用率得到了大幅度的提升。在離線混部是工程領(lǐng)域比較經(jīng)典的問題,一方面是在線集群在波谷時有大量的空閑資源,另一方面大數(shù)據(jù)離線計算需要海量的計算資源,同時離線計算對時級要求并不高,所以兩者結(jié)合會有雙贏的結(jié)果。

但之前很大的技術(shù)瓶頸在于如果混在一起,離線計算大量消費(fèi) CPU 和網(wǎng)絡(luò)資源,會使得混部的在線資源服務(wù)成功率以及時延有大幅度的下降,使用阿里云 CFS 實現(xiàn) CPU 的避讓,實現(xiàn)空白避讓以及混部。截止到目前,有萬核級別的計算跑在在線集群上,為了進(jìn)一步保證線上穩(wěn)定,我們在晚高峰也做實時的調(diào)度,將離線計算份額進(jìn)行縮減,完成這一套之后得到了兼顧穩(wěn)定性和成本的方案。

作業(yè)幫整體 CPU 資源有三個池子,一個是 online CPU 機(jī)器,一個是 GPU 的 CPU 機(jī)器部分應(yīng)用起來,第三部分是 ECI ,通過 Pod 數(shù)目加減實現(xiàn)策略,包括定時 HP 策略,像一些 AI 模塊,只有在固定課程才會應(yīng)用到,我們提前將課表導(dǎo)入,在上課之前把相關(guān)服務(wù)提起即可,我們也給線上服務(wù)增加一定 AutoHP 的策略。

03

未來展望

未來,作業(yè)幫會將定時業(yè)務(wù)、AI 計算遷到 ECI 之上來實現(xiàn)真正在線業(yè)務(wù)的削峰,并且我們將持續(xù)探索更具性價比的 IaaS 資源,這也是我們一直嘗試和探索的方向。目前,作業(yè)幫已經(jīng)和阿里云有一個關(guān)于 AEP 的 tair 方案的結(jié)合,在新的一年希望我們有更大規(guī)模的落地。文章里講得比較多的是關(guān)于降本做的一些技術(shù)改進(jìn),其實在降本增效這里面還有很大一塊工作量是運(yùn)營,成本運(yùn)營我們也通過自動化實現(xiàn)了平臺化,未來我們將會進(jìn)一步向 BI 化、AI 化去演進(jìn)。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國領(lǐng)先的數(shù)字經(jīng)濟(jì)新媒體、服務(wù)商,提供“媒體+智庫”、“會員+孵化”服務(wù);(1)面向電商平臺、頭部服務(wù)商等PR條線提供媒體傳播服務(wù);(2)面向各類企事業(yè)單位、政府部門、培訓(xùn)機(jī)構(gòu)、電商平臺等提供智庫服務(wù);(3)面向各類電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬商”生態(tài)圈服務(wù);(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費(fèi)注冊體驗全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【投訴曝光】 更多>

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴(yán)格注明來源網(wǎng)經(jīng)社;同時,我們倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實、處理。

        平臺名稱
        平臺回復(fù)率
        回復(fù)時效性
        用戶滿意度
        微信公眾號
        微信二維碼 打開微信“掃一掃”
        微信小程序
        小程序二維碼 打開微信“掃一掃”