亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

浪潮云海首席科學家張東:面向一云多芯的系統設計方法

2023-10-27 10:45 5214

北(bei)京(jing)2023年(nian)10月27日(ri) /美通社/ -- 近日,浪潮云海首席科學家張東、資深研究員亓開元在《中國計算機學會通訊》2023年第9期發表論文《面向一云多芯的系統設計方法》,深入分析一云多芯背后的關鍵挑戰問題,闡釋面向一云多芯的系統設計方法和關鍵技術路線,并在此基礎上,描繪了一云多芯三階段發展路線圖,為促進一云(yun)多芯向應用感知(zhi)、架構無感知(zhi)的目(mu)標迭代演(yan)進提供新思路。

近年(nian)來,巨大的(de)(de)(de)(de)市(shi)場需求加速(su)了我國(guo)云(yun)(yun)計(ji)算(suan)(suan)軟硬件(jian)的(de)(de)(de)(de)發(fa)展,從芯(xin)片、整機、云(yun)(yun)操作系統(tong)、中(zhong)間件(jian)到(dao)應用軟件(jian)的(de)(de)(de)(de)云(yun)(yun)計(ji)算(suan)(suan)創新鏈、產業鏈已(yi)初步形成。隨著行業"上云(yun)(yun)用數(shu)賦智"進程(cheng)的(de)(de)(de)(de)不斷加速(su)和深化,應用場景呈現(xian)多(duo)樣化趨勢,越來越多(duo)的(de)(de)(de)(de)數(shu)據中(zhong)心選擇多(duo)元化的(de)(de)(de)(de)算(suan)(suan)力構建,給融合池化管(guan)理和靈活彈性(xing)調度帶來了新的(de)(de)(de)(de)挑戰。

中央處(chu)理器(CPU)作為應用最廣泛的(de)算力器件,多廠(chang)商、不(bu)同架(jia)構(gou)疊加組合造成(cheng)的(de)多元異構(gou)現象(xiang)尤為突出(chu)。Intel、AMD等x86架(jia)構(gou)仍是數據中心的(de)主導力量,但占比逐步(bu)縮減;ARM架(jia)構(gou)憑借運(yun)算核心多、功耗低等優勢,發展(zhan)(zhan)(zhan)勢頭強勁;開源的(de)RISC-V架(jia)構(gou)也(ye)逐步(bu)興起。同時,在全球(qiu)產(chan)業(ye)鏈(lian)重(zhong)構(gou)的(de)背景下,我(wo)國核心器部(bu)件的(de)研發和生產(chan)也(ye)進入蓬勃發展(zhan)(zhan)(zhan)階段,但因(yin)起步(bu)較晚(wan)、技術路線(xian)各異、發展(zhan)(zhan)(zhan)水(shui)平不(bu)一,多元異構(gou)處(chu)理器將會(hui)長期并存發展(zhan)(zhan)(zhan)。

一云多芯關鍵科學問題

云計(ji)算作為(wei)(wei)一種(zhong)追(zhui)求性(xing)價比的(de)算力供給模式,其處理器的(de)升級、換(huan)代和擴(kuo)容正從單(dan)一架(jia)構向多元異構轉變(bian)。在多元異構處理器功能、性(xing)能和可靠性(xing)存在差異的(de)情況下,為(wei)(wei)滿足高效(xiao)穩(wen)定的(de)技術需求,實(shi)現應(ying)用(yong)跨處理器低(di)成本(ben)或自由切換(huan),規避供應(ying)風險,保(bao)障(zhang)關(guan)鍵業(ye)務長期穩(wen)定運行,"一云多芯"成為(wei)(wei)云計(ji)算發展(zhan)的(de)必然趨勢。

互聯(lian)網行(xing)(xing)業(ye)(ye)面向公有(you)云(yun)(yun)的(de)(de)一云(yun)(yun)多(duo)(duo)芯工作(zuo)開始得(de)較早(zao),憑借技(ji)術和資金儲(chu)備自研(yan)高性價比的(de)(de)處理(li)器(qi),如亞馬遜推出基于ARM的(de)(de)Graviton處理(li)器(qi),打破了(le)對x86架(jia)構(gou)的(de)(de)依賴。針對行(xing)(xing)業(ye)(ye)私有(you)云(yun)(yun)南(nan)向資源多(duo)(duo)樣性與(yu)北(bei)向應用復雜性的(de)(de)矛盾,目前(qian)國(guo)內金融、電信、能源等(deng)行(xing)(xing)業(ye)(ye)也已開始進行(xing)(xing)一云(yun)(yun)多(duo)(duo)芯的(de)(de)研(yan)究和建(jian)設,早(zao)期(qi)通過云(yun)(yun)管理(li)層實(shi)現納(na)管多(duo)(duo)個異構(gou)資源池,雖然(ran)能形(xing)成統一入(ru)口,但由于資源池割裂(lie)、應用無法(fa)跨架(jia)構(gou)編排,造成資源供給效率低下(xia)。

云海云操作系統(InCloud OS)、Apsara Stack、EasyStack等通(tong)過(guo)單一資源池實現異構(gou)資源的(de)(de)統一調度和互聯互通(tong),但當前(qian)階段主要解決(jue)"多(duo)芯"的(de)(de)混部問題,距離以應用為(wei)中心的(de)(de)跨架構(gou)運行(xing)和低成本切換(huan)尚(shang)有較大差距。為(wei)滿足多(duo)芯共存條件下業務的(de)(de)穩定(ding)運行(xing)、平(ping)滑切換(huan)和彈性伸縮,如下科學問題和技術(shu)難題亟待解決(jue)。

1.應用跨架構可移植及運行環境等價性問題。應用(yong)程序運行(xing)在多芯(xin)系統不同處理器架(jia)構(gou)(gou)的(de)節(jie)點上,首先需要確保(bao)程序本身的(de)跨架(jia)構(gou)(gou)可移(yi)植(zhi)。進一步,層次化、模塊(kuai)化的(de)復雜應用(yong)在異構(gou)(gou)節(jie)點間進行(xing)動態(tai)遷(qian)移(yi)、遠程調用(yong)或水平擴展,如(ru)何保(bao)障運行(xing)環境(操作系統、運行(xing)時、依賴庫等)的(de)跨架(jia)構(gou)(gou)等價可執(zhi)行(xing)成為挑戰(zhan)(見圖1)。


2.多元異構算力量化分析和負載感知調度問題。多(duo)元(yuan)異(yi)(yi)構(gou)CPU性(xing)能差異(yi)(yi)達2~10倍,附加異(yi)(yi)構(gou)加速單(dan)元(yuan)的(de)節點(dian)間(jian)計(ji)算(suan)能力(li)的(de)差異(yi)(yi)更是數量級的(de)。應用在異(yi)(yi)構(gou)節點(dian)間(jian)遷移、切換(huan)或伸縮(suo)時,需要保證(zheng)用戶(hu)體驗前后一致,遵守業務(wu)的(de)服務(wu)水平(ping)協議(Service Level Agreement,SLA)。如何(he)針對多(duo)元(yuan)異(yi)(yi)構(gou)算(suan)力(li)等價(jia)關(guan)系進行評估建(jian)模和(he)(he)量化分析,實現(xian)負載感知(zhi)均衡調度和(he)(he)自適(shi)應彈性(xing)伸縮(suo)成為關(guan)鍵(jian)科學問題。

3.非對等架構下分布式應用的狀態一致性保證問題。相(xiang)比(bi)于傳統分布(bu)(bu)式(shi)節點的對(dui)等性,一(yi)云(yun)多芯應(ying)用(yong)分布(bu)(bu)的異構(gou)節點非對(dui)等性不容忽視。針(zhen)對(dui)非對(dui)等分布(bu)(bu)式(shi)云(yun)原生應(ying)用(yong),實(shi)現有狀態任(ren)務(wu)(wu)在異構(gou)節點間高效一(yi)致(zhi)性共識協商和數據同步(bu),以及無狀態任(ren)務(wu)(wu)的非侵入流量(liang)動態控制和平(ping)滑(hua)切分,成為(wei)跨架(jia)構(gou)云(yun)原生應(ying)用(yong)編排(pai)的關鍵(jian)技術難點。

一云多芯系統設計和關鍵技術

ACM圖靈獎獲得者尼古(gu)拉斯·沃(wo)斯(Niklaus Wirth)提出了(le)著(zhu)名的(de)(de)公式(shi)"程序=數(shu)據結構+算法",揭示了(le)程序的(de)(de)時(shi)間和空間本質。一(yi)云(yun)多芯(xin)(xin)系統作為(wei)一(yi)種(zhong)軟件定義外延,除了(le)數(shu)據平面的(de)(de)指令邏(luo)輯和數(shu)據狀(zhuang)態兩個時(shi)空要素(su)外,還(huan)包(bao)括控制平面對多元異構資源的(de)(de)管控。因此,一(yi)云(yun)多芯(xin)(xin)系統可以抽象為(wei)"資源管理+運行(xing)程序+數(shu)據狀(zhuang)態"。

其中(zhong),資(zi)(zi)源(yuan)管理通過軟(ruan)件定義提供計算、存儲、網(wang)絡(luo)和安(an)全等(deng)硬件資(zi)(zi)源(yuan)抽象(xiang),以虛擬機、容器、裸金屬(bare metal)等(deng)粒度為應(ying)用提供資(zi)(zi)源(yuan)封裝(zhuang)及(ji)運行(xing)環境(jing);運行(xing)程(cheng)序(xu)(xu)按照(zhao)分(fen)層(ceng)解耦分(fen)為資(zi)(zi)源(yuan)層(ceng)、平臺層(ceng)和應(ying)用層(ceng),例如,承載用戶業務(wu)的應(ying)用程(cheng)序(xu)(xu)、資(zi)(zi)源(yuan)管理程(cheng)序(xu)(xu);數據(ju)狀態(tai)是指程(cheng)序(xu)(xu)運行(xing)所依(yi)賴(lai)的內存瞬時數據(ju)、數據(ju)庫持久化數據(ju)及(ji)流量狀態(tai)等(deng)。

根據上述定義,一云多芯系統應從程序的可運行性、資源的可管理性及狀態的可遷移性三(san)方面分別進行設計(ji)。

1.    程序的可運行性程序的跨架構運行在一云多芯(xin)系統(tong)中(zhong),程(cheng)序的(de)(de)首要(yao)設計(ji)目標是(shi)可(ke)運行(xing)(xing)性(xing),即可(ke)以在不(bu)同處理器架(jia)構的(de)(de)環境中(zhong)移植運行(xing)(xing),技(ji)術(shu)路線包(bao)含跨(kua)(kua)平臺語言(yan)、跨(kua)(kua)平臺編(bian)譯以及指令(ling)翻譯技(ji)術(shu)(見下表程(cheng)序的(de)(de)跨(kua)(kua)架(jia)構運行(xing)(xing)技(ji)術(shu))


主要特點

適用場景

局限性

跨平臺語言

程序本身適用具有跨平臺特性的編程
語言編寫。通過提供不同架構的程序運
行時屏蔽底層硬件差異

Web應用、OpenStack各組
件等用于管理、調度及用戶交
互的應用程序

運行時(shi)環境依賴、本地庫依賴

跨平臺(tai)編譯

通過編譯生成與目標架構匹配的二進
制文件。配合應用運行環境、解決編譯
階段的問題

應用的跨平臺構建。例如通過
性能跟高的
x86平臺交叉構
建ARM平臺程序

對于可執行程序、仍然需要二
進制代碼與處理器架構的統一

二進制翻譯

無需重新編譯。實現二進制指令的直接
翻譯執行

桌面輕量應用、模擬器、科研
調試等

性能損耗較大,對處理器能力
有要求,翻譯結果存在不確定
性,目前階段難以大規模應用

跨平臺語(yu)言以Java、Python為代表(biao),通過(guo)跨平臺語(yu)言實(shi)現程(cheng)序架(jia)構(gou)無關部(bu)分的(de)跨架(jia)構(gou)運(yun)行(xing),但仍(reng)然(ran)存在一些架(jia)構(gou)相關的(de)問題:(1)運(yun)行(xing)時(shi)(shi)環境依(yi)賴(lai),例(li)如,Java程(cheng)序在多(duo)芯系統中運(yun)行(xing)需(xu)要(yao)提(ti)供不同架(jia)構(gou)的(de)Java虛擬機(ji)(Java Virtual Machine,JVM)運(yun)行(xing)時(shi)(shi);(2)本地庫依(yi)賴(lai),例(li)如Java本地接口(Java Native Interface,JNI)需(xu)要(yao)跨平臺移植。

跨(kua)平(ping)(ping)臺編譯(yi)(yi)即交叉編譯(yi)(yi),借助特定處(chu)理器(qi)架構(gou)(gou)環境及(ji)編譯(yi)(yi)工具生成其他架構(gou)(gou)的可執行(xing)程(cheng)序。交叉編譯(yi)(yi)通過(guo)架構(gou)(gou)無關(guan)的源(yuan)代碼實現(xian)程(cheng)序的跨(kua)平(ping)(ping)臺二進(jin)制代碼生成,但是(shi)對于(yu)可執行(xing)程(cheng)序,仍然需(xu)要(yao)統(tong)一二進(jin)制代碼與處(chu)理器(qi)架構(gou)(gou)。

二(er)進(jin)(jin)制(zhi)翻譯(yi)即指(zhi)令集翻譯(yi)技術,是解(jie)決應用(yong)跨(kua)架構移植問題(ti)(ti)的研(yan)究熱點,實現方法包括軟(ruan)件(jian)級(ji)(ji)(ji)二(er)進(jin)(jin)制(zhi)翻譯(yi)和芯片級(ji)(ji)(ji)二(er)進(jin)(jin)制(zhi)翻譯(yi)。無(wu)論軟(ruan)件(jian)級(ji)(ji)(ji)還是芯片級(ji)(ji)(ji),均受到翻譯(yi)系(xi)統(tong)的限制(zhi)。軟(ruan)件(jian)級(ji)(ji)(ji)二(er)進(jin)(jin)制(zhi)翻譯(yi)需(xu)要對(dui)(dui)應用(yong)運(yun)行環(huan)境進(jin)(jin)行改造,增加了運(yun)行環(huan)境的復雜(za)性,而芯片級(ji)(ji)(ji)二(er)進(jin)(jin)制(zhi)翻譯(yi)過(guo)程性能損耗(hao)嚴重。例如,目前針對(dui)(dui)純運(yun)算類程序的翻譯(yi)器效(xiao)率(lv)是直接編譯(yi)的60%~70%,如果涉及系(xi)統(tong)調用(yong)、鎖等(deng)操作,效(xiao)率(lv)將下降到30%~40%,并且二(er)進(jin)(jin)制(zhi)翻譯(yi)過(guo)程依然存在指(zhi)令集不兼容的問題(ti)(ti),例如高級(ji)(ji)(ji)矢(shi)量擴展(Advanced Vector Extensions,AVX)指(zhi)令。

運行時的等價封裝

跨(kua)(kua)(kua)平臺語言解(jie)決了應用(yong)的(de)(de)跨(kua)(kua)(kua)架(jia)構(gou)問(wen)題(ti),但是(shi)需要(yao)提(ti)供跨(kua)(kua)(kua)架(jia)構(gou)的(de)(de)運(yun)(yun)行(xing)(xing)時(shi)(shi);交叉(cha)編譯(yi)解(jie)決了跨(kua)(kua)(kua)架(jia)構(gou)編譯(yi)問(wen)題(ti),但是(shi)仍然存在(zai)運(yun)(yun)行(xing)(xing)時(shi)(shi)的(de)(de)動(dong)態庫(ku)依賴問(wen)題(ti)。因此,程(cheng)序(xu)在(zai)多芯系統中運(yun)(yun)行(xing)(xing)不(bu)僅需要(yao)考慮自身的(de)(de)可運(yun)(yun)行(xing)(xing)性(xing),對(dui)于現代(dai)化(hua)的(de)(de)復(fu)雜應用(yong),還應綜合考慮其依賴的(de)(de)運(yun)(yun)行(xing)(xing)時(shi)(shi)。可行(xing)(xing)的(de)(de)路線是(shi)結合標準化(hua)的(de)(de)容器方式對(dui)應用(yong)程(cheng)序(xu)及(ji)其運(yun)(yun)行(xing)(xing)時(shi)(shi)依賴進行(xing)(xing)封裝,作為實(shi)現應用(yong)的(de)(de)跨(kua)(kua)(kua)架(jia)構(gou)部(bu)署及(ji)切換的(de)(de)基礎資源封裝。

也就是(shi)說,基于同一(yi)套(tao)源代(dai)碼(ma),針對不同的(de)(de)架(jia)構構建(jian)不同的(de)(de)容(rong)(rong)器(qi)(qi)鏡(jing)像,如果程序是(shi)基于跨平臺的(de)(de)語言(yan)(yan)構建(jian)的(de)(de),則將程序腳本或(huo)中間代(dai)碼(ma)與運行(xing)時(shi)封裝為容(rong)(rong)器(qi)(qi);如果程序是(shi)基于非跨平臺的(de)(de)語言(yan)(yan)構建(jian)的(de)(de),則可以(yi)通(tong)過交叉編譯,構建(jian)各種架(jia)構下的(de)(de)二進制(zhi)文件,然后將其與依(yi)賴庫等(deng)封裝為容(rong)(rong)器(qi)(qi),此流程可以(yi)通(tong)過一(yi)套(tao)流水線作業自(zi)動構建(jian),并(bing)推送至鏡(jing)像庫。

綜上所述,一(yi)云多(duo)芯程序可運行性設(she)計包括三個方面,首先實現應用程序的(de)跨架構編(bian)(bian)譯及(ji)運行,其次構建標準容器化(hua)封裝,最后通過云資源編(bian)(bian)排管理實現輕量化(hua)部署(見圖2)。


2.資源的可管理性資源可管理性(xing)包括架構感知和算力(li)量(liang)化分析,以及面(mian)向系統的資源均衡調度和面(mian)向業(ye)務(wu)的彈(dan)性(xing)伸縮。

架構感知技術架(jia)構(gou)(gou)感知是一云多芯(xin)實(shi)現節點(dian)調度、界面功能(neng)自適應(ying)展(zhan)(zhan)(zhan)示的(de)(de)(de)(de)關(guan)鍵(jian),是支(zhi)撐程序的(de)(de)(de)(de)可運行性(xing)、實(shi)現資源(yuan)(yuan)封裝(zhuang)生命(ming)周(zhou)期管(guan)理的(de)(de)(de)(de)基礎,可通(tong)過(guo)(guo)收(shou)集器(qi)(qi)(qi)、調度器(qi)(qi)(qi)、攔(lan)(lan)截(jie)器(qi)(qi)(qi)實(shi)現。(1)收(shou)集器(qi)(qi)(qi)采(cai)集并上報各節點(dian)的(de)(de)(de)(de)CPU架(jia)構(gou)(gou)、硬件特(te)性(xing)等(deng)信息,建立包含架(jia)構(gou)(gou)特(te)性(xing)的(de)(de)(de)(de)主機(ji)(ji)列(lie)表。(2)調度器(qi)(qi)(qi)為各種粒度的(de)(de)(de)(de)資源(yuan)(yuan)封裝(zhuang)選擇匹(pi)配的(de)(de)(de)(de)主機(ji)(ji)節點(dian),采(cai)用(yong)級聯過(guo)(guo)濾(lv)器(qi)(qi)(qi)機(ji)(ji)制,加載多個獨立的(de)(de)(de)(de)過(guo)(guo)濾(lv)器(qi)(qi)(qi),依(yi)次對創(chuang)建請(qing)(qing)求(qiu)與主機(ji)(ji)進行匹(pi)配。在一云多芯(xin)場景下,通(tong)過(guo)(guo)級聯架(jia)構(gou)(gou)感知過(guo)(guo)濾(lv)器(qi)(qi)(qi),識別(bie)資源(yuan)(yuan)封裝(zhuang)創(chuang)建請(qing)(qing)求(qiu)中的(de)(de)(de)(de)鏡像(xiang)架(jia)構(gou)(gou)標簽(qian),根(gen)據CPU架(jia)構(gou)(gou)特(te)性(xing)匹(pi)配結果過(guo)(guo)濾(lv)出主機(ji)(ji)節點(dian)。(3)攔(lan)(lan)截(jie)器(qi)(qi)(qi)用(yong)于建立可動(dong)(dong)態(tai)擴(kuo)展(zhan)(zhan)(zhan)的(de)(de)(de)(de)"架(jia)構(gou)(gou)-功能(neng)"映射(she)矩陣,解析資源(yuan)(yuan)封裝(zhuang)管(guan)理請(qing)(qing)求(qiu)的(de)(de)(de)(de)動(dong)(dong)作(zuo)及架(jia)構(gou)(gou)特(te)征,執(zhi)行攔(lan)(lan)截(jie)請(qing)(qing)求(qiu)并將結果反饋(kui)展(zhan)(zhan)(zhan)示,從而(er)實(shi)現不同架(jia)構(gou)(gou)功能(neng)差異化的(de)(de)(de)(de)自動(dong)(dong)識別(bie)、動(dong)(dong)態(tai)擴(kuo)展(zhan)(zhan)(zhan),屏蔽底(di)層(ceng)實(shi)現差異,提供統一的(de)(de)(de)(de)資源(yuan)(yuan)管(guan)理視(shi)圖(tu)。

算力量化技術

因不同(tong)架(jia)(jia)構的(de)處(chu)理(li)器(qi)計算(suan)(suan)能力(li)(li)(li)不同(tong),相(xiang)(xiang)同(tong)應(ying)用(yong)即(ji)便使(shi)用(yong)了同(tong)等(deng)(deng)規(gui)格的(de)資(zi)源封(feng)裝(例如相(xiang)(xiang)同(tong)的(de)CPU核(he)(he)心、內存等(deng)(deng)),在(zai)異(yi)(yi)(yi)(yi)構環境上運行(xing)的(de)性能也(ye)存在(zai)差(cha)(cha)異(yi)(yi)(yi)(yi)。根據(ju)應(ying)用(yong)場景,算(suan)(suan)力(li)(li)(li)可分為CPU通(tong)用(yong)算(suan)(suan)力(li)(li)(li)和XPU異(yi)(yi)(yi)(yi)構算(suan)(suan)力(li)(li)(li)。一(yi)云多芯系統目前面臨(lin)的(de)主要問題是CPU的(de)多元異(yi)(yi)(yi)(yi)構,多廠商的(de)ARM、x86架(jia)(jia)構處(chu)理(li)器(qi)在(zai)指(zhi)令集、核(he)(he)心數、生產工(gong)藝(yi)等(deng)(deng)方面均有所不同(tong),因此(ci)在(zai)性能上也(ye)存在(zai)差(cha)(cha)異(yi)(yi)(yi)(yi)。這種差(cha)(cha)異(yi)(yi)(yi)(yi)性可以通(tong)過(guo)算(suan)(suan)力(li)(li)(li)等(deng)(deng)價關系刻畫,根據(ju)層次(ci)劃分為規(gui)格算(suan)(suan)力(li)(li)(li)、有效算(suan)(suan)力(li)(li)(li)和業(ye)務(wu)算(suan)(suan)力(li)(li)(li)(見表(biao)2)。

其中(zhong),規格(ge)算(suan)力(li)(li)的(de)通用性最強(qiang),有效(xiao)算(suan)力(li)(li)對特定(ding)負載(zai)類型(xing)更具針對性,業務(wu)算(suan)力(li)(li)更加貼(tie)近真實的(de)應用場景(jing),但(dan)由(you)于負載(zai)和應用的(de)多樣性,有效(xiao)算(suan)力(li)(li)、業務(wu)算(suan)力(li)(li)的(de)測算(suan)需要(yao)聯合上下游生態共同(tong)完(wan)成。


定義

測算對象

量化方法

測算工具

規格算力(li)

從服務器系統資源層面測試評估
計算能力

 

處理器、內存、磁盤和
網絡等

系統整機規格性能基
準測試

SPEC CPU、
UnixBeneh、Stress

有效算力

從平臺層面測試評估中間件的資
源封裝性能

Redis、MySQL、
Kafka等中間件

針對中間件的井發性
能、響應延遲、吞吐量
等指標進行量化評估

Redis-Benchmark 、
Mysqlslap

業務算力(li)

從應用層面使用真實業務負載測
試評估資源封裝計算能力

客戶(hu)關系(xi)管理(CRM)
電商、AI推理/調練等
業務應用

針對業務事務處理能
(TPS )化評估

響應時延、選代時間等
指標進行量化評估

Jmeter、LoadRunner

均衡調度技術

從資源層面,在為資源封裝選擇節點時,根據節點計算能力利用均衡策略對負載進行調度,這是一個以資源利用率最大化為目標的約束優化問題。均衡調度算法作用在級聯過濾器之后,從過濾出的主機節點中選擇負載相對最小的作為最終目標,對于一云多芯系統,此過程的關鍵是節點的算力量化分析。基于規格算力評估多類型資源的規格系數,再結合歸一化、主資源公平等數值方法,能夠測算出各節點的可用算力。基于歸一化的算法如下(xia):


節(jie)點j的(de)(de)得(de)分(fen)Scorej是r種資(zi)源(yuan)類(lei)(lei)型權重(zhong)得(de)分(fen)之和,包括CPU、內存、硬盤等,如式(1)。各(ge)資(zi)源(yuan)類(lei)(lei)型權重(zhong)得(de)分(fen)算法(fa)如式(2),其(qi)中,ResourceNormalizedji為節(jie)點j資(zi)源(yuan)i可分(fen)配(pei)量(liang)的(de)(de)最(zui)小-最(zui)大正向(xiang)歸一化(hua),如式(3)所(suo)示(shi);WeighterMultiplieri為資(zi)源(yuan)的(de)(de)權重(zhong),可根據負載的(de)(de)CPU、內存或IO密集類(lei)(lei)型調(diao)整(zheng)權重(zhong),體(ti)現每種資(zi)源(yuan)的(de)(de)重(zhong)要程(cheng)度,coefficientji為各(ge)資(zi)源(yuan)的(de)(de)規(gui)格(ge)算力系(xi)(xi)數(shu),例如,ARM型和x86型CPU的(de)(de)規(gui)格(ge)算力量(liang)化(hua)關系(xi)(xi)為1∶2,規(gui)格(ge)系(xi)(xi)數(shu)分(fen)別為1和2,可分(fen)配(pei)CPU核數(shu)相同的(de)(de)情況下(xia),x86型節(jie)點被調(diao)度的(de)(de)優先(xian)級更高,從而實現一云多芯場景下(xia)基于算力量(liang)化(hua)的(de)(de)均衡調(diao)度。

彈性伸縮技術

為(wei)了支撐(cheng)面(mian)向業務(wu)(wu)(wu)(wu)峰值和(he)低(di)谷(gu)的彈(dan)(dan)性伸(shen)縮,要做到資(zi)(zi)(zi)(zi)源(yuan)(yuan)封(feng)(feng)裝(zhuang)的精準規(gui)劃(hua)、快(kuai)(kuai)(kuai)速(su)調(diao)度和(he)算力(li)等(deng)價(jia),保證應(ying)(ying)用服(fu)務(wu)(wu)(wu)(wu)彈(dan)(dan)得(de)對、彈(dan)(dan)得(de)快(kuai)(kuai)(kuai)、彈(dan)(dan)得(de)準。(1)在資(zi)(zi)(zi)(zi)源(yuan)(yuan)規(gui)劃(hua)方面(mian),根據(ju)應(ying)(ying)用負(fu)載特(te)定周期內的概(gai)率分布特(te)征,基(ji)于(yu)歷史數據(ju)時(shi)(shi)(shi)間序列建立負(fu)載趨(qu)勢模(mo)型,刻畫(hua)應(ying)(ying)用負(fu)載、服(fu)務(wu)(wu)(wu)(wu)質量(liang)與資(zi)(zi)(zi)(zi)源(yuan)(yuan)關(guan)系(xi)的負(fu)載畫(hua)像和(he)容(rong)量(liang)畫(hua)像,通過負(fu)載趨(qu)勢預測和(he)應(ying)(ying)用異(yi)常反饋方式規(gui)劃(hua)資(zi)(zi)(zi)(zi)源(yuan)(yuan)封(feng)(feng)裝(zhuang)伸(shen)縮需(xu)求(qiu)。(2)在快(kuai)(kuai)(kuai)速(su)調(diao)度方面(mian),基(ji)于(yu)架(jia)構感知(zhi)、均衡(heng)調(diao)度技術,在擴展資(zi)(zi)(zi)(zi)源(yuan)(yuan)封(feng)(feng)裝(zhuang)時(shi)(shi)(shi)快(kuai)(kuai)(kuai)速(su)調(diao)度至最(zui)佳節點,并拉起(qi)應(ying)(ying)用服(fu)務(wu)(wu)(wu)(wu),保障應(ying)(ying)用服(fu)務(wu)(wu)(wu)(wu)及時(shi)(shi)(shi)響(xiang)應(ying)(ying)。(3)在彈(dan)(dan)性伸(shen)縮引發資(zi)(zi)(zi)(zi)源(yuan)(yuan)封(feng)(feng)裝(zhuang)跨(kua)架(jia)構切換時(shi)(shi)(shi),基(ji)于(yu)算力(li)量(liang)化技術刻畫(hua)不同(tong)架(jia)構的算力(li),根據(ju)有效算力(li)、業務(wu)(wu)(wu)(wu)算力(li)計算資(zi)(zi)(zi)(zi)源(yuan)(yuan)封(feng)(feng)裝(zhuang)的等(deng)價(jia)關(guan)系(xi),確保業務(wu)(wu)(wu)(wu)的服(fu)務(wu)(wu)(wu)(wu)質量(liang)隨資(zi)(zi)(zi)(zi)源(yuan)(yuan)增減而線性伸(shen)縮。

3.狀態的可遷移性資(zi)源層(ceng)的(de)(de)應用(yong)狀(zhuang)態(tai)遷移(yi)將持久化數據、內存瞬時狀(zhuang)態(tai)、外設配置(zhi)以(yi)及網絡流(liu)量(liang)整(zheng)體(ti)遷移(yi)至(zhi)目標節點,涉(she)及資(zi)源封裝內所有相關數據狀(zhuang)態(tai)。除(chu)了應用(yong)本身之外,還涉(she)及操作系(xi)統(tong)、中間件等,遷移(yi)難度較大。為解(jie)決(jue)此問(wen)題,可(ke)進一步遵循資(zi)源層(ceng)、平臺層(ceng)和(he)應用(yong)層(ceng)解(jie)耦的(de)(de)思路(lu),采用(yong)基于云原生微服務治理的(de)(de)狀(zhuang)態(tai)同步和(he)流(liu)量(liang)切(qie)分方法。

資源封裝遷移

虛(xu)(xu)擬(ni)(ni)機(ji)(ji)的(de)在線(xian)熱遷(qian)(qian)移技術已經相對(dui)成熟(shu),通常(chang)通過預拷(kao)(kao)貝(bei)算(suan)法(fa)將源虛(xu)(xu)擬(ni)(ni)機(ji)(ji)的(de)內(nei)存(cun)增量狀態以(yi)迭代的(de)方(fang)式(shi)傳輸到目的(de)主機(ji)(ji),也出(chu)現了后(hou)拷(kao)(kao)貝(bei)、混合(he)拷(kao)(kao)貝(bei)等(deng)優化算(suan)法(fa)以(yi)及(ji)硬件壓縮加速(su)技術,加速(su)內(nei)存(cun)拷(kao)(kao)貝(bei)收斂(lian),減少(shao)停機(ji)(ji)時間,提升遷(qian)(qian)移效率。但是(shi)虛(xu)(xu)擬(ni)(ni)機(ji)(ji)遷(qian)(qian)移仍存(cun)在相同廠(chang)商(shang)CPU代際(ji)差距、不同廠(chang)商(shang)同架構兼容性、不同架構無法(fa)熱遷(qian)(qian)移的(de)限制。容器(qi)的(de)在線(xian)遷(qian)(qian)移技術研(yan)究(jiu)起(qi)步(bu)較(jiao)晚,本質上(shang)是(shi)進(jin)程組的(de)遷(qian)(qian)移,當前的(de)研(yan)究(jiu)主要基于(yu)用(yong)戶(hu)空間的(de)檢查點和恢(hui)復(Checkpoint and Restore In Userspace,CRIU)實(shi)現容器(qi)運(yun)行時狀態的(de)遷(qian)(qian)移,并衍生出(chu)了一(yi)系列縮短(duan)遷(qian)(qian)移時間、降低不可用(yong)時間的(de)優化方(fang)法(fa)。

此(ci)外,自適應(ying)容器(qi)在線遷移(yi)通過動態(tai)調(diao)整(zheng)壓(ya)縮(suo)算法的(de)(de)加速因子實(shi)現(xian)(xian)CPU和(he)(he)網絡帶寬資源的(de)(de)匹配(pei),減少容器(qi)快照的(de)(de)傳輸時間。以虛擬機(ji)(ji)和(he)(he)容器(qi)為(wei)資源封裝粒(li)度的(de)(de)整(zheng)體遷移(yi),雖然已經有了(le)一些研究(jiu)與應(ying)用,但是仍存在遷移(yi)數據量(liang)大、停機(ji)(ji)時間和(he)(he)總遷移(yi)時間長的(de)(de)問題,實(shi)現(xian)(xian)應(ying)用跨架構(gou)平滑切(qie)換(huan)難(nan)度較大。隨著云原生技術(shu)的(de)(de)發展,結(jie)合服務(wu)治(zhi)理(li)方式成為(wei)可行(xing)路線,其中(zhong)的(de)(de)關(guan)鍵(jian)技術(shu)包括有狀(zhuang)態(tai)服務(wu)的(de)(de)數據同步、無狀(zhuang)態(tai)服務(wu)的(de)(de)流量(liang)切(qie)換(huan)。

數據狀態同步

多副(fu)本的(de)狀(zhuang)態(tai)同步依賴(lai)于(yu)分布式一致性(xing)算法。ACM圖(tu)靈獎(jiang)獲得(de)者萊斯利·蘭伯特(Leslie Lamport)提出了(le)(le)基(ji)于(yu)消息傳遞且具有(you)高容錯(cuo)性(xing)的(de)Paxos共(gong)識算法,ZooKeeper的(de)ZAB,MySQL的(de)wsrep、Etcd,Redis的(de)Raft協議都基(ji)于(yu)其核心思想實現了(le)(le)數據狀(zhuang)態(tai)一致性(xing)。在此(ci)基(ji)礎上(shang),一云多芯平臺層的(de)數據狀(zhuang)態(tai)同步需要(yao)進一步考(kao)慮節點非對稱特征。下文(wen)以Raft協議為例進行說明。

選舉(ju)(leader election)過程:主(zhu)節(jie)(jie)點(dian)(dian)(leader)向(xiang)所(suo)有的從節(jie)(jie)點(dian)(dian)(follower)周期性發送心跳來保證(zheng)主(zhu)節(jie)(jie)點(dian)(dian)地位,當一(yi)(yi)個從節(jie)(jie)點(dian)(dian)在一(yi)(yi)個超(chao)時周期內沒有收(shou)到(dao)心跳,則該節(jie)(jie)點(dian)(dian)轉化為候選(candidate)節(jie)(jie)點(dian)(dian)參與選舉(ju)。一(yi)(yi)云(yun)多芯系統中各節(jie)(jie)點(dian)(dian)的處(chu)理能力、網(wang)絡條件等不同導致超(chao)時影響(xiang)差異化,可采(cai)用(yong)基于極大似然估計的適(shi)應性方(fang)法,避免心跳延遲大、處(chu)理能力弱的節(jie)(jie)點(dian)(dian)頻繁觸發選舉(ju),同時保證(zheng)處(chu)理能力強的節(jie)(jie)點(dian)(dian)可快速發起選舉(ju)。對于投票(piao)策(ce)略,采(cai)用(yong)節(jie)(jie)點(dian)(dian)優先級或縮小隨機超(chao)時取值范圍機制,使強節(jie)(jie)點(dian)(dian)更容易(yi)獲得多數票(piao)。

復(fu)制(log replication)過程(cheng):采用(yong)法(fa)定寫入(quorum write)機(ji)制,主節(jie)點接收(shou)來自客戶端的請(qing)求,向從節(jie)點發起寫入提(ti)議并接收(shou)反饋投(tou)票(piao),每個提(ti)議獲得的票(piao)數(shu)大于(yu)半數(shu)才能提(ti)交寫入。在一(yi)云多芯中異(yi)構(gou)節(jie)點作為容災可用(yong)區(qu)(Availability Zone,AZ)設計,須保證各容災可用(yong)區(qu)都(dou)被寫入。

業務流量切分

云原(yuan)生應(ying)用通過網(wang)關或(huo)負載(zai)均衡器將流(liu)量分(fen)發至(zhi)各無狀(zhuang)態(tai)副本實例,流(liu)量就是無狀(zhuang)態(tai)工作負載(zai)的(de)狀(zhuang)態(tai)。在(zai)多芯系統中,當應(ying)用在(zai)異構節點(dian)間(jian)遷移或(huo)彈性伸縮時,需(xu)要切分(fen)流(liu)量,并引流(liu)至(zhi)對應(ying)節點(dian)的(de)副本上。為保證服(fu)(fu)務(wu)(wu)(wu)質量不降(jiang)級(ji),根據(ju)有效算力(li)、業務(wu)(wu)(wu)算力(li)量化分(fen)析確(que)定等價目(mu)標(biao)副本的(de)規(gui)格和數量,并分(fen)配其(qi)承(cheng)擔的(de)流(liu)量比例,流(liu)量切換應(ying)與(yu)業務(wu)(wu)(wu)邏輯充(chong)分(fen)解耦(ou),可采用服(fu)(fu)務(wu)(wu)(wu)網(wang)格的(de)思想實現(xian)。

控制面(mian)感知(zhi)副(fu)本變化生(sheng)成流量(liang)切(qie)分策(ce)(ce)略,下發(fa)至(zhi)網絡(luo)代理(li)和網關(guan)。對(dui)于東西向流量(liang),網絡(luo)代理(li)劫持流量(liang)并根據切(qie)分策(ce)(ce)略按比(bi)例轉發(fa)到不(bu)同(tong)的(de)(de)副(fu)本。對(dui)于南北向流量(liang),網關(guan)在(zai)流量(liang)轉發(fa)時(shi)根據切(qie)分策(ce)(ce)略轉發(fa)到不(bu)同(tong)副(fu)本。在(zai)流量(liang)切(qie)分的(de)(de)瞬時(shi)過(guo)程中,受目標節點副(fu)本未啟(qi)動、TCP連接延遲等(deng)因素的(de)(de)影響,會出(chu)現無法(fa)響應(ying)、丟包(bao)等(deng)應(ying)用服務質量(liang)下降的(de)(de)情(qing)況,可以(yi)通過(guo)預熱、探針、重試(shi)、排水(shui)技術保障應(ying)用跨架(jia)構(gou)的(de)(de)平滑切(qie)換。

一云多芯發展路徑

按照(zhao)資源可(ke)管(guan)理性(xing)、程序可(ke)運行(xing)性(xing)、狀態可(ke)遷移性(xing)系統設計(ji),一(yi)云多芯可(ke)以分(fen)三個階(jie)段逐(zhu)步演進(見(jian)圖(tu)6)。


階段一:混合部署、統一管理、統一視圖

第一階(jie)段以可(ke)(ke)(ke)管(guan)理(li)性(xing)為目標,實現(xian)異構(gou)(gou)(gou)(gou)(gou)處(chu)理(li)器節點的統(tong)(tong)(tong)一池化管(guan)理(li)、統(tong)(tong)(tong)一服務目錄和(he)統(tong)(tong)(tong)一監控運維,可(ke)(ke)(ke)運行性(xing)和(he)可(ke)(ke)(ke)遷(qian)移性(xing)方面通過同(tong)源異構(gou)(gou)(gou)(gou)(gou)、離線(xian)遷(qian)移、手動(dong)切(qie)換、業(ye)務切(qie)分(fen)實現(xian)應(ying)用跨架構(gou)(gou)(gou)(gou)(gou)的部署(shu)和(he)協同(tong)。目前國內外一云(yun)(yun)多(duo)芯建(jian)設主(zhu)要處(chu)于這一階(jie)段。遵循(xun)系統(tong)(tong)(tong)設計方法,筆者團隊在(zai)InCloud OS的研發實踐中,提出了(le)基于同(tong)源異構(gou)(gou)(gou)(gou)(gou)的持(chi)續(xu)集(ji)成、基于不(bu)可(ke)(ke)(ke)變基礎設施的持(chi)續(xu)交付及(ji)架構(gou)(gou)(gou)(gou)(gou)感知調度(du)方法,支(zhi)持(chi)同(tong)一主(zhu)線(xian)云(yun)(yun)操作系統(tong)(tong)(tong)源代(dai)碼編譯(yi),構(gou)(gou)(gou)(gou)(gou)建(jian)異構(gou)(gou)(gou)(gou)(gou)節點的可(ke)(ke)(ke)執行程序,實現(xian)C/C++、Java、Python、Go多(duo)語言千(qian)萬級代(dai)碼在(zai)8種主(zhu)流處(chu)理(li)器上的分(fen)鐘級構(gou)(gou)(gou)(gou)(gou)建(jian),為各類型(xing)應(ying)用提供了(le)參考(kao)指導方案。

在(zai)基于InCloud OS建設的云平(ping)臺(tai)中(zhong),單資(zi)源池(chi)支持所有主流處理器架構,并按每個(ge)控(kong)制(zhi)器1000個(ge)節點(dian)級聯擴展,實現(xian)了相距超過1000公里的三地數據中(zhong)心一云多芯跨域統一管理、互聯互通,支撐云數智多樣化業務(wu)需(xu)求,制(zhi)定了技術規范(fan)和參考架構。

階段二:業務牽引、分層解耦、架構升級

在第一(yi)(yi)階段的基礎(chu)上,為進(jin)一(yi)(yi)步滿足(zu)應用的低成本跨(kua)架(jia)構(gou)(gou)切換,第二(er)階段通(tong)過(guo)分(fen)層(ceng)(ceng)解(jie)耦和(he)(he)架(jia)構(gou)(gou)升級(ji),實現(xian)應用的跨(kua)架(jia)構(gou)(gou)遷移(yi)、多(duo)架(jia)構(gou)(gou)混合部署(shu)和(he)(he)流量切分(fen)。筆者團隊(dui)分(fen)別在資源層(ceng)(ceng)、平臺層(ceng)(ceng)及應用層(ceng)(ceng)進(jin)行了初步探索。

1.在(zai)資源(yuan)層,結合GuestOS感知(zhi)應(ying)變機制進(jin)一步(bu)提升面向多(duo)元CPU的(de)遷(qian)移(yi)適(shi)用性(xing)(xing),提出了基于一致性(xing)(xing)快(kuai)照的(de)在(zai)線(xian)遷(qian)移(yi)方(fang)(fang)法。通過變更數據(ju)塊追(zhui)蹤和(he)多(duo)線(xian)程異(yi)步(bu)優化(hua),實(shi)現(xian)(xian)10 TB大規格虛(xu)擬(ni)機的(de)快(kuai)速完整遷(qian)移(yi)。遷(qian)移(yi)后(hou),系統(tong)啟動初始化(hua)硬件檢查,若不支持相關CPU特性(xing)(xing)則切換到應(ying)變(fallback)措施,保證(zheng)系統(tong)正常運(yun)行,特別(bie)針對Windows虛(xu)擬(ni)機實(shi)現(xian)(xian)了CPU、固件自適(shi)應(ying),兼容Win XP以(yi)上(shang)桌面版(ban)和(he)Win 2000以(yi)上(shang)服(fu)務器版(ban),已在(zai)實(shi)際(ji)生產環境(jing)中展開應(ying)用。然(ran)而,虛(xu)擬(ni)機遷(qian)移(yi)的(de)方(fang)(fang)式對應(ying)用是(shi)無感知(zhi)的(de),遷(qian)移(yi)可(ke)能產生數據(ju)庫和(he)應(ying)用異(yi)常的(de)風險(xian),需要應(ying)用開發(fa)者配合,對虛(xu)擬(ni)機遷(qian)移(yi)后(hou)的(de)可(ke)用性(xing)(xing)進(jin)行進(jin)一步(bu)驗證(zheng)。

2.在(zai)平臺層,目前生(sheng)產環境采用的方案(an)是通過(guo)(guo)數據同步(bu)(bu)、業務(wu)切(qie)分(fen)實(shi)現有狀態(tai)應用的跨架構(gou)運行(xing)。基于InCloud OS提供(gong)x86和ARM數據庫集(ji)群(qun)服務(wu)及數據同步(bu)(bu)服務(wu),數據同步(bu)(bu)服務(wu)根據源(yuan)端數據庫預寫(xie)日志(zhi)(Write Ahead Log,WAL)捕(bu)獲數據變化(hua),在(zai)傳輸中通過(guo)(guo)加密壓(ya)縮(suo)算法、事務(wu)合并(bing)、網絡包封裝優化(hua)網絡協議開銷和延遲,在(zai)目標端通過(guo)(guo)分(fen)組多任務(wu)并(bing)行(xing)和原(yuan)生(sheng)加載機制提升重(zhong)放效(xiao)率,實(shi)現亞秒級數據同步(bu)(bu)。應用基于讀(du)寫(xie)分(fen)離架構(gou)設計,面向x86架構(gou)數據庫讀(du)寫(xie)、ARM架構(gou)數據庫只(zhi)讀(du),實(shi)現一(yi)云多芯場景下數據庫跨架構(gou)運行(xing)。

3.在應(ying)用層,InCloud OS于2023年1月完成首個一云多芯場景下SPEC Cloud基(ji)準測(ce)試,驗證了基(ji)于單一資源池承載(zai)多型(xing)x86、ARM處理器架構的(de)資源可管理性(xing)、計算(suan)密(mi)集(ji)型(xing)聚類算(suan)法K-means的(de)跨架構程序(xu)可運(yun)行性(xing)、IO密(mi)集(ji)型(xing)分布式數據庫Cassandra的(de)狀態可遷(qian)移性(xing),并結合均(jun)衡調度算(suan)法,實現(xian)了擴展性(xing)超(chao)過90%,性(xing)能(neng)超(chao)過SLA基(ji)線(xian)20%,平均(jun)上線(xian)時(shi)間(jian)超(chao)過世界紀(ji)錄(lu)25%。

階段三:軟件定義、算力標準、全棧多芯

一云(yun)(yun)多芯是芯與云(yun)(yun)的融合(he),是平(ping)臺和(he)(he)生態(tai)的協(xie)同。在(zai)第三階段(duan),通過處(chu)理器(qi)、整機(ji)、云(yun)(yun)操作系統(tong)、數據庫、中間件和(he)(he)應用等產業鏈上(shang)下游的共同配合(he),實現應用與處(chu)理器(qi)架構(gou)的徹底(di)解耦,保(bao)障(zhang)業務長(chang)期(qi)穩定運行。

1.在算(suan)力資源層,提升處(chu)理(li)器(qi)性能、可靠性的(de)同時(shi),通過系(xi)統設(she)計定義(yi)處(chu)理(li)器(qi)設(she)計標準化和(he)兼(jian)容(rong)性,同時(shi)推動二進制翻譯技術在應用過程中不斷優化。在支持處(chu)理(li)器(qi)多芯的(de)基礎上,擴展(zhan)對GPU、DPU等異構算(suan)力的(de)統一抽(chou)象,實現異構加速協同。

2.在平臺(tai)層,突破(po)應用特征感知的可變粒度(du)資(zi)源調(diao)度(du)分配技(ji)(ji)術,解決應用類型與(yu)資(zi)源封(feng)裝的自適應配置和編排問題,研究函數拓撲編排、高效(xiao)調(diao)度(du)和快速啟動(dong)技(ji)(ji)術,解決大(da)規模云原生應用的靈活構建(jian)和彈(dan)性擴展問題。

3.在應(ying)用層(ceng),促進(jin)應(ying)用支持多芯同源異構,完善云原生化轉型(xing)升(sheng)級最佳實(shi)(shi)踐(jian),與資(zi)源層(ceng)和平臺層(ceng)相(xiang)結合,實(shi)(shi)現應(ying)用感知、架(jia)構無感知的平滑切(qie)換和彈性伸縮(suo)。

4.在(zai)算(suan)力評(ping)估、標準和測評(ping)方面,研究多元異(yi)構(gou)(gou)有(you)效(xiao)算(suan)力的量化方法,聯合專(zhuan)業測評(ping)機構(gou)(gou)及產業鏈上下游,建立一云多芯行業標準。

結束語:一云多芯是解決數據中心多芯共存問題(ti)的(de)必(bi)然趨勢。為解決應用(yong)跨架構(gou)(gou)可運行、算力量化分析、負載感知調度、非對等架構(gou)(gou)分布(bu)式(shi)狀態(tai)一致性的(de)問題(ti),筆者團(tuan)隊提出了一云多芯系(xi)統的(de)核心設(she)計理念和系(xi)統設(she)計方法。

1.堅持系統觀(guan)念,場景(jing)驅動、系統設計(ji)。從以(yi)CPU為核心向以(yi)系統為核心的設計(ji)模式轉變,以(yi)應用為導向建立多元異構(gou)融合、軟(ruan)件定義和軟(ruan)硬協同的技術(shu)發展路線,持續提(ti)升計(ji)算效率和能效比。

2.加強(qiang)生(sheng)態(tai)協作(zuo),分層(ceng)解(jie)耦(ou)、開放標(biao)準。處理器、整機、云操作(zuo)系統、中間件、應用逐層(ceng)解(jie)耦(ou),通過生(sheng)態(tai)協同(tong)消(xiao)除(chu)單一技(ji)術路線帶(dai)來的垂直(zhi)封閉、生(sheng)態(tai)離(li)散問題,實現一云多芯標(biao)準化和規范化。

3.制定發(fa)展(zhan)路(lu)線圖(tu),迭代(dai)創新、持(chi)續演進。從混(hun)合部署、離線遷移和(he)手動切換,到基于(yu)架構升級的平滑切換和(he)彈性伸縮,再(zai)到算力標準(zhun)和(he)全棧多(duo)芯(xin)迭代(dai)演進。

當前的(de)研究和(he)實踐工作正處于(yu)第一階段(duan)向第二階段(duan)的(de)過渡時期,圍繞程(cheng)序可運行(xing)性(xing)、資源可管理性(xing)和(he)狀態可遷移性(xing)技術(shu)進行(xing)了(le)探索和(he)布局,下一步(bu)需要加(jia)強產(chan)業(ye)鏈、創新鏈協作,向應用感知、架構無感知的(de)目標迭代演進,推動一云多芯(xin)計算理論基礎更(geng)(geng)加(jia)堅實完(wan)備,軟硬協同(tong)和(he)軟件定義(yi)機制更(geng)(geng)加(jia)成熟有效(xiao),應用感知場(chang)景范(fan)式(shi)更(geng)(geng)加(jia)清晰(xi)可行(xing),產(chan)業(ye)生態更(geng)(geng)加(jia)標準規范(fan)。

 

消息來源:浪潮云海
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection