北京2018年5月24日電 /美通社/ -- 5月23日,在(zai)舊金山舉行的英特(te)爾人工智能開發者大(da)會上,英特(te)爾公司全球副總裁(cai)兼(jian)人工智能產品事業部總經理(li)Naveen Rao發表(biao)了演講(jiang),以下為全文:
在5月23日舊(jiu)金(jin)山舉(ju)行(xing)的(de)(de)英(ying)(ying)特(te)爾人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)開(kai)發(fa)者(zhe)(zhe)(zhe)(zhe)大會上,我們(men)(men)介紹了(le)(le)有(you)關(guan)英(ying)(ying)特(te)爾人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)產品組合與英(ying)(ying)特(te)爾 Nervana? 神經網絡處理(li)器的(de)(de)最新情況。這是令人(ren)(ren)興(xing)奮的(de)(de)一(yi)周(zhou),英(ying)(ying)特(te)爾人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)開(kai)發(fa)者(zhe)(zhe)(zhe)(zhe)大會匯集了(le)(le)人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)領域的(de)(de)頂尖人(ren)(ren)才。我們(men)(men)意(yi)識(shi)到(dao),英(ying)(ying)特(te)爾需(xu)要與整個行(xing)業(ye)進(jin)行(xing)協作,包括開(kai)發(fa)者(zhe)(zhe)(zhe)(zhe)、學術界、軟(ruan)(ruan)件生態系統等(deng)(deng)等(deng)(deng),來釋放人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)的(de)(de)全部潛(qian)力(li)。因此,我很興(xing)奮能(neng)(neng)夠與眾(zhong)多業(ye)內人(ren)(ren)士同臺(tai)。這包括與我們(men)(men)共同參與演示(shi)、研究(jiu)和實踐培訓的(de)(de)開(kai)發(fa)者(zhe)(zhe)(zhe)(zhe),也包括來自谷歌*、AWS*、微軟(ruan)(ruan)*、Novartis*、C3 IoT*的(de)(de)諸多支(zhi)持(chi)者(zhe)(zhe)(zhe)(zhe)。正是這種廣泛的(de)(de)合作幫(bang)助我們(men)(men)一(yi)起賦能(neng)(neng)人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)社區(qu),為加(jia)快(kuai)人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)(neng)領域的(de)(de)技術創新和進(jin)步(bu)提供所需(xu)的(de)(de)硬件和軟(ruan)(ruan)件支(zhi)持(chi)。
在(zai)加速(su)向人工智能驅動的(de)(de)未來計算過渡之時,我們(men)需要(yao)提供全面的(de)(de)企業級(ji)解決(jue)方案。這(zhe)意味著我們(men)的(de)(de)解決(jue)方案要(yao)提供最(zui)廣泛(fan)的(de)(de)計算能力(li),并(bing)且能夠(gou)支持從毫瓦級(ji)到千瓦級(ji)的(de)(de)多種架構。企業級(ji)的(de)(de)人工智能還意味著支持和擴(kuo)展行業已經投資開(kai)(kai)發(fa)的(de)(de)工具、開(kai)(kai)放(fang)式(shi)框架和基礎架構,以(yi)便(bian)更好(hao)地讓(rang)研究人員在(zai)不(bu)(bu)同(tong)的(de)(de)人工智能工作(zuo)負載(zai)中執行任務(wu)。例如人工智能開(kai)(kai)發(fa)者越來越傾向于直接針對(dui)開(kai)(kai)源框架進行編程(cheng),而不(bu)(bu)是針對(dui)具體的(de)(de)產(chan)品(pin)軟件平(ping)臺,這(zhe)樣有助于更快速(su)、更高(gao)效(xiao)的(de)(de)開(kai)(kai)發(fa)。我們(men)在(zai)大會上發(fa)布的(de)(de)消息涉(she)及所(suo)有這(zhe)些(xie)領(ling)域,并(bing)公布了幾(ji)家(jia)新增的(de)(de)合作(zuo)伙(huo)伴(ban),這(zhe)都將幫助開(kai)(kai)發(fa)者和我們(men)的(de)(de)客戶更快速(su)地從人工智能中受益。
針對多樣化的人工智能工作負載而擴展的英特爾人工智能產品組合
英特爾近期的一項調查顯示,在我們的美國企業客戶中,50%以上都正在轉向采用基于英特爾®至強®處理器的現有的云解決方案來滿足其對人工智能的初步需求。這其實肯定了英特爾的做法 -- 通過提供包括英特爾®至強®處理器、英特爾® Nervana?和英特爾® Movidius?技術以及英特爾® FPGAs 在內的(de)廣泛的(de)企業級產品,來滿足人(ren)工(gong)智能工(gong)作(zuo)負(fu)載的(de)獨(du)特要(yao)求。
我們今天討(tao)論的(de)(de)(de)一(yi)個重要內(nei)容是對英特爾(er)至強可擴展處理(li)器的(de)(de)(de)優化(hua)。與前(qian)一(yi)代(dai)相比,這(zhe)(zhe)些(xie)優化(hua)大(da)(da)幅提升了訓練和(he)推理(li)性(xing)能,有(you)利(li)于(yu)更多(duo)(duo)公司充分利(li)用(yong)現有(you)基(ji)礎設(she)施,在邁向人工智能初始階段的(de)(de)(de)過程中降低總(zong)體(ti)成本(ben)。最新的(de)(de)(de)英特爾(er) Nervana 神(shen)經網(wang)絡處理(li)器(NNP)系列(lie)也有(you)更新消(xiao)息分享:英特爾(er) Nervana 神(shen)經網(wang)絡處理(li)器有(you)著清晰(xi)的(de)(de)(de)設(she)計目(mu)標,即實現高計算利(li)用(yong)率,以及通過芯片(pian)間互聯支(zhi)持真正(zheng)的(de)(de)(de)模(mo)型(xing)并(bing)行(xing)化(hua)。行(xing)業談論了很(hen)(hen)(hen)多(duo)(duo)有(you)關理(li)論峰值性(xing)能或 TOP/s 數(shu)字的(de)(de)(de)話題;但現實是,除(chu)非架(jia)構設(she)計上內(nei)存(cun)(cun)子系統能夠支(zhi)撐這(zhe)(zhe)些(xie)計算單元的(de)(de)(de)充分利(li)用(yong),否則很(hen)(hen)(hen)多(duo)(duo)計算是毫無意義的(de)(de)(de)。此外,業內(nei)發表的(de)(de)(de)很(hen)(hen)(hen)多(duo)(duo)性(xing)能數(shu)據采用(yong)了很(hen)(hen)(hen)大(da)(da)的(de)(de)(de)方(fang)形矩陣(zhen),但這(zhe)(zhe)在真實的(de)(de)(de)神(shen)經網(wang)絡中通常是不(bu)存(cun)(cun)在的(de)(de)(de)。
英特爾致力(li)于為神經網絡開發一(yi)個平衡的架構,其中也包括在低延(yan)遲(chi)狀(zhuang)態下(xia)實現芯片(pian)間高帶寬。我們(men)的神經網絡處理器系列上進行的初步(bu)性能基(ji)準測試(shi)(shi)顯示,利用(yong)率和互(hu)聯方面都取得了極具競(jing)爭力(li)的測試(shi)(shi)結(jie)果。具體細(xi)節包括:
使用A(1536, 2048)和B(2048, 1536)矩陣大小的矩陣-矩陣乘法(GEMM)運算,在單芯片上實現了高于96.4%的計算利用率1。這意味著在單芯片上實現大約38 TOP/s 的實際(非理論)性能1。針對 A(6144, 2048)和B(2048, 1536)矩陣大小,支持模型并行訓練的多芯片分布式 GEMM 運算實現了近乎線性的擴展和96.2%的擴展效率2,讓多個神經網絡處理器能(neng)夠連(lian)接(jie)到一起,并打破其它架構面臨(lin)的(de)內(nei)存限制。
在延遲低于790納秒的情況下,我們測量到了達到89.4%理論帶寬的單向芯片間傳輸效率3,并(bing)把(ba)它用于(yu)2.4Tb/s的高帶寬、低延遲(chi)互聯。
這(zhe)一切是在總(zong)功率低于(yu)210瓦的(de)單(dan)芯片中實(shi)現的(de),而這(zhe)只(zhi)是英特爾 Nervana 神經網絡處理器原型(xing)產(chan)(chan)品(Lake Crest)。該產(chan)(chan)品的(de)主要(yao)目標是從我們(men)的(de)早(zao)期合作伙伴那里收集反饋。
我(wo)們正在(zai)開(kai)發第一個商用(yong)神經(jing)網(wang)絡(luo)處理器(qi)產(chan)品(pin)英特(te)爾(er) Nervana NNP-L1000(Spring Crest),計(ji)劃在(zai)2019年發布(bu)。與第一代 Lake Crest 產(chan)品(pin)相比,我(wo)們預計(ji)英特(te)爾(er) Nervana NNP-L1000將實現3-4倍的(de)(de)訓(xun)練性能。英特(te)爾(er) Nervana NNP-L1000還將支持 bfloat16,這是(shi)(shi)業內廣泛采用(yong)的(de)(de)針對神經(jing)網(wang)絡(luo)的(de)(de)一種數值型數據格式。未來,英特(te)爾(er)將在(zai)人(ren)工智能產(chan)品(pin)線上(shang)擴大對 bfloat16的(de)(de)支持,包括(kuo)英特(te)爾(er)至強處理器(qi)和英特(te)爾(er) FPGA。這是(shi)(shi)整(zheng)個全面戰略中的(de)(de)一部分,旨(zhi)在(zai)把(ba)領(ling)先的(de)(de)人(ren)工智能訓(xun)練能力(li)引入到(dao)我(wo)們的(de)(de)芯片產(chan)品(pin)組合中。
面向真實世界的人工智能
我們產品的廣度讓各種規模的機構能夠輕松地通過英特爾來開啟自己的人工智能之旅。例如,英特爾正在與 Novartis 合作,使用深度神經網絡來加速高內涵篩選 -- 這是早期藥品研發的關鍵元素。雙方的合作把訓練圖片分析模型的時間從11個小時縮短到了31分鐘 -- 改善了20多倍4。為了讓客戶更快速地開發人工智能和物聯網應用,英特爾和C3 IoT宣布針對優化的 AI 硬軟件解決方案進行合作 -- 一個基(ji)于 Intel AI 技術的C3 IoT AI 應用。此外,我們還正(zheng)在把 TensorFlow*、MXNet*、Paddle Paddle*、CNTK*和 ONNX*等深度學(xue)習框(kuang)(kuang)架集成在 nGraph 之上,后(hou)者是一個框(kuang)(kuang)架中(zhong)立的深度神經(jing)網絡(DNN)模(mo)型編譯器。我們已(yi)經(jing)宣布,英特爾(er)人工智能實驗室開源了面(mian)向 Python*的自然語言(yan)(yan)處理庫,幫助研究人員(yuan)開始自己的自然語言(yan)(yan)處理算法(fa)工作。
計算的(de)未來依賴于我們(men)聯合(he)提供(gong)企(qi)業級解決方案(an)的(de)能(neng)力,通過這些解決方案(an)企(qi)業可以(yi)(yi)充分發揮(hui)人(ren)工(gong)智能(neng)的(de)潛力。我們(men)迫切地希(xi)望可以(yi)(yi)與社(she)區以(yi)(yi)及客戶一(yi)起開發和部署這項變革性技術(shu),并期待在(zai)人(ren)工(gong)智能(neng)開發者(zhe)大會(hui)上擁有更精彩的(de)體驗(yan)。
測試中記錄了組件在特定系統的具體測試中的性能。硬件、軟件或配置中的差異將會影響實際性能。如果考慮購買,請在評估性能時參考其它信息來源。欲了解關于性能和基準測試結果的完整信息,請訪問:
來源(yuan):英特爾在(zai)限定版軟(ruan)件開發(fa)工具(SDV)上的測量
1 矩陣-矩陣乘法(GEMM)運算;A(1536, 2048),B(2038, 1536)矩陣大小
2 兩個芯片 vs. 單芯片的GEMM運算性能; A(6144, 2048),B(2038, 1536)矩陣大小
3 全芯片MRB-CHIP MRB數據轉移,使用send/recv,Tensor 大小 = (1, 32),5萬次迭代的平均值
4 20倍是通過(guo)從單節(jie)點系統擴展到8插槽集(ji)群而實現的21.7倍速度提(ti)升。
8插槽集群節點配置:CPU:英特爾®至強® 6148處理器(2.4GHz);核心數:40;插槽數:2;超線程:啟用;內存/節點:192GB,2666MHz;網卡:英特爾® Omni-Path Host Fabric Interface (英特爾® OP HFI);TensorFlow:v1.7.0;Horovod:0.12.1;OpenMPI:3.0.0;集群:ToR Switch:英特爾® Omni-Path Switch
單節點配置:CPU:英特爾®至強®融核處理器7290F;192GB DDR4 RAM;1x 1.6TB 英特爾® SSD DC S3610系列SC2BX016T4;1x 480GB 英特爾® SSD DC S3520系列SC2BB480G7;英特爾® MKL 2017/DAAL/Intel Caffe
英特爾技術的特性和優勢取決于系統配置,可能需要特定的硬件、軟件或服務激活。實際性能因系統配置而異。沒有任何計算機具有絕對安全性。更多信息見 intel.com 或咨詢系統制造(zao)商(shang)或零售商(shang)。
英特(te)爾不控制或審計本文中提及(ji)的第三方(fang)基準測試數據(ju)或網站(zhan)。請訪問參考網站(zhan)并確認參考數據(ju)是否精(jing)確。