拿CPU搞AI推理 誰(shuí)給你的底氣
大模型的訓(xùn)練階段我們選擇GPU,但到了推理階段,我們果斷把CPU加到了菜單上。
量子位在近期與眾多行業(yè)人士交流過(guò)程中發(fā)現(xiàn),他們中有很多人紛紛開(kāi)始傳遞出上述的這種觀點(diǎn)。
無(wú)獨(dú)有偶,Hugging Face在官方優(yōu)化教程中,也有數(shù)篇文章劍指“如何用CPU高效推理大模型”:
而且細(xì)品教程內(nèi)容后不難發(fā)現(xiàn),這種用CPU加速推理的方法,所涵蓋的不僅僅是大語(yǔ)言模型,更是涉獵到了圖像、音頻等形式的多模態(tài)大模型。
不僅如此,就連主流的框架和庫(kù),例如TensorFlow和PyTorch等,也一直在不斷優(yōu)化,提供針對(duì)CPU的優(yōu)化、高效推理版本。
就這樣,在GPU及其他專用加速芯片一統(tǒng)AI訓(xùn)練天下的時(shí)候,CPU在推理,包括大模型推理這件事上似乎辟出了一條“蹊徑”,而且與之相關(guān)的討論熱度居然也逐漸高了起來(lái)。
至于為什么會(huì)出現(xiàn)這樣的情況,與大模型的發(fā)展趨勢(shì)可謂是緊密相關(guān)。
自從ChatGPT問(wèn)世引爆了AIGC,國(guó)內(nèi)外玩家先是以訓(xùn)練為主,呈現(xiàn)出一片好不熱鬧的百模大戰(zhàn);然而當(dāng)訓(xùn)練階段完畢,各大模型便紛紛踏至應(yīng)用階段。
就連英偉達(dá)在公布的最新季度財(cái)報(bào)中也表示,180億美元數(shù)據(jù)中心收入,AI推理已占四成。
由此可見(jiàn),推理逐漸成為大模型進(jìn)程,尤其是落地進(jìn)程中的主旋律。
為什么Pick CPU做推理?
要回答這個(gè)問(wèn)題,我們不妨先從效果來(lái)倒推,看看已經(jīng)部署了CPU來(lái)做AI推理的“玩家”用得如何。
有請(qǐng)兩位重量級(jí)選手——京東云和英特爾。
今年,京東云推出了搭載第五代英特爾?至強(qiáng)?可擴(kuò)展處理器的新一代服務(wù)器。
首先來(lái)看這款新服務(wù)器搭載的CPU。
若是用一句話來(lái)形容這個(gè)最新一代的英特爾?至強(qiáng)?可擴(kuò)展處理器,或許就是AI味道越發(fā)得濃厚——
與使用相同內(nèi)置AI加速技術(shù)(AMX,高級(jí)矩陣擴(kuò)展)的前一代,也就是第四代至強(qiáng)?可擴(kuò)展處理器相比,它深度學(xué)習(xí)實(shí)時(shí)推理性能提升高達(dá)42%;與內(nèi)置上一代AI加速技術(shù)(DL-Boost,深度學(xué)習(xí)加速)、隔輩兒的第三代至強(qiáng)?可擴(kuò)展處理器相比,AI推理性能更是最高提升至14倍。
到這里,我們就要詳細(xì)說(shuō)說(shuō)英特爾?至強(qiáng)?內(nèi)置AI加速器經(jīng)歷的兩個(gè)階段了:
第一階段,針對(duì)矢量運(yùn)算優(yōu)化。
從2017年第一代至強(qiáng)?可擴(kuò)展處理器引入高級(jí)矢量擴(kuò)展 512(英特爾?AVX-512)指令集開(kāi)始,讓矢量運(yùn)算利用單條CPU指令就能執(zhí)行多個(gè)數(shù)據(jù)運(yùn)算。
再到第二代和第三代的矢量神經(jīng)網(wǎng)絡(luò)指令 (VNNI,是DL-Boost的核心),進(jìn)一步把乘積累加運(yùn)算的三條單獨(dú)指令合并,進(jìn)一步提升計(jì)算資源的利用率,同時(shí)更好地利用高速緩存,避免了潛在的帶寬瓶頸。
第二階段,也就是現(xiàn)階段,針對(duì)矩陣運(yùn)算優(yōu)化。
所以從第四代至強(qiáng)?可擴(kuò)展處理器開(kāi)始,內(nèi)置AI加速技術(shù)的主角換成了英特爾?高級(jí)矩陣擴(kuò)展(英特爾AMX)。它特別針對(duì)深度學(xué)習(xí)模型最常見(jiàn)的矩陣乘法運(yùn)算優(yōu)化,支持BF16(訓(xùn)練/推理)和INT8(推理)等常見(jiàn)數(shù)據(jù)類型。
英特爾AMX主要由兩個(gè)組件組成:專用的Tile寄存器存儲(chǔ)大量數(shù)據(jù),配合TMUL加速引擎執(zhí)行矩陣乘法運(yùn)算。有人把它比作內(nèi)置在CPU里的Tensor Core,嗯,確實(shí)很形象。
這么一搞,它不僅做到在單個(gè)操作中計(jì)算更大的矩陣,還保證了可擴(kuò)展性和可伸縮性。
英特爾AMX在至強(qiáng)CPU每個(gè)內(nèi)核上并靠近系統(tǒng)內(nèi)存,這樣一來(lái)可減少數(shù)據(jù)傳輸延遲、提高數(shù)據(jù)傳輸帶寬,實(shí)際使用上的復(fù)雜性也降低了。
例如現(xiàn)在若是將不超過(guò)200億參數(shù)的模型“投喂”給第五代至強(qiáng)?可擴(kuò)展處理器,那么時(shí)延將低到不超過(guò)100毫秒!
其次再看新一代京東云服務(wù)器。
據(jù)介紹,京東與英特爾聯(lián)合定制優(yōu)化的第五代英特爾?至強(qiáng)?可擴(kuò)展處理器的Llama2-13B推理性能(Token 生成速度)提升了 51%,足以滿足問(wèn)答、客服和文檔總結(jié)等多種AI場(chǎng)景的需求場(chǎng)景。
△Llama2-13B推理性能測(cè)試數(shù)據(jù)
對(duì)于更高參數(shù)模型,甚至是70B Llama2, 第五代英特爾至強(qiáng)可擴(kuò)展處理器仍可勝任勝任。
由此可見(jiàn),CPU內(nèi)置AI加速器發(fā)展到現(xiàn)在,用于推理已能保證在性能上足夠應(yīng)對(duì)實(shí)戰(zhàn)需求了。
像這樣建立在通用服務(wù)器基礎(chǔ)上的AI加速方案,除了可用于模型推理之外,還能靈活滿足數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等應(yīng)用的需求,夸張點(diǎn)說(shuō),一個(gè)服務(wù)器就能完成AI應(yīng)用的平臺(tái)化和全流程支持。
不僅如此,用CPU做AI推理,也存在CPU與生俱來(lái)的優(yōu)勢(shì),例如成本,還有更為重要的——部署和實(shí)踐的效率。
因?yàn)樗旧砭褪怯?jì)算機(jī)的標(biāo)準(zhǔn)組件,幾乎所有的服務(wù)器和計(jì)算機(jī)都配備了CPU,傳統(tǒng)業(yè)務(wù)中也已然存在大量的基于CPU的現(xiàn)成應(yīng)用。
這意味著選擇CPU進(jìn)行推理,既容易獲取,也不需要導(dǎo)入異構(gòu)硬件平臺(tái)的設(shè)計(jì)或具備相關(guān)的人才儲(chǔ)備,還更容易獲得技術(shù)支持和維護(hù)。
以醫(yī)療行業(yè)為例,過(guò)去CPU已廣泛用于電子病歷系統(tǒng)、醫(yī)院資源規(guī)劃系統(tǒng)等,培養(yǎng)出成熟的技術(shù)團(tuán)隊(duì),也建立了完善的采購(gòu)流程。
以此為基礎(chǔ),醫(yī)療信息化龍頭企業(yè)衛(wèi)寧健康,就利用CPU構(gòu)建了能夠高效、低成本部署和應(yīng)用的WiNEX Copilot落地方案,這個(gè)方案已深度集成到衛(wèi)寧新一代的WiNEX產(chǎn)品中,任何一家已采用該系統(tǒng)的醫(yī)院,都能迅速上崗這種“醫(yī)生AI助手”。
僅其一項(xiàng)病歷文書(shū)助手功能,就可以在8小時(shí)內(nèi),也就是在醫(yī)生下班后的時(shí)間里處理近6000份病歷,相當(dāng)于三甲醫(yī)院12位醫(yī)生一天工作量的總和!
而且也正如我們剛才所提到的,從Hugging Face所提供的優(yōu)化教程來(lái)看,只需要簡(jiǎn)單的幾步,就可以讓CPU快速部署用于高效推理。
優(yōu)化簡(jiǎn)單、上手快,便是CPU真正在AI應(yīng)用落地過(guò)程中的又雙叒一個(gè)優(yōu)勢(shì)了。
這意味著任何或大或小的場(chǎng)景中,只要基于CPU的優(yōu)化實(shí)現(xiàn)了一個(gè)單點(diǎn)的成功突破,那么它很快就可以實(shí)現(xiàn)精準(zhǔn)且快速的復(fù)制或擴(kuò)展,結(jié)果就是:能讓更多用戶能在相同或相近的場(chǎng)景中,以更快的速度、更優(yōu)的成本把AI應(yīng)用落到實(shí)地。
畢竟英特爾不僅是一家硬件公司,同時(shí)也擁有著龐大的軟件團(tuán)隊(duì)。在傳統(tǒng)深度學(xué)習(xí)時(shí)代就積累了大量?jī)?yōu)化方法和工具,如OpenVINO? 工具包就在工業(yè)、零售等行業(yè)廣泛應(yīng)用。
到了大模型時(shí)代,英特爾也深入與主流大模型如Llama 2、Baichuan、Qwen等深度合作,以英特爾?Extension for Transformer工具包為例,它就能讓大模型推理性能加速達(dá)40倍。
加之現(xiàn)在大模型所呈現(xiàn)的明顯趨勢(shì)就是越發(fā)地開(kāi)始卷應(yīng)用,如何能讓層出不窮的新應(yīng)用“快好省”地落下去、用起來(lái)成了關(guān)鍵中的關(guān)鍵。
因此,為什么越來(lái)越多的人會(huì)選擇CPU做AI推理,也就不難理解了。
或許,我們還可以再引用一下英特爾CEO帕特·基辛格2023年底接受媒體訪問(wèn)時(shí)所說(shuō)的話,來(lái)鞏固一下各位的印象:
“從經(jīng)濟(jì)學(xué)的角度看推理應(yīng)用的話,我不會(huì)打造一個(gè)需要花費(fèi)四萬(wàn)美元的全是H100的后臺(tái)環(huán)境,因?yàn)樗碾娞?,并且需要?gòu)建新的管理和安全模型,以及新的IT基礎(chǔ)設(shè)施?!?/p>
“如果我能在標(biāo)準(zhǔn)版的英特爾芯片上運(yùn)行這些模型,就不會(huì)出現(xiàn)這些問(wèn)題?!?/p>
AI Everywhere
回看2023年,大模型本身是AI圈絕對(duì)的話題中心。
但2024年剛開(kāi)始,明顯能感覺(jué)到的趨勢(shì)就是各類技術(shù)進(jìn)展,各行業(yè)應(yīng)用落地進(jìn)展都在加快,呈現(xiàn)一種“多點(diǎn)開(kāi)花”的局面。
在這種局面下,可以預(yù)見(jiàn)的是還將有更多AI推理需求涌現(xiàn),推理算力在整個(gè)AI算力需求中所占的比例只會(huì)增加。
比如以Sora為代表的AI視頻生成,業(yè)內(nèi)推測(cè)其訓(xùn)練算力需求其實(shí)比大模型少,但推理算力需求卻是大模型的成百上千倍。
而AI視頻應(yīng)用落地需要的視頻傳輸?shù)绕渌铀賰?yōu)化,也是CPU的拿手好戲。
所以綜合來(lái)看,CPU在整個(gè)英特爾AI Everywhere愿景下的定位也就明確了:
補(bǔ)足GPU或?qū)S眉铀倨鞲采w不到或不足的地方,為更多樣和復(fù)雜的場(chǎng)景提供靈活的算力選擇,在強(qiáng)化通用計(jì)算的同時(shí),成為AI普及的重要基礎(chǔ)設(shè)施。
本文轉(zhuǎn)載于快科技,文中觀點(diǎn)僅代表作者個(gè)人看法,本站只做信息存儲(chǔ)
本站部分文章來(lái)自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場(chǎng)。閱讀前請(qǐng)查看【免責(zé)聲明】發(fā)布者:思娟,如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。本文鏈接:http://www.256680.cn/keji/126600.html