首頁(yè)IT—正文
直面大模型“大成本”挑戰,如何提高算力效率?
2024年06月03日 15:57 來(lái)源:中國新聞網(wǎng)

  中新網(wǎng)北京6月3日電 (記者 夏賓)近年來(lái),為了追求大模型的智慧能力,各國公司不停加碼投入,4月,Meta宣布追加10億美元投資,用于其AI芯片研發(fā)和AI數據中心建設;亞馬遜為了建設新數據中心投入110億美元。但在大模型擴張的背后,算力代價(jià)、能源代價(jià)同樣巨大。

  有業(yè)界技術(shù)團隊測算,若要對一個(gè)5000億參數規模的單體大模型進(jìn)行充分訓練,所需算力基礎設施約在10億美元規模,每年消耗的電費在5.3億元人民幣。無(wú)論對于哪個(gè)機構、企業(yè),這都是天文數字和巨大代價(jià),中國也不例外。

  知名科學(xué)雜志《Nature》此前發(fā)表了一篇關(guān)于大模型未來(lái)發(fā)展之路的文章,《In Al, is bigger always better?》(人工智能,越大型越好?)。爭議的出現,意味著(zhù)AI發(fā)展方向出現了分歧。

  如今,“大”不再是模型的唯一追求,計算效率和算力開(kāi)銷(xiāo)兩大問(wèn)題成為新的行業(yè)焦點(diǎn)。

  對大模型推理成本的優(yōu)化,可通過(guò)很多技術(shù)手段實(shí)現。首先是模型本身,模型結構、訓練方法都可以持續改進(jìn),包括業(yè)界很關(guān)注的MoE(混合專(zhuān)家模型),就是優(yōu)化推理成本很好的解決方案。其次是工程上的優(yōu)化。大模型的調用量越大,優(yōu)化推理成本的空間也越大。以前的模型都是單機推理,大模型用的是分布式推理。所以如果能把各種各樣底層算力用得更好,推理成本就會(huì )大大降低。

  MoE大模型的盛行,實(shí)際上對應的正是模型能力和算力開(kāi)銷(xiāo)兩大問(wèn)題的解決。這也是為何眾多大模型廠(chǎng)商如OpenAI、谷歌、Mistral AI、浪潮信息等陸續基于MoE架構升級自家大模型產(chǎn)品的原因。

  從浪潮信息發(fā)布的“源2.0-M32”開(kāi)源大模型來(lái)看,其基于“源2.0”系列大模型已有工作基礎,創(chuàng )新提出和采用了“基于注意力機制的門(mén)控網(wǎng)絡(luò )”技術(shù),構建包含32個(gè)專(zhuān)家(Expert)的混合專(zhuān)家模型(MoE),并大幅提升了模型算力效率,模型運行時(shí)激活參數為37億,在業(yè)界主流基準評測中性能全面對標700億參數的LLaMA3開(kāi)源大模型。

  浪潮信息人工智能首席科學(xué)家吳韶華在接受中新網(wǎng)記者采訪(fǎng)時(shí)說(shuō),我們一直在想如何以更低的算力消耗,提高整個(gè)大模型的應用效果,能讓企業(yè)、機構以更小的算力代價(jià)去獲得更高的模型能力!斑@可能是中國發(fā)展自己的AI大模型比較行之有效的路徑!

  他直言,大模型推進(jìn)速度越來(lái)越快,必須強調模型算力效率!按蠹铱梢韵胂,效率越高就意味著(zhù)在單位算力投入相等的情況下獲得的精度回報越高,它對于訓練和應用都非常有利!

  “現實(shí)的算力是有限的,我們一再反復強調模算效率,試圖針對當前算力情況闖出一條自己覺(jué)得比較好的路子。在固定每個(gè)Token算力不變的情況下,通過(guò)擴展專(zhuān)家數量可以獲得更大參數量的模型,進(jìn)而獲得更高精度!眳巧厝A說(shuō)。

  他進(jìn)一步稱(chēng),整體來(lái)看,盡管當前模型的能力提升非常之快,但之前大家更多關(guān)注單個(gè)維度問(wèn)題,即平均精度的提升。但大模型進(jìn)入快速落地時(shí)代,就不得不考慮更多維度的問(wèn)題,包括模算效率、精度、算力開(kāi)銷(xiāo)等。

  中國工程院院士鄭緯民曾做過(guò)這樣的計算,在大模型訓練過(guò)程中,70%開(kāi)銷(xiāo)要花在算力上;推理過(guò)程中95%的花費也是在算力上。

  為解決大模型訓練的算力不足問(wèn)題,鄭緯民建議,在推動(dòng)智能計算中心建設同時(shí)也可以利用已有超算系統的空余算力。

  鄭緯民表示,現有14個(gè)國家掛牌的超算系統,每臺機器的建設成本都很高,成本在10億元至20億元,甚至更高。這些超算系統已經(jīng)為中國的國民經(jīng)濟發(fā)展作出巨大貢獻,但有些系統還有空余算力,這些空余算力也可被用來(lái)做大模型訓練,且經(jīng)過(guò)優(yōu)化甚至可降低大模型訓練成本。

  對于近期中國企業(yè)的一輪大模型降價(jià),零一萬(wàn)物CEO李開(kāi)復表示,未來(lái)整個(gè)行業(yè)的推理成本每年降低十倍是可以期待的,且這個(gè)趨勢是必然的,如此會(huì )有更多人用上大模型,這是非常利好的消息。(完)

編輯:孫婷婷