百度沈抖:百舸4.0升級(jí)發(fā)布,模型訓(xùn)練有效時(shí)長(zhǎng)達(dá)99.5%

2024-09-25 11:14:48   來(lái)源:新浪科技   評(píng)論:0   [收藏]   [評(píng)論]
導(dǎo)讀:  新浪科技訊 9月25日上午消息,今日舉辦的2024百度云智大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布百度百舸AI異構(gòu)計(jì)算平臺(tái)4 0升級(jí)發(fā)布,支持多芯混訓(xùn)、多芯適配,在萬(wàn)卡集群上實(shí)現(xiàn)了超過(guò)99 5
  新浪科技訊 9月25日上午消息,今日舉辦的2024百度云智大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布百度百舸AI異構(gòu)計(jì)算平臺(tái)4.0升級(jí)發(fā)布,支持多芯混訓(xùn)、多芯適配,在萬(wàn)卡集群上實(shí)現(xiàn)了超過(guò)99.5%的有效訓(xùn)練時(shí)長(zhǎng)。

  在算力緊缺的當(dāng)下,效率的提升將能夠幫助企業(yè)有效提升算力使用率,進(jìn)而降低成本。據(jù)介紹,為解決算力資源短缺的問(wèn)題,百舸4.0對(duì)“多芯混訓(xùn)”能力進(jìn)行了重點(diǎn)升級(jí),實(shí)現(xiàn)了在萬(wàn)卡規(guī)模集群上95%的多芯混合訓(xùn)練效能,達(dá)到業(yè)務(wù)最領(lǐng)先水平。

  在集群部署環(huán)節(jié),升級(jí)后的百舸能夠?qū)崿F(xiàn)工具層面的秒級(jí)部署,將萬(wàn)卡集群運(yùn)行準(zhǔn)備時(shí)間從數(shù)周最快縮減至1小時(shí),極大地提升部署效率,縮短業(yè)務(wù)上線周期。

  針對(duì)大模型訓(xùn)練過(guò)程中故障頻發(fā)的問(wèn)題,百舸4.0全面升級(jí)了故障檢測(cè)手段和自動(dòng)容錯(cuò)機(jī)制,可以有效降低故障發(fā)生頻次,大幅減少集群故障處置時(shí)間,在萬(wàn)卡集群上實(shí)現(xiàn)了超過(guò)99.5%的有效訓(xùn)練時(shí)長(zhǎng)。

  在模型推理上,最重要的是速度和成本,F(xiàn)在長(zhǎng)文本推理逐漸成為主流,百舸4.0整體上做到了推理速度和成本優(yōu)化,長(zhǎng)文本推理效率提升了1倍以上。

分享到:
責(zé)任編輯:zsz

網(wǎng)友評(píng)論