Sora爆火 馬斯克急了!特斯拉才擁有最好的視頻生成技術(shù)

2024-02-20 09:43:17   來源:快科技   評論:0   [收藏]   [評論]
導讀:  這兩天有沒有被OpenAI的新成果Sora刷屏?  熙熙攘攘的龍年春節(jié),人物眾多,同時各有各的行為:  雨后的東京街頭,光影和反射都處理得很到位:  甚至是超近景的蜥蜴,細節(jié)拉滿:  以上均來自O(shè)penAI首個
  這兩天有沒有被OpenAI的新成果Sora刷屏?

  熙熙攘攘的龍年春節(jié),人物眾多,同時各有各的行為:

  雨后的東京街頭,光影和反射都處理得很到位:

  甚至是超近景的蜥蜴,細節(jié)拉滿:

  以上均來自O(shè)penAI首個視頻生成模型Sora。

  只要輸入提示詞,就能生成1分鐘的高清視頻,已經(jīng)被看作是改寫整個視頻生成領(lǐng)域的新王炸技術(shù)。

  這不僅轟動了學術(shù)圈,還讓同為科技圈的老馬坐不住了。

  在推特上直言:特斯拉擁有世界上最好的現(xiàn)實世界模擬和視頻生成能力!

  哎呦,打起來,打起來(doge)。

  馬斯克回應Sora

  Sora發(fā)布后,效果立刻震驚全網(wǎng)。

  不過并不像ChatGPT,現(xiàn)在只有少數(shù)人擁有Sora的訪問權(quán)限。

  但不少人還是想自己玩玩看的,所以O(shè)penAI CEOSam Altman立刻抓住這次展示能力的機會,發(fā)布Sora后在推特上開始在線接單。

  只要發(fā)布提示詞并艾特Sam,或者在Sam的推特下回復,就有可能收到Sora生成好的視頻。

  這其中認真回復的有之,趁機搗亂的也有之。

  狗狗幣圖形設(shè)計師DogeDesigner就回復了Sam的推特,他給的提示詞是:

  一個人把一家開源的非盈利公司變成閉源的盈利公司。

  這描述,你要不直接報Sam身份證號得了(doge)。

  而馬斯克直接把這條回復po了出來。

  一方面他最愛的數(shù)字貨幣就是狗狗幣,在推特上和這位用戶也經(jīng)常互動;而更重要的另一方面,馬斯克和OpenAI有不少過節(jié)。

  雖然馬斯克是聯(lián)合創(chuàng)始人,但后來被踢出了董事會,并且在OpenAI轉(zhuǎn)變?yōu)橛竞,多次在公開場合批評和指責OpenAI失去初心,開始逐利。

  隨后,馬斯克又轉(zhuǎn)發(fā)了一條和OpenAI有關(guān)的內(nèi)容,并配了個帶單片眼鏡的emoji表情,像是在疑惑。

  這條內(nèi)容是在說Sam擁有一家OpenAI的風險投資基金,這家基金截至去年已承諾投資1.75億美元。

  并且這家基金并沒有由OpenAI來管理,只是“暫時”放在Sam的名下。

  眾所周知,Sam并不直接擁有OpenAI的股權(quán),并且把自己通過YC基金對OpenAI投資的間接持有稱為“不重要”,表示自己成立OpenAI就是因為喜歡AI。

  而這則Sam擁有OpenAI風投基金的新聞曝出,馬斯克又表示疑惑,可能想暗指Sam還是想要用OpenAI獲利,并不是之前表現(xiàn)出“淡泊名利”的樣子。

  本以為馬斯克嘲諷兩條就結(jié)束了,誰知在有用戶發(fā)布對比Sora和特斯拉FSD V12的推特后,馬斯克又上線回復:

  特斯拉大概在一年前就能生成真實世界的視頻了,并且精準符合物理學。

  但這并不是很有趣,因為所有的訓練數(shù)據(jù)都來自汽車,所以視頻也看起來像來自特斯拉車輛上的攝像頭,盡管這是動態(tài)生成而不是記錄下的世界。

  那接下來就看看,Sora和特斯拉的能力對比到底如何?

  Sora是什么

  Sora,OpenAI的首個視頻生成大模型,或者說是文生視頻大模型。

  本質(zhì)上是一個擴散模型(Diffusion models),基于不同時長、分辨率和寬高比的視頻和圖像訓練得來。

  官方只淺淺介紹了一些技術(shù)細節(jié),其中比較關(guān)鍵的有patch、潛(latent),以及訓練路線上的選擇。

  對應語言大模型中的token,OpenAI創(chuàng)造了patch這一概念,模型可以將視頻壓縮進低維潛空間中,并分解為Spacetime latent patches,統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。

  也就是說,正如token可以簡化、統(tǒng)一不同的自然語言,patch可以統(tǒng)一不同分辨率、時長和寬高比的視頻和圖像。

  而這個視頻壓縮網(wǎng)絡(luò)也是OpenAI特意訓練的,用來降低視覺數(shù)據(jù)維度,并且訓練也是基于該網(wǎng)絡(luò)進行,可以減少計算量的壓力。

  并且,由于Sora的訓練直接在視頻數(shù)據(jù)的原始尺寸上進行,和其他模型不同,所以在輸出結(jié)果上,Sora也能hold住各種分辨率、時長、寬高比、視角等等的視頻。

  同時還優(yōu)化了構(gòu)圖和布局。比如業(yè)內(nèi)同類型模型都會盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但Sora可以捕捉完整的場景。

  另外,Sora的技術(shù)還包含OpenAI之前在DALL·E 3、擴散型Transformer方面的技術(shù)積累和突破。

  最終展示出的Sora,就不僅能夠理解提示詞中的要求,還了解這些物體在物理世界中的存在方式。

  能理解紙飛機在林中穿過時會發(fā)生碰撞,同時光影也會發(fā)生變化。

  一群紙飛機在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。

  同時在單個視頻中創(chuàng)建多個鏡頭,并靠對語言的深入理解準確地解釋提示詞,保留角色和視覺風格。

  美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天并在附近的攤位購物。絢麗的櫻花花瓣隨著雪花隨風飄揚。

  不過,Sora現(xiàn)在并不完美。OpenAI指出它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關(guān)系。

  例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會變化,一些憑空出現(xiàn)或消失。

  還可能混淆提示的空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。

  如提示詞“籃球穿過籃筐然后爆炸”中,籃球沒有正確被籃筐阻擋。

  但這些缺點也沒讓各路大佬吝嗇他們的贊美,比如紐約大學助理教授、ResNeXt一作謝賽寧直言,Sora將改寫整個視頻生成領(lǐng)域。

  以上就是Sora當前展示出的能力,還有背后的技術(shù),那么特斯拉的能力又如何?

  特斯拉的視頻生成能力

  去年7月,特斯拉自動駕駛軟件總監(jiān)Ashok Elluswamy在CVPR2023的演講中提到,特斯拉正在為其人工智能技術(shù)構(gòu)建一個基礎(chǔ)的世界模型(General World Model)。

  根據(jù)他的介紹,該模型基于神經(jīng)網(wǎng)絡(luò),使用過去的視頻和其他事物為條件來預測未來。

  該模型不僅能預測一個攝像頭的視角,而是可以預測八個攝像頭的視角(展示的是七個)。

  比如對于同一段視頻,該模型可以預測本車在“繼續(xù)直行”和“向右變道”兩種情況下,未來周圍環(huán)境的演變。

  這其實也就是一種基于文本生成不同視頻的能力。

  同時在不同攝像頭視角之間,周圍車輛的顏色可以保持一致,也就是符合3D物體移動的運動規(guī)律。

  特斯拉這里還強調(diào),我們并沒有特意訓練它在3D層面的能力,或者要求它表現(xiàn)出3D層面的能力,這意味著神經(jīng)網(wǎng)絡(luò)已經(jīng)理解了深度、運動等物理概念。

  并且,特斯拉的這個模型不局限于RGB數(shù)據(jù)維度,也可以是語義或者幾何維度。

  一句話總結(jié)就是,基于過去的視頻,給出車輛行動提示,甚至不給提示,該模型可以預測不同的未來情況,以及生成視頻。

  那么既然特斯拉有了如此強大的模型,為什么之前并沒有很多曝光度?

  因為當時介紹時,Ashok直言這還是個“半成品”,關(guān)鍵是它可以提供一個神經(jīng)網(wǎng)絡(luò)模擬器,推演出不同的未來結(jié)果,跟蹤道路中所有移動的物體。

  并且,在馬斯克這次展示自家視頻生成能力時也坦言稱,目前對于FSD訓練的算力還不夠,所以并沒有用模型生成的視頻進行訓練。

  不過馬斯克也表示,特斯拉是可以訓練的,在今年晚些時候,當公司有空余算力了就會開始。

  到這里其實能看出特斯拉的世界模型和Sora之間的相似點,都是通過視覺讓AI能夠理解甚至模擬真實的物理世界。

  只不過OpenAI在探索過程中,先放出Sora給世界帶來一點AI震撼;而特斯拉把這個能力運用在了探索自動駕駛,通過純視覺方案,以及視頻數(shù)據(jù)訓練出的端到端神經(jīng)網(wǎng)絡(luò),F(xiàn)SD V12已經(jīng)能比肩老司機。

  所以FSD和Sora,不過是AI通過視覺認知世界理解世界上的兩個開花結(jié)果,F(xiàn)SD最終用來行動,Sora則是用來生成視頻。

  殊途同歸。

  馬斯克的認知,確實了不得。

分享到:
責任編輯:zsz

網(wǎng)友評論