OpenAI 版終結(jié)者降臨！地表最強(qiáng)機(jī)器人 Figure 02 問世，進(jìn)寶馬狂飆 20 小時

2024-08-08 09:51:33 來源：IT之家評論：0 [收藏] [評論]

導(dǎo)讀：　　歷時 18 個月，地表最強(qiáng)人形機(jī)器人誕生了!黑色外觀顏值爆表，五指靈活，號稱是地球上最先進(jìn)的 AI 硬件，還有 OpenAI 的模型加持推理�，F(xiàn)在，它已經(jīng)進(jìn)寶馬工廠打工了，干 20 小時都不帶停的那種!　　...

　　歷時 18 個月，地表最強(qiáng)人形機(jī)器人誕生了!黑色外觀顏值爆表，五指靈活，號稱是地球上最先進(jìn)的 AI 硬件，還有 OpenAI 的模型加持推理�，F(xiàn)在，它已經(jīng)進(jìn)寶馬工廠打工了，干 20 小時都不帶停的那種!

　　號稱 OpenAI 二代機(jī)器人「Figure 02」，真的來了!Figure AI 終于官宣了第二代人形機(jī)器人，完全換了一身新形象 —— 黑色的外觀，更加靈活的五指。

　　創(chuàng)始人 Brett Adcock 表示，「這是『地表最強(qiáng)』的人形機(jī)器人」!

　　值得一提的是，F(xiàn)igure 02 的設(shè)計評審耗時 18 個月完成。

　　據(jù)介紹，迭代后的 Figure 手部具有 16 個自由度，能夠承受與人類相當(dāng)?shù)牧α俊?/p>

　　現(xiàn)在的它，已經(jīng)進(jìn)入寶馬車廠開始打工了，可以無休止地狂干 20 個小時。

　　Figure 02 還可以與人類直接開啟「語音對話」，這背后依舊用上了 OpenAI 最先進(jìn)的定制 AI 模型，通過語音-語音進(jìn)行推理。

　　與初代類似，它擁有一個機(jī)載的視覺模型(VLM)，可通過攝像頭，完成視覺推理。

　　去年，初代機(jī)器人 Figure 01，同樣在 OpenAI 大模型的加持下，能夠看、聽、遵循人類指令。

　　不僅如此，這家明星初創(chuàng)背后，還得到了英偉達(dá)、阿爾特曼、貝索斯等大佬的聯(lián)合投資。

　　如今，工程和設(shè)計團(tuán)隊在 Figure 02 上完成了一次從零開始的硬件和軟件重新設(shè)計。

　　其中，在包括人工智能、計算機(jī)視覺、電池、電子設(shè)備、傳感器和執(zhí)行器等關(guān)鍵技術(shù)上，取得了巨大的進(jìn)步：

　　語音到語音：通過內(nèi)置麥克風(fēng)和揚聲器連接自定義 AI 模型，能夠與人類進(jìn)行對話

　　攝像頭：由 6 個內(nèi)置 RGB 攝像頭驅(qū)動的 AI 視覺系統(tǒng)

　　手部：第四代手部具有 16 個自由度和等同于人類的力量

　　內(nèi)置 VLM：使機(jī)器人攝像頭能夠進(jìn)行快速的常識性視覺推理

　　電池：機(jī)器人軀干內(nèi)的 2.25 千瓦時定制電池組提供 50% 以上的能量

　　CPU / GPU：相比上一代，機(jī)載計算和 AI 推理能力提高了 3 倍

　　更流線型的外觀

　　Figure 02 機(jī)器人與其前身 Figure 01 身高相似，但在很多方面都進(jìn)行了改進(jìn)。最明顯的變化是機(jī)器人的「皮膚」采用了啞光黑色外觀，而不是 Figure 01 的鉻金屬飾面。

　　之前的機(jī)器人看起來像穿著盔甲，而 Figure 02 看起來像一輛現(xiàn)代跑車，擁有流線型的曲線和精致的外觀。

　　另一個變化部分就是電纜。在 Figure 01 中，電纜被故意布置在機(jī)身外部，以支持測試夾具、更換傳感器和電機(jī)，并加快維修速度。而在 Figure 02 中，所有電纜都集成到了四肢中，保護(hù)它們免受環(huán)境的影響，并為長時間在生產(chǎn)線上工作做好準(zhǔn)備。

　　Figure AI 表示，新機(jī)器人的電池容量比 Figure 01 大 50%，能夠在實際部署中工作更長時間。電池已集成到人形機(jī)器人的軀干中，使其重心更接近中心線位置，使得機(jī)器人更加靈活。

　　Figure AI 還為其定制了電機(jī)，與關(guān)節(jié)傳動系統(tǒng)集成在一起，以優(yōu)化每個關(guān)節(jié)的功率和性能。

　　機(jī)器人設(shè)計的一大難題，就是可靠地通過旋轉(zhuǎn)關(guān)節(jié)布線。我們可以看到，F(xiàn)igure 02 的肩部、肘部、髖部和膝部四個主要關(guān)節(jié)組設(shè)計非常簡潔，完美解決了這個難題。

　　準(zhǔn)備好接收語音指令

　　AI 模型的訓(xùn)練決定了機(jī)器人智能和能力的核心，因此 Figure AI 與 OpenAI 的合作可謂「如虎添翼」，能夠快速測試、驗證和迭代機(jī)器人的語音互動功能。

　　早在 GPT-4o 發(fā)布前，F(xiàn)igure AI 的視頻就展示了機(jī)器人如何通過語音指令與人類互動，最新發(fā)布的 Figure 02 在 OpenAI 定制模型到加持下，也可以通過麥克風(fēng)和揚聲器人類進(jìn)行對話。

　　Figure AI 表示，F(xiàn)igure 02 的計算和 AI 推理能力提升了 3 倍，可以在現(xiàn)實世界中完全自主地執(zhí)行任務(wù)。

　　新型號配備了六個 RGB 攝像頭，用于感知物理世界，此外還配備了一個車載視覺語言模型，能夠快速進(jìn)行常識性的視覺推理。

　　視覺模型能夠處理所有車載圖像以進(jìn)行感知、避障，最重要的是進(jìn)行手眼協(xié)調(diào)，以便機(jī)器人能夠識別并拾取面前的物體。

　　另外，比起 Figure 01，F(xiàn)igure 02 擁有 3 倍機(jī)載計算能力和 AI 推理能力。這使得機(jī)器人能夠完全自主地執(zhí)行實際的 AI 任務(wù)。

　　這里 AI 數(shù)據(jù)引擎會提供最新的 AI 模型，并直接直接在設(shè)備的 GPU 上運行。

　　操控人手能抓的物體

　　自成立以來，F(xiàn)igure AI 已經(jīng)在機(jī)器人手部的設(shè)計和功能上投入了大量資金。由此得到的最新設(shè)計，不僅具有十六個自由度(DoF)，而且能夠承載最多 25 公斤(55.1 磅)的物體。

　　與此同時，這雙「手」的外觀也與人類都非常相似 —— 有四根手指和一個拇指。具體來說，每根手指由一個集成單元驅(qū)動，該單元包括傳感器和電機(jī)。

　　手腕是另一個新穎的設(shè)計，提供了與人類手腕相似的運動范圍，同時將所有電力和傳感信號線路封裝并引導(dǎo)到手和手指。

　　Figure AI 表示，他們的目標(biāo)就是讓機(jī)器人能夠操控任何人類手能抓住的物體。

　　資金雄厚，但人形機(jī)器人賽道競爭激烈

　　Figure AI 最初擺脫「隱身」模式還是在 2023 年 3 月，推出了通用人形機(jī)器人 Figure 01，希望能應(yīng)用于工業(yè)制造、物流、倉儲、零售等多個行業(yè)以解決全球范圍內(nèi)的勞動短缺問題。

　　根據(jù)創(chuàng)始人 Adcock 的設(shè)想，機(jī)器人們可以替人類承擔(dān)不安全和不受歡迎的工作，構(gòu)建一個更加自動化且高效的未來。并且他堅稱，F(xiàn)igure AI 的這項技術(shù)絕不會被武器化。

　　很難想象，F(xiàn)igure AI 第一代全規(guī)模機(jī)器人的構(gòu)建僅花了短短 6 個月的時間，不得不說，這得益于包括 CTO Jerry Pratt 在內(nèi)的 40 名行業(yè)專家組成的強(qiáng)大團(tuán)隊。

　　作為 2024 年初的投資寵兒，F(xiàn)igure AI 目前已籌集了 6.75 億美元資金。

　　憑借雄厚的資金，聯(lián)合創(chuàng)始人兼 CEO Brett Adcock 正在全速推進(jìn)，目標(biāo)是在未來 2~5 年內(nèi)將自主雙足機(jī)器人推向市場。

　　其實，今年早些時候，F(xiàn)igure AI 就已經(jīng)在南卡羅來納州一家寶馬工廠測試了。在這里，AI 模型訓(xùn)練的數(shù)據(jù)會被收集起來。

　　在演示中我們可以看到，機(jī)器人完全展現(xiàn)出了在工業(yè)環(huán)境中運行的能力，還能學(xué)習(xí)執(zhí)行基本任務(wù)。

　　當(dāng)然，這個越來越卷的賽道中，其他競爭對手也沒閑著。

　　Agility Robotics 的 Digit 和 Apptronik 的 Apollo，早就把自家機(jī)器人部署到了 GXO 物流公司中，執(zhí)行簡單任務(wù)。

　　馬斯克家的 Optimus，也很早就被「下放」到了特斯拉工廠;波士頓動力，也有意在現(xiàn)代設(shè)施中，給最新版 Atlas 進(jìn)行測試。

　　在科幻故事中，我們早就見識過各類人形機(jī)器人，但在商業(yè)產(chǎn)品的推出上，它們其實一直進(jìn)展緩慢。

　　一方面是受限于研究環(huán)境，另一方面，設(shè)計也非常昂貴。

　　然而，LLM 和多模態(tài) AI 模型的發(fā)展，改變了這一切!如果模型能快速分析實時視頻和音頻輸入，還能以類人音頻和動作進(jìn)行相應(yīng)，那科幻中的場景，顯然不會很遙遠(yuǎn)了。

　　擁有 Optimus 的馬斯克最近大膽預(yù)言，地球上有超過 100 億臺人形機(jī)器人的市場，這意味著未來每個人會擁有不止一臺機(jī)器人。

　　此外，英偉達(dá)的 GR00T 項目也在進(jìn)行時，展示了 AI 在指導(dǎo)人形機(jī)器人方面的進(jìn)展。

　　Jim Fan 發(fā)布的這個視頻中，人類遠(yuǎn)程操作員可以通過佩戴 Apple Vision Pro 來引導(dǎo)機(jī)器人完成正確動作。

　　快速 QA

　　由于官方并沒有透露太多信息，因此外媒 IEEE Spectrum 找到了 Figure 的控制總監(jiān) Michael Rose 和硬件總監(jiān) Vadim Chernyak，并做了一波快速的 QA。

　　問：Figure 02 有多少個部件?這些是全部嗎?

　　答：有幾百個獨特的部件，總共有幾千個部件。不，這不是全部。

　　問：Figure 02 每走一步都會留下 Figure 標(biāo)志嗎?

　　答：如果表面足夠柔軟的話，是的。

　　問：「可更換的腿」是很難做到的嗎，還是因為只需要做一條腿而更容易呢?

　　答：我們選擇制作可更換的腿是為了便于制造。

　　問：電池包也是可更換的嗎?

　　答：我們的電池是可更換的，但這不是一個快速更換的過程。

　　問：Figure 02 膝蓋后面和肘關(guān)節(jié)處那個看起來軟軟的東西是什么呢?

　　答：這些是軟限位器，它們以受控的方式限制運動范圍，并防止機(jī)器人夾傷。

　　問：你們把拇指的馬達(dá)藏哪了?

　　答：拇指現(xiàn)在完全包含在手中。

　　問：脖子上的「皮膚」是什么?

　　答：這種皮膚是一種柔軟的織物，即使機(jī)器人移動頭部，也能保持干凈無縫的外觀。

　　問：當(dāng) Figure 02 的頭部轉(zhuǎn)動時，它的身體也會轉(zhuǎn)動，手臂也會移動。這是必要的，還是只是出于美學(xué)考慮?

　　答：只是出于美學(xué)考慮。

　　問：上半身和肩膀看起來比其他人形機(jī)器人窄得多。為什么設(shè)計成這樣?

　　答：我們認(rèn)為將機(jī)器人設(shè)計成與人類相似的比例非常重要。這使我們能夠完成目標(biāo)使用場景，并更容易適應(yīng)環(huán)境。

　　問：Figure 02 的步態(tài)是如何設(shè)計的?

　　答：機(jī)器人使用模型預(yù)測控制器來確定腳步位置和維持平衡所需的力量，從而跟隨預(yù)定的軌跡。

　　問：2.25 千瓦時的電量在視頻中的那些任務(wù)中能運行多長時間?

　　答：我們的目標(biāo)是讓產(chǎn)品運行 5 小時。

　　參考資料：

　　https://x.com/Figure_robot/status/1820791819023909031

　　https://www.therobotreport.com/figure-02-humanoid-robot-is-ready-to-get-to-work/

　　https://spectrum.ieee.org/figure-new-humanoid-robot

　　https://venturebeat.com/ai/openai-backed-startup-figure-teases-new-humanoid-robot-figure-02/

分享到：

責(zé)任編輯：zsz

更多相關(guān)搜索：

新聞
圖片
下載
專題

返回產(chǎn)品頻道

快速導(dǎo)航：新聞立場角度消費服務(wù) 產(chǎn)品

OpenAI 版終結(jié)者降臨！地表最強(qiáng)機(jī)器人 Figure 02 問世，進(jìn)寶馬狂飆 20 小時

網(wǎng)友評論

智能應(yīng)用排行

延伸閱讀

最新智能應(yīng)用

OpenAI 版終結(jié)者降臨！地表最強(qiáng)機(jī)器人 Figure 02 問世，進(jìn)寶馬狂飆 20 小時

網(wǎng)友評論

智能應(yīng)用排行

延伸閱讀

最新智能應(yīng)用

OpenAI 版終結(jié)者降臨！地表最強(qiáng)機(jī)器人 Figure 02 問世，進(jìn)寶馬狂飆 20 小時