編者按:美國加州時間9 月 30 日晚六時,特斯拉 AI Day 準時開始。僅僅過了一年的時間,馬斯克沒有食言,真的把人形機器人「擎天柱」帶到了人們面前。這個」擎天柱「被工作人員推上臺,表演過程中有點」踉踉蹌蹌「,馬斯克笑言,「擔心它摔倒」。馬斯克竟然強調了「不摔倒」這件事的意義。
在我們往常的認知中,機器人站起來是一件常規的事情,對機器狗來說,因為它有四足,所以沒有被重點提及過。但對馬斯克來說,這似乎是一個關鍵技術節點的突破。騰訊科技聯合安信元宇宙研究院院長焦娟,通過十問十答,讀懂新登場的特斯拉人形機器人Optimus的真正科技含量,我們也將重點聊聊,「站立」這件事對人形機器人的技術意義。
劃重點
●特斯拉人形機器人要做成「人」形,是基于人類情感、機器與人的交互的實現方式、及未來商業全景圖的全維度考慮。
(相關資料圖)
●讓人形機器人不摔倒,不是一件容易的事,馬斯克所說的,在「沒有系繩」的情況下,也沒有摔倒,更有可能是人形機器人的重大突破。
●記住2026年這個時間點,馬斯克說3-5年,你就能擁有一個屬于自己的」擎天柱「機器人了,特斯拉降價到19-20W,如果機器人到達現在的車的銷量,成本確實能控制在2W美金。
正文:
Q1:特斯拉機器人「擎天柱」為何要做成「人形」?
我們可以從兩個層面來解讀:
淺層次的原因:「人形」的機器人更便于實現機器與「人」的交互。馬斯克曾表達過,特斯拉做機器人是為了替代人們做危險、重復、無聊的工作,隨著時間的推移,它們可能也會擁有獨特的性格,成為人類的同伴,可以做飯、修剪草坪、照顧老人等,不論是在情感上還是形態上,當機器與人「交互」時,「人形」的物理裝置和人類的「銜接」成本是最低的,即模擬「真實的人」的物理裝置,可以最絲滑、流暢地模擬、替代在社會活動中發揮作用的「人」。
深層次的原因:在虛擬現實的未來「全景圖」中,「人形」機器人有利于滿足未來虛擬現實「全景圖」對軟硬件配置的升級要求。在未來的虛擬現實世界,整個運作環境對人類所具備的軟硬件配置要求會變得更高,人類的部分角色與作用在未來需要人形機器人來填補。
Q2:「人形機器人」與其它機器人相比,有什么難點?
從技術實現路徑上來看,人形機器人和其它形態機器人的物理裝置及外顯沒有差別,因為機器人的本質就是AI,即「基于收集的信息對自身進行迭代式改進的系統和機器」,只不過機器人多了一個物理裝置顯現在現實的物理世界中,從這個角度來看,機器人是方形的、圓形的、人形的、動物形狀的(機器狗、機器馬、機器牛),其實沒有本質差異,頂多是工程方案上的細微差異。
人形機器人與其他機器人的差別或難點,可能在于「人形機器人」被賦予了更高的智力需求。而其他機器人,比如陪伴型機器人「機器狗」只需要1-2歲或3-4歲小孩子的智力水平(用于交互需求),但人形機器人則需要接近于成年人的智力水平,它需要滿足人類對一些應用場景的需求,比如進入家庭場景、能識別非常模糊的指令,以真正發揮出模擬或替代人的部分角色與作用。
Q3:馬斯克擔心」機器人會摔倒「,實現人形機器人的平衡很難嗎?
馬斯克在發布會上說:「這實際上是機器人第一次在‘沒有系繩’的情況下走上舞臺。機器人實際上可以做的比我們展示的要多得多。我們只是不希望它摔倒。」
「不系繩」的這種提法,雖然口語化,但意義最為重大:過往的機器人,需要首先輸入指令,然后它通過消解指令的方法去執行;「不系繩」則是讓機器人獨立去面對周圍環境,而不提前給他輸入指令。
Optimus看似只是在舞臺上簡單走幾步,在」不系繩「的前提下,已經類似于嬰兒的「蹣跚學步」,只要不再摔倒,未來必然會加速成長。對于人類來說,直立行走」不摔倒「可能很簡單,但是對于機器人來說,這個是很難實現的目標,需要考慮各種生物學、運動學因素,并與機器人本體做完美結合。當然,幽默一點,另外的角度,Optimus高1.73米,重113.3斤,一旦摔倒,有可能摔到最貴的腦袋與身體的硬件(也很貴)。
Q4:現場看到的特斯拉人形機器人的技術亮點有哪些?
2021年AI日:是介紹了人形機器人的概念,2022年是人形機器人的第一版
最新一代的optimus機器人,考慮到運動學與量產的關鍵指標:
1)盡可能減少元件的數量與功耗,如四肢的電池組——驅干中心是有電池組的(維持一整天的工作),所有電池的電子設備集中到電池組內的單個PCB里面——從傳感、融合、充電管理匯集到一個系統中,借鑒了電子產品與汽車產品的設計,這款電池是非常關鍵的;
2)流線型的設計與高效簡單的冷卻;
3)大腦——特斯拉車上的FSD電腦,將自動駕駛的硬件與人性平臺的軟件結合在一起,但需求和形式與汽車還是有不一樣的地方
Q5:特斯拉汽車的自動駕駛如何應用在人形機器人上?自動駕駛汽車和人形機器人有何本質的不同?
自動駕駛的模型是「輸入-計算平臺-輸出」,這一模擬過程同樣適用于人形機器人,即一輛能實現自動駕駛的車輛,其本質運作邏輯與人形機器人是一樣的。
它們都能夠用視覺系統識別出周圍的物理環境(不管這個物理環境是在高速駕駛的道路上,還是在家庭聚餐的環境中),然后將所識別出的數據傳輸到計算平臺上,這種計算平臺能通過算法、算力給出實時反饋,并將這些反饋傳輸給「輸出」環節——即傳感器與執行器,這樣,車或人形機器人就可以根據周圍的物理環境的變化,給出恰當的反饋。
自動駕駛車輛與人形機器人唯一的不同,是自動駕駛對這一模型的運作精細度等要求更高,因為在正常情況下,車的駕駛速度遠高于人形機器人的行走或奔跑速度。
Q6:自研超算Dojo對于特斯拉人形機器人的作用體現在哪些方面?
自動駕駛對算力的要求更高。但人形機器人可能對算法的要求更高,因為從認知、決策的角度來講,人形機器人所面臨的環境/場景會更縝密/復雜。
所謂 Dojo,指的是特斯拉自研的超級計算機,它能夠利用海量的視頻數據,為特斯拉自動駕駛做「無人監管」的標注和訓練。這屬于上述模型中,介于「輸入」與「計算平臺」的一部分,這部分的核心意義是真正幫助實現車的「視覺系統」的技術路徑與工程方案:
1)幫助建立高質量統一的向量空間;
2)8個攝像頭綁一起拍攝環繞圖,加入時間維度,生成環繞立體視頻;
3)環繞的視頻必須被自動標記,特斯拉編寫了自己的標簽工具,創造了自動標簽系統,人類標簽只是輔助,其只對已經生成的視頻標簽做一些細微的修改,然后將這些修改反饋給未來的訂單標簽機,最終得到了一個「飛輪」,在這里汽車標簽能夠接收大量的視頻,高精度地自動標簽視頻汽車、車道線、駕駛空間,這里面需要對時間和空間進行存儲,存儲不能是無限的,會消耗大量內存——而這背后的工程方案,即 Dojo。
Q7:特斯拉人形機器人是傳統機器人的完全顛覆?還是傳統機器人的迭代?
完全顛覆。對比特斯拉的人形機器人,過往的機器人大概是擎天柱的「輸出環節」,即傳感器與執行器部分,沒有前面的「輸入」與「計算平臺」。
Q8:特斯拉人形機器人的應用領域主要有哪些方面?會對哪些傳統機器人造成沖擊?
傳統機器人只是「工具」,而特斯拉人形機器人從設計之初,就被賦予能成為獨立「生產力」的期待——即模仿或替代人的作用。
更直觀地說,「工具」需要為人所用,它們類似于斧頭、錘頭的功能;而獨立的「生產力」,就像人的伙伴或助手,人類只需要對其下達模糊的指令,人形機器人就可以理解(認知)并拆解為一系列行動(決策)。故,人形機器人的應用領域,先從to B場景開始,一定會進入家庭等場景的to C領域。
Q9:現場有人提問,「擎天柱會不會成為電影里終結者的樣子?「人形」機器人會不會帶來更嚴重的人工智能治理問題?
馬斯克在問答環節提到,擎天柱Optimus機器人有各種陪伴人類的功能,用戶可以讓機器人做不同的事情,特斯拉未來也會據此形成不同版本的Optimus等。不希望Optimus成為電影里終結者的樣子。為此設計了很多安全屏障,在本地有停止按鈕,遠程也有控制。
人形機器人最難的,不是去實現它,而是去治理好它。人形機器人畢竟是要進入家庭端、to C場景應用的,一定是雙刃劍——用得好,是人的助手/幫手,用得不好,全是風險敞口。從人形機器人的風險控制角度,目前看:1)本地化部署,不能將更新放置在云端;2)成立社會層面的治理委員會;3)最終極的風險控制,可能還是要以人為載體,即腦機接口。
Q10:馬斯克說,3-5年間,你就能擁有一個屬于自己的」擎天柱「機器人了,從現場發布來看,是否靠譜?成本2w美金,是否能實現?
3-5年,即2026年開始,擁有一個屬于自己的擎天柱機器人,我認為是靠譜的——但這種靠譜大概率也需要特定人群,如養老/陪伴需求的老人,這種特定人群或場景的需求,符合發布會現場所說的「有能力去物理世界中移動,一定程度的智能」。
如果不仔細看發布會,或者理解不深入,會認為發布會上的Optimus似乎很一般,但「不系繩」「沒有準備任何備份的支持」,背后是Optimus的核心競爭力,是基于現實世界的智能,這是最重要、也最艱難的一步。
機器人速度比車要慢很多,所以邏輯上,比車簡單(即大腦不用那么高速運轉);硬件的成本上,也比一輛車要少,考慮到特斯拉最近要降價,降到19-20W人民幣一臺車,如果機器人到達現在的車的百萬量級銷量,確實似乎成本可以控制到2w美金。
編輯/lydia