免费无码AⅤ片在线观看_欧美日韩在线二区_99草在线_一级在线免费看_欧美色综合_国产免费一区二区三区视频天天爽

系列解讀 | 行業首次,具身智能有了類似自動駕駛的演進路線 發布時間:2024-09-14 19:46:00

      機器人正以前所未有的速度進入大眾視野,近期世界機器人大會WRC盛況再次印證了這一趨勢,各式各樣的機器人集中亮相、大顯神通,得益于“聰明的大腦”,它們有望逐步進入工廠、商超、甚至家庭等,幫助人類或獨立完成各種各樣的任務。




01

具身大模型驅動機器人進化


      這里“聰明的大腦”,指的是大模型,更準確來說,是具身大模型。


      當前大模型可以劃分為兩大類別:非具身大模型和具身大模型。


      非具身大模型:以ChatGPT、GPT-4V、Sora、GPT-4o為代表,這類模型的主要特點是輸入從單模態文本擴展到多模態的語音、圖像、視頻,其輸出也包括了文本、音頻、圖像、視頻等,面向的是人類。這些大模型功能強大,但并不直接針對機器人領域,更多還是在人機交互、內容生成等方面展現價值。


      具身大模型:相比之下,具身大模型則直接面向機器人,核心特點對物理世界的感知或接收人類指令后,機器人能夠直接高頻輸出動作。自動駕駛大模型(如特斯拉FSD)是最典型的代表,汽車通過實時接收視覺信號(主要是圖像)的輸入,可以直接控制汽車方向盤、踏板等機構,實現自動駕駛功能。




t2.png




      機器人作為更復雜的物理系統,機器人具身大模型的輸入不僅包括實時視覺信號,還涉及到人類語言、觸覺等多種模態,其動作空間的自由度也更高,還需要全身各部位(底盤、腿、手臂、手指等)的協同運動。





02

業界代表:谷歌RT-2


      谷歌RT-2是機器人大模型的代表,RT-2是一個端到端的具身大模型,它將機器人的感知、理解、決策、規劃、動作等融為一體,能夠在開放的環境中機器人可以直接輸出動作。


      在谷歌山景城辦公室的廚房測試中,RT-2展現了極高的任務執行成功率(近98%),但是,這一成績的背后也暴露出RT-2端到端大模型面臨的挑戰。


      首先,泛化性是一大難題。RT-2在特定廚房環境中的高成功率,一旦換到施工工地、嘈雜后廚等復雜場景,成功率便驟降至30%左右。


      盡管谷歌為此組建了一個16人的團隊,用13個機器人,花了17個月的時間,采集到了13萬條數據,這些數據覆蓋了移動、抓取、放下這些移動場景中很多任務,耗資了上千萬美金。這表明,RT-2在數據規模和模型泛化上仍存在局限。


      其次,這種端到端具身大模型的反應速度及運動頻率也是一大挑戰。RT-2等輸出運動頻率僅能達到1-3Hz,使得機器人的反射弧長達0.3秒甚至1秒,遠遠低于人類和許多實際應用場景的需求。


      這表明當前機器人具身大模型還存在諸多不確定性,需要在數據采集、模型訓練等各個層面探索新的思路和方法,特別針對具身大模型的發展路徑上需要有一個指引。





03

自動駕駛的啟示


      可以從自動駕駛和人腦機制中獲得一些靈感。


      首先是自動駕駛,自動駕駛L1-L5技術演進路線為機器人提供了兩種可能的路徑:


      一是以谷歌母公司Alphabet旗下Waymo的“一步到位”或者“跨越式”路線,全力擁抱L4+高級別自動駕駛技術;二是以特斯拉為代表的“漸進式路線”,它的思路是在量產車上優先搭載L2/L3級輔助駕駛,低成本收集數據,訓練算法迭代技術,最終做到L4/L5。


      當前Waymo路線似乎是遙遙無期,特斯拉的FSD離商用落地越來越近。


      對于機器人而言,或許可以借鑒特斯拉的漸進式思路,先解決部分場景下的應用問題,再逐步向通用化邁進。


      其次,人腦的雙系統機制(系統一的快思考與系統二的慢思考)也能為我們提供了有益的啟示。人腦有系統一和系統二,有快思考和慢思考,前者是小腦的能力,對應機器人里交互控制、靈巧操作等技能,可以依靠小模型來處理;后者更多是大腦的能力,包括認知、理解、規劃等,可以用大模型解決。


      上層大模型和下層小模型相互結合,這種分層架構不僅有助于提升機器人的反應速度和運動頻率,還能增強系統的靈活性和可擴展性,有可能更快通向通用機器人。





04

機器人大腦演進路線新方案


      無獨有偶,國內頭部機器人公司智元,近期在其年度新品發布會上,發布了具身智能G1~G5技術路線圖,這也是行業首次對具身智能技術發展有了清晰的定義。




t3.png




     這一路線圖借鑒了自動駕駛的等級劃分思路,將具身智能技術的發展分為五個階段:


G1階段:基礎自動化階段。基于簡單的機器視覺加上人工程序化編程,這一階段的機器人系統設計和配置都針對特定的應用需求,缺乏泛化能力。


G2階段:通過抽象出可復用的原子技能,機器人可以實現一定程度上的場景遷移和泛化。這一階段的機器人已經能夠基于大語言模型(任務編排大模型)進行任務編排,具備一定的智能水平。


G3階段:端到端智能化系統的初步實現。在這一階段,機器人將從傳感器數據直接學習并生成控制指令,并形成了一套通用的技能訓練框架,上層的任務編排大模型逐步演變為認知推理規劃大模型。與G2階段相比,G3最大的區別在于其原子能力不再依賴于手工設計,而是通過大量數據采集和端到端訓練獲得,并逐步形成了一個個小模型。這種數據驅動的方法減少了人工干預,顯著提高了系統的泛化能力。在G3階段,機器人將能夠更靈活地適應不同場景和任務,通過持續學習不斷優化自身性能。


G4階段:通用操作大模型的誕生。在這一階段,隨著數據量不斷增加,機器人將不再局限于單一技能的訓練和優化,而是能夠跨越不同任務領域,實現技能之間的關聯和融合。例如,擰瓶蓋和開門把手的技能在底層可能共享相似的動作模式,通過模型的訓練,機器人能夠理解這些技能之間的內在聯系,并生成更加高效、通用的操作策略,即一個個小模型會泛化為通用操作大模型。通用操作大模型的出現將極大地提升機器人在復雜任務中的表現,使它們能夠像人類一樣靈活應對各種挑戰。


G5階段:邁向人工通用智能(AGI)的終極目標。在這一階段,認知推理規劃大模型和通用操作大模型將實現深度融合,形成一個真正的感知、決策、執行的端到端大模型。這個模型將具備跨任務的泛化能力,能夠在不同場景和任務中自由切換,實現高度智能化的自主作業。G5階段的機器人將不再是簡單的工具或設備,而是能夠與人類共同工作、相互協作的智能伙伴。它們將能夠理解人類的意圖和需求,提供個性化的服務和支持;同時,它們也將能夠自我學習和進化,不斷適應新的環境和任務。這樣的機器人將極大地改變我們的生活方式和工作模式,推動社會向更加智能、高效、和諧的方向發展。


      從具身大模型的興起,到谷歌RT-2等前沿項目的探索與挑戰,再到智元機器人G1~G5技術路線圖的清晰規劃,每一步都預示著機器人技術正朝著更加智能、靈活、通用的方向邁進。


      未來,隨著數據量的爆炸性增長、算法模型的持續優化以及跨學科技術的深度融合,機器人將不再局限于單一任務的執行,而是能夠像人類一樣具備多任務處理、自主學習和適應復雜環境的能力。




主站蜘蛛池模板: 蜜桃视频成人m3u8 | 国产精品三区在线观看 | 国产成人a区在线观看视频 色婷婷综合久久久中文一区二区 | 日韩中文毛片在线 | 久夜蜜汁av玖潮碰撩尤物 | 一级a毛片高清视频 | www.youjizz.com最新 | 91精品国产99久久久久 | 国产乱码久久久久久 | 艳妇荡女的呻吟干柴烈火视频 | 久久第一区 | 成人国产精品一区二区网站 | 久久成人影院精品777 | 免费超爽大片黄 | 69一区二区| 日韩不卡高清视频 | 首页国产欧美日韩丝袜 | 国产精品一区二区 | 日韩黄色片在线观看 | 国产学生系列一区二区三区 | 久久精品亚洲中文字幕无码麻豆 | 午夜理论欧美理论片 | 欧美一区二区高清在线观看 | 性欧美freexxxx | 亚洲视频在线观看一区二区 | 国产肥臀一区二区福利视频 | 午夜男人网站 | 一区二区三区精密机械公司 | 中文字幕精品乱码中文字乱码 | 香港经典三级av在在线观看 | 乱人伦中文字幕在线 | 亚洲色一区二区三区四区 | 国产又黄又爽又色的免费 | 久久男人AV资源网站无码软件 | 精品欧美色视频网站在线观看 | 久久精品免费 | 久久久久欠精品国产毛片国产毛生 | 中文二区 | 久久亚洲国产成人精品性色 | 国语憿情少妇无码AV | 亚洲午夜无码毛片av久久久久久 |