天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

時代焦點網 - 專業(yè)財經新聞門戶
當前位置: 時代焦點網 -> 新聞

多模態(tài)大模型賦能,聆動通用開啟具身智能新時代

發(fā)布時間:2025-04-06 10:11   來源:中國廣告網   閱讀量:8427   會員投稿

憑借多模態(tài)大模型賦能優(yōu)勢,聆動通用開啟具身智能新時代大門

在科技飛速發(fā)展的當下,自 2022 年 11 月起,GPT 等模型的崛起及其迅猛發(fā)展,為機器人領域帶來了翻天覆地的變化。多模態(tài)模型,尤其是視覺語言模型,讓人形機器人在理解開放式場景和執(zhí)行復雜認知任務上取得了突破性進展。據(jù)預測,未來 10 到 15 年,機器人在知識密度和運算智能上有望超越人類,但在抽象演繹和聯(lián)想創(chuàng)造新知識方面,人類仍占據(jù)優(yōu)勢。在此背景下,機器人更多地被定位為人類的輔助工具,特別是在重復性和危險性任務中發(fā)揮重要作用,甚至可能催生如機器人技能訓練師等新職業(yè)。

2025 年 3 月 13 日,在第三屆具身智能機器人產業(yè)發(fā)展論壇上,聆動通用創(chuàng)始人兼 CEO 季超指出,在機器人技能訓練里,數(shù)據(jù)采集和仿真至關重要。真實數(shù)據(jù)價值高,然而采集成本也高。借助通用預訓練模型,針對垂直領域和客戶特定需求進行定制化訓練,能夠構建出適用于不同行業(yè)的強大模型。展望未來,具身機器人極有可能像智能手機一樣,重塑商業(yè)格局,引領行業(yè)從功能型機器人時代邁向智能機器人時代。

大語言模型的突破是近年來人形機器人及具身通用機器人發(fā)展的底層邏輯。2022 年 11 月 ChatGPT 進入國內,標志著機器智能進入新階段,隨后 GPT-4 的進化,在復雜認知、推理及多模態(tài)任務處理能力上大幅提升,與機器人的視覺語言等模型高度契合。例如 GPT 在多模態(tài)復雜場景語義理解和推理能力上表現(xiàn)卓越,讓機器人在特定專業(yè)領域有超越人類智慧的潛力,串聯(lián)起機器人的運動控制、感知與決策,為具身工業(yè)、制造及家庭等領域創(chuàng)造了無限可能。

國內團隊密切關注大模型發(fā)展,以 OpenAI 為代表的大模型不斷更新迭代。雖然對于大模型的 scaling law 是否達上限存在探討,但實際上大模型基座的 scaling law 天花板持續(xù)被突破,如 OpenAI 的 o1 在處理專業(yè)復雜認知任務上超越人類,DeepSeek 在技術等方面也取得創(chuàng)新成果。

聚焦未來機器人與人類的關系,生成式大模型在知識儲備上已達較高水平,知識密度可與高校學生媲美,運算智能和知識密度超越人類。不過,在未來 10 至 15 年,其仍不具備人類獨有的抽象演繹和聯(lián)想創(chuàng)造新知識的能力。在柔性制造業(yè),大模型技術已能實現(xiàn)出色管理,但在家庭等開放場景中,距離理想狀態(tài)仍有差距,尚不具備自主意識。

探討大模型基座與具身智能模型融合趨勢,一方面,大模型未來的價值觀和意識形態(tài)與國家相關,如在 AI 陪伴和教育領域,其傾向性由頂層參數(shù)調整人員決定;另一方面,目前論文及研究成果在理想情況下成功率約 60%-70%,與工業(yè)生產要求的 99.999% 可靠性差距巨大,通用或未經針對性訓練的認知大模型在工業(yè)場景中易出現(xiàn)幻覺,難以穩(wěn)定完成任務。所以,通用基座將承擔重復性等環(huán)節(jié),最終決策仍由人類主導,未來機器人將助力人類,而非取代人類,人類角色可能轉變?yōu)闄C器人技能訓練師或主管。

隨著勞動力短缺和中國 AI 高端制造發(fā)展,機器取代人力成為必然。近年來模型技術發(fā)展和國內供應鏈演進,使機器人性能提升,成本下降,智能化程度提高,已逐步滲透到多品種、少批量生產場景,投資機器人回報周期約兩年,投入產出成本與人的邊際成本逐漸交合。

具身智能雖前景廣闊,但當前處于發(fā)展初期,最大挑戰(zhàn)來自數(shù)據(jù)層面。以 “pick place” 為例,實現(xiàn)泛化抓取等所需數(shù)據(jù)量是定點抓取的 38 倍。技術路線上,合成數(shù)據(jù)及仿真數(shù)據(jù)成本低、效率高、易推廣,而真實數(shù)據(jù)采集困難。解決方案需基于通用預訓練基座,針對垂直領域和客戶需求,訓練出行業(yè)矩陣大模型,形成數(shù)據(jù)飛輪,改善企業(yè)經營,提煉行業(yè)通用數(shù)據(jù)。

訊飛聆動作為訊飛系控股子公司,致力于賦予機器人理解與思考能力,助力制造業(yè)勞動力優(yōu)化升級。其團隊在具身感知、認知理解等領域成果顯著,在空間高階感知上基于 3D 技術有顯著提升。機器人在開放場景中需基于常識推理,其 “大腦” 要具備多模態(tài)理解能力。機器人還具備強大運算智能和高密度知識儲備,如在蛋白質合成配方獲取上遠超人類效率。未來機器人將以無代碼語音交互為主導,形成多模態(tài)交互,為此提出交互大模型。

在實際工作中,訊飛聆動基于行業(yè)具身模型任務理解,結合通用預訓練基座開展工作。去年采用星火多模態(tài)大模型基座,經專項訓練,構建行業(yè)針對性基座,融入客戶高價值數(shù)據(jù)后,相關任務成功率從 70% 提升至 95% 以上。在機器人移動與操作方法上,采用合成與真實數(shù)據(jù)結合策略,以客戶需求為導向,依托底層大模型,結合行業(yè)具身模型和具身泛化大模型,實現(xiàn)全流程閉環(huán)。提出大腦、小腦、本體分層式具身智能架構體系,通用大模型負責任務理解規(guī)劃,具身大模型負責感知與決策。商業(yè)模式上,短期內聚焦于實際客戶場景,實現(xiàn)端云協(xié)同、軟硬件一體化,強調 “robot and service” 模式,打造 “一腦多型” 機器人解決方案,推動從局部通用向完全通用發(fā)展。同時開展基于世界模型的具身智能關鍵技術研究,雖然模型面臨自適應、泛化能力不足及數(shù)據(jù)不匹配等問題,但通過以機器人基礎運營服務為切入點,結合多模態(tài)大模型、“一腦多型” 本體及真實場景數(shù)據(jù)進行探索。

多模態(tài)大模型近年來不僅在各行業(yè)實現(xiàn) agent 級應用,在機器人領域更是關鍵,讓實用型機器人走進各行各業(yè)甚至千家萬戶成為可能。未來將以場景驅動激發(fā)數(shù)據(jù)效應,形成數(shù)據(jù)小飛輪,最終實現(xiàn)機器人的 AGI。不過,具身智能發(fā)展仍面臨諸多挑戰(zhàn),包括掌握世界知識規(guī)律以獲得通用泛化能力、構建通用智能體機器人評價標準、解決具身模型數(shù)據(jù)缺失及泛化能力不足問題、構建自主性任務執(zhí)行能力,以及解決大模型帶來的價值觀和幻覺問題等??傮w而言,未來 10 至 15 年,具身智能與高端制造、機器人、人工智能的融合,將成為我國關鍵發(fā)展賽道和極具投資價值的領域。

聲明:本網轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。