首個無師自通、泛化使用各種家具家電的具身三维图文大模型系統

admin · 發表於 2024-2-20 15:25:15

這几天，家務活都被呆板人抢着干了。

前脚来自斯坦福的會用锅的呆板人方才登場，後脚又来了個會用咖啡机的呆板人 Figure-01 。

只需给它旁觀树模視频，加之10個小時的练習，Figure-01 就可以學會利用咖啡机，放咖啡胶囊到按下启動键，趁热打铁。

可是想要讓呆板人無師自通，第一次见到百般各样的家具家電，就可以在没有树模視频的环境下纯熟利用。這是個難以解决的問题，不但必要呆板人具有壮大的視觉感知、决议计划计划能力，更必要切确的把持技術。

如今，一個三维具身图文大模子體系為以上困難供给了新思绪。该體系将基于三维視觉的精准几何感知模子與长于计划的二维图文大模子連系了起来，無需样本数据，便可解决與家具家電有關的繁杂长程使命。

這項钻研由斯坦福大學的 Leonidas Guibas 傳授、北京大學的王鹤傳授團队，與智源人工智能钻研院互助完成。

論文链接：

項目主頁：

代码：

钻研問题概述

图 1：按照人類指令，机器臂可以或许無師自通地利用各類家用電器。

近日，PaLM-E 和 GPT-4V 動员了图文大模子在呆板人使命计划中的利用，視觉说话指导下的泛化呆板人操控成了热點钻研范畴。

以往的常见法子是创建一個两层的體系，上层的图文大模子做计划和技術调剂，基层的操控技術计谋模子卖力物理地执举措作。但當呆板人在家務活中面临各類各样從未见過而且必要多步操作的家用電器時，現有法子中的上下两层都将一筹莫展。

以今朝最先辈的图文大模子 GPT-4V 為例，固然它可以對单张图片举行文字描写，但触及可操作零部件檢测、计数、定位及状况估量時，它依然毛病百出。图二中的赤色高亮部門是 GPT-4V 在描写抽屉柜、烤箱和立柜的图片時呈現的各類毛病。基于毛病的描写，呆板人再举行技術调剂，明显不太靠得住。

图 2：GPT-4V 不克不及很好處置计数，檢测，定位，状况估量等泛化操控所存眷的使命。

基层的操控技術计谋模子卖力在各類各样的現實环境中履行上层图文大模子给出的使命。現有的钻研功效大部門是基于法则僵硬地對一些已知物體的抓取點位和操作方法举行了编码，没法泛應答没见過的新物體種别。而基于端到真個操作模子（如 RT-1，RT-2 等）只利用了 RGB 模态，@缺%V14DM%少對間%GF811%隔@的正确感知，對新情况中如高度等變革的泛化性较差。

受王鹤傳授團队以前的 CVPR Highlight 事情 GAPartNet [1] 启發，钻研團队将重點放在了各類類此外家用電器中的通用百家樂免費試玩，零部件（GAPart）之上。固然家用電器千變万化，但总有几样零件不成或缺，每一個家電和這些通用的零件之間存在類似的几何和交互模式。

由此，钻研團队在 GAPartNet [1] 這篇論文中引入了 GAPart 這一觀點。GAPart 指可泛化可交互的零部件。GAPart 呈現在分歧類此外铰接物體上，比方，在保险箱，衣柜，冰箱中都能找到铰接門這類零件。如图 3，GAPartNet [1] 在各種物體上标注了 GAPart 的语义和位姿。

图3：GAPart：可泛化可交互的零部件[1]。

在以前钻研的根本上，钻研團队缔造性地将基于三维視觉的 GAPart 引入了呆板人的物體操控體系 SAGE 。SAGE 将經由過程可泛化的三维零件檢测 (part detection)，切确的位姿估量 (pose estimation) 為 VLM 和 LLM 供给信息。新法子在决议计划层解决了二维图文模子邃密计较和推理能力不足的問题；在履行层，新法子經由過程基于 GAPart 位姿的鲁棒物理操作 API 實現了對各個零件的泛化性操作。

SAGE 構成為了首個三维具身图文大模子體系，為呆板人從感知、物理交互再到反馈的全链路供给了新思绪，為呆板人可以或许智能、通用地操控家具家電等繁杂物體探访了一条可行的門路。

體系先容

图 4 展現了 SAGE 的根基流程。起首，一個可以或许解讀上下文的指令诠释模块将解析输入呆板人的指令和其察看成果，将這些解析轉化為下一步呆板人動作步伐和與其相干的语义部門。接下来，SAGE 将语义部門（如容器 container）與必要举行操作部門（如滑動按钮 slider button）對應起来，并天生動作（如按钮的「按压 press」動作）来完成使命。

图 4：法子概览。

為了便利大師理解全部體系流程，一块儿来看看在無需样本的环境下，讓机器臂利用操作一款没见過的微波炉的例子。

指令解析：從視觉和指令输入到可履行的技術指令

输入指令和 RGBD 图象觀测後，诠释器起首利用 VLM 和 GAPartNet [1] 生成為了場景描写。随後，LLM（GPT-4）将指令和場景描写作為输入，天生语义零件和動作步伐。或也能够在這個环節输入一個特定的用户手册。LLM 将基于输入天生植物生長活力素, 一個可操作零件的方针。

图 5：場景描写的天生（以 zero-shot 利用微波炉為例）。

為了更好地协助動作天生，場景描写包括物體信息、零件信息和一些與互動相干的信息。在天生場景描写以前，SAGE 還将采纳專家级 GAPart 模子 [1] 為 VLM 天生專家描写作為提醒。這類兼收了两種模子的长處的法子结果杰出。

图 6：指令理解和活動计划（以 zero-shot 利用微波炉為例）。

零件交互信息的理解與感知

图 7：零件理解。

在输入察看成果的進程中，SAGE 综合了来自 GroundedSAM 的二维（2D）提醒和来自 GAPartNet 的三维（3D）提醒，然後這些提醒被用作可操作零件的详细定位。钻研團队操纵 ScoreNet、非极大值按捺（NMS）和 PoseNet 等展現了新法子的感知成除毛膏，果。

此中：（1）對付零件感知评估基准，文章直接采纳了 SAM [2]。但是，在操作流程中，文章利用了 GroundedSAM，它也斟酌到了作為输入的语义零件。（2）若是大型说话模子（LLM）直接输出了一個可操作零件的方针，那末定位進程将被绕過。

图 8：零件理解（以 zero-shot 利用微波炉為例）。

動作天生

一旦将语义零件定位到可操作零件之上，SAGE 将在這個零件上天生可履行的操作動作。起首，SAGE 将估量零件的姿态，按照铰接類型（平移或扭轉）计较铰接状况（零件轴线和位置）和可能的活動标的目的。然後，它再按照以上估算天生呆板人操作零件的動作。

在启動微波炉這個使命中，SAGE 起首展望机器臂應當以一個初始夹爪姿态作為重要動作。再按照 GAPartNet [1] 中界说的预定计谋發生動作。這個计谋是按照零件姿态和铰接状况肯定的。比方，為了打開一個带有扭轉铰接的門，肇端位置可以在門的邊沿或把手上，其轨迹是沿着門搭钮定向的圆弧。

交互反馈

到今朝為止，钻研團队只利用了一個初始觀测来天生開环交互。這時候，他们引入了一種机制，可以進一步操纵在互動進程中得到的觀测成果，更新感知成果并响應调解操作。為了實現這一方针，钻研團队為互動進程中引入了一個两部門的反馈机制。

理當注重，在初次觀测的感知進程中可能呈現遮挡和估算毛病。

图 9：直接開門不克不及打開，该轮交互失败（以 zero-shot 利用微波炉為例）。

為领會决這些問题，钻研者们進而提出了一個模子，操纵交互式觀测 (Interactive Perception) 来加强操作。在全部互動進程中，方针夹持器和零件状况的跟踪得以連结。若是呈現显著的误差，计划器可以自行選擇如下四種状况之一：「继续」、「轉移到下一步」、「遏制并從新计划」或「樂成」。

比方，若是設置夹持器沿着一個枢纽關頭扭轉 60 度，但排結石藥,門只打開了 15 度，大型说话模子（LLM）计划器會選擇「遏制并從新计划」。這類互動跟踪模子确保 LLM 在互動進程中可以或许详细問题详细阐發，在微波炉启動失败的波折中也能從新「站起来」。

图 10：經由過程交互反馈和從新计划，呆板人意想到按钮打開的法子并樂成。

實行成果

钻研團队起首搭建了一個大范围说话引导的铰接物體交互的测试基准。

图 11：SAPIEN 摹拟實行。

他们利用了 SAPIEN 情况 [4] 举行了摹拟實行，并設計了 12 項说话指导的铰接物體操作使命。對付微波炉、储物家具和橱柜的每一個種别，各設計了 3 個使命，包含在分歧初始状况下的開启状况和封闭状况。其他使命為「打開锅盖」、「按下遥控器的按钮」和「启動搅拌器」。實行成果显示，在几近所有使命中 SAGE 都表示出色。

图 12：真机演示。

钻研團队同時也举行了大范围真實世界實行，他们利用 UFACTORY xArm 6 和多種分歧的铰接物體举行操作。上图的左上部門展現了一個启動搅拌器的案例。搅拌器的顶部被感知為一個用于装果汁的容器，但其現實功效必要按下一個按钮来開启。SAGE 的框防脫育髮液,架有用地毗連了其语义和動作理解，并樂成履行了使命。

上图右上部門展現了呆板人，必要按下（下压）告急遏制按钮来遏制操作，扭轉（向上）来重启。借助用户手册的辅助输入，在 SAGE 引导下的机器臂完成為了這两個使命。上图底部的图片展現了開启微波炉使命中的更多细節。

图 13：更多真机演示和指令解讀示例。

总结

SAGE是首個可以或许天生通用的家具家電等繁杂铰接物體操控指令的三维視觉说话模子框架。它經由過程在零件级别上毗連物體语义和可操作性理解，将说话指令的動作轉化為可履行的操控。

别的，文章還钻研了将通用的大型視觉 / 说话模子與范畴專家模子相連系的法子，以加强收集展望的周全性和准确性，更好地處置這些使命并實現最先辈的机能。實行成果表白，该框架具备壮大的泛化能力，可以在分歧物體種别和使命上展現出優胜的机能。别的，文章還為说话引导的铰接物體操作供给了一個新的基准测试。

團队先容

SAGE 這一钻研功效来自斯坦福大學 Leonidas Guibas 傳授實行室、北京大學王鹤傳授具身感知和交互（EPIC Lab）和智源人工智能钻研院。論文的作者為北京大學學生、斯坦福大學拜候學者耿浩然（配合一作）、北京大學博士生魏松林（配合一作）、斯坦福大學博士生邓丛悦，沈博魁，引导教员為 Leonidas Guibas 傳授和王鹤傳授。

参考文献：

[1] Haoran Geng，Helin Xu，Chengyang Zhao，Chao Xu，Li Yi，Siyuan Huang，and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272，2022.

[2] Kirillov，Alexander，Eric Mintun，Nikhila Ravi，Hanzi Mao，Chloe Rolland，Laura Gustafson，Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang，Hao，Feng Li，Shilong Liu，Lei Zhang，Hang Su，Jun Zhu，Lionel M。Ni，and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).

[4] Xiang，Fanbo，Yuzhe Qin，Kaichun Mo，Yikuan Xia，Hao Zhu，Fangchen Liu，Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，pp。11097-11107。2020.

		自動登錄	找回密碼
密碼			立即註冊