谷歌发布本地VLA模型,机器人界的“安卓系统”要来了?

AI快讯 2025-06-29
“以往受限于带宽和算力,很多机器人 AI 只能做示范。这次谷歌的进展,意味着通用模型可以真正运行在硬件终端上,未来不依赖联网也能做复杂操作。”6 月 25 日,Google DeepMind 正式发布首个可完全在机器人本地部署的视觉 - 语言 - 动作模型(Visual-Language-Action,VLA)——Gemini Robotics On-Device。这一发布,标志着具身智能(Embodied AI)从依赖云端算力,迈入本地自主运行的关键转折点,为该产业的落地开启了新的可能性。


一直以来,具身智能的部署面临两大难题:一是对云计算资源过度依赖,这使得机器人在网络不稳定或无网络环境下,难以独立作业;二是模型体积庞大,在机器人有限的计算资源上,难以高效运行。


据官方介绍,Gemini Robotics On-Device 能够在算力受限的机器人设备上本地运行,同时展现出卓越的通用性和任务泛化能力。由于无需依赖数据网络,该模型在对延迟敏感的应用程序中优势显著。


从实际操作表现来看,该模型的通用能力和稳定性令人瞩目。在 Google DeepMind 展示的演示视频里,机器人在无网络连接的状态下,顺利完成了 “把一个魔方放进包装袋里”“拉开一个包包的拉链” 等任务,这些任务涉及感知、语义理解、空间推理和高精度执行等多个环节 。


DeepMind 研究人员表示,它具备 Gemini Robotics 的通用性和灵活性,可立即处理各种复杂的双手任务,而且只需 50 - 100 次演示,就能学习新技能。一位机器人领域工程师提到,目前大部分机器人完成一个任务,往往需要进行成千上百次训练。由此可见,谷歌的新模型极大地拓展了模型的应用范围和部署灵活性。


值得一提的是,尽管该模型最初是针对特定机器人进行训练的,但它能够泛化到不同形态的机器人上,如双臂机器人和人形机器人,这进一步挖掘了其应用潜力。在演示视频中,在双臂 Franka 上,该模型不仅能执行通用指令,处理从未见过的物体和场景,还能完成折叠衣服这类精细任务,以及工业皮带组装这种对精确度和灵巧性要求颇高的任务。


此外,谷歌首次开放 VLA 模型的微调功能,工程师或机器人公司可基于自有数据对模型进行定制训练,从而优化其在特定任务、场景或硬件平台上的表现,进一步提升应用效率与实用价值。同时,谷歌还推出了 Gemini Robotics SDK,方便开发者进行模型评估和快速调整。这些举措表明,谷歌致力于为机器人领域打造一个开放、通用且易于开发的平台,就如同安卓系统对智能手机行业的意义一样。


有具身智能领域专家表示:“这标志着机器人终于可以走入真实环境了。以往受限于带宽和算力,很多机器人 AI 只能做示范。这次谷歌的进展,意味着通用模型可以真正运行在硬件终端上,未来不依赖联网也能做复杂操作。” 具身智能曾被视为 AGI 通向现实世界的桥梁,而具备本地部署能力的 VLA 模型,无疑是这座桥梁通车的关键因素。该专家还提到,本地 VLA 模型使机器人更适用于家庭、医疗、教育等对隐私和安全要求较高的场景,能够有效解决数据隐私、实时反应、安全稳定性等核心问题。


过去几年,大语言模型的 “端侧部署” 已成为重要趋势之一。从最初依赖大规模云端计算资源,到如今能在手机、平板等边缘设备本地运行,模型的压缩优化、推理加速与硬件协同不断取得进展。同样的演进路径,正在具身智能领域逐步显现。VLA 模型作为具身智能的核心架构,其本质是赋予机器人从多模态信息中理解任务并做出行动的能力。此前,这类模型通常依赖强大的云端资源进行推理和决策,由于网络带宽、算力功耗与实时性等方面的瓶颈,难以在现实复杂环境中高效运行。


谷歌此次发布 Gemini Robotics On-Device,意味着具身智能正在进入类似语言模型的 “端侧时代”。它不仅在有限算力下实现了稳定运行,还具备良好的通用性与迁移能力,能够支持快速学习与适配不同任务和机器人形态。此次发布,或许会引发业界的连锁反应。随着 AI 算力和模型架构的持续演进,“边缘智能” 正从传统的物联网(IoT)向以具身智能为代表的更高级阶段迈进。


有投资人表示,本地 VLA 模型将成为下一个必争之地。“目前各类机器人在本体结构、自由度和传感器配置上差异较大,统一的软件架构难以实现。一旦硬件标准趋于统一,就像智能手机生态中 USB 接口、键盘、屏幕等通用组件形成规范一样,将大力推动算法的标准化与本地部署的实现。” 他认为,谷歌构建 “机器人安卓生态” 的愿景,预示着一个更标准化、易于开发与普及的具身智能时代有望到来。


不过,在实际落地过程中,挑战依然严峻。机器人硬件的多样性和复杂性是突出问题,市场上各式各样的机器人硬件,意味着即便有强大的通用模型,也需针对每种具体硬件进行细致的适配和调优。此外,要在海量、多样化的实际应用场景中真正落地,数据收集和标注的成本可能极高,特别是在工业或特定服务场景中,这些场景往往需要专业操作知识和设备。更为关键的是,机器人需要在极其复杂、动态且不可预测的真实世界环境中保持鲁棒性。光照变化、物体遮挡、非结构化杂乱环境,以及人机交互中的细微差异,都会对模型的实时感知和决策能力提出严苛考验。确保机器人在各种实际场景中都能保持高水平的稳定性和安全性,是未来具身智能发展必须持续攻克的难题。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章