在《星球大战》和《星际迷航》这两部科幻巨作的宇宙中,机器人无处不在。它们无所不能,在关键时刻总能发挥出重要的作用,我们也曾幻想过这样的未来。NVIDIA 机器人与边缘计算副总裁 Deepu Talla也深受这两部电影影响,在这两部电影的启发下,他得出了这样一个结论——“机器人技术是人工智能最大的应用方向之一。”
最近几年,英伟达一直对于机器人关注度非常高,凭借着对机器人发展趋势的敏锐洞察和创新精神,英伟达推出了一系列令人瞩目的相关产品。今年的CES 2025也不例外,英伟达CEO黄仁勋宣布推出Isaac GR00T Blueprint和Cosmos平台,加速人形机器人的开发。在这背后,有什么值得关注的技术细节和信息?1月17日,在一次沟通会上,Deepu Talla向EEWorld分享了自己的见解。
探索机器人,为什么是现在
如今,机器人需求正持续增长。数据显示,2024年全球机器人出货规模约4700万台,未来 5年维持20%以上年复合成长率。为什么机器人突然这么火?Deepu Talla表示,有三个主要原因使机器人技术变得不可或缺:
第一,危险的工作:比如矿工或者在危险环境中工作的人员,机器人可以替代人类承担这些危险任务。
第二,劳动力短缺:工作在不断演变,劳动力短缺问题也随之加剧,比如一些农民早早离开了农业,现代很多人甚至完全没有接触过农业。
第三,养老需求:人类的寿命越来越长。如今,全球平均预期寿命已超过75岁,而25年前仅为67岁,50年前则只有57到58岁。再过25年,或许寿命会超过100岁,也许以后甚至能达到150岁。但如果人类活到200岁呢?你希望由75岁的孩子来照顾你吗?大概不会。所以我们需要“社会伴侣”——机器人,来帮助解决护理和陪伴的问题。
这些其实都算不上什么新信息,但在2024年~2025年期间,情况开始发生转变,中美两国企业,都开始探索人形机器人这一领域,具神智能彻底火了,机器人技术热度一下子就起来了,大家对它的兴趣增长特别明显。我国也不断推出专项措施,支持具身智能机器人产业创新发展。这两年间究竟发生了什么改变?
Deepu Talla对此表示,首先,机器人在技术层面取得了显著进步,尤其是生成式人工智能(GenAI)领域。大约两年前,大型语言模型(LLM)在数字应用领域引发了变革性影响,重塑了该领域的格局。当前,这些先进技术逐渐向机器人技术领域渗透,有效打破了数字应用与物理应用之间的壁垒,为机器人技术的发展开辟了新路径。
其次,仿真环境得到了显著改进。由于机器人尚未实现大规模量产,制造单个机器人的成本居高不下。并且,在物理世界中推动机器人技术发展需耗费大量时间,因为所有操作均受 “真实时间”(即 “墙钟时间”)限制。以往,机器人技术的测试主要依赖物理环境,这一方式导致技术进展极为缓慢。那么,在过去的 12 个月里,这一状况发生了哪些改变呢?
在过去一年中,NVIDIA研发出一项名为Omniverse的技术。该技术可被视作一种仿真环境,亦可称之为 “绿色” 环境。尽管尚未完全攻克所有难题,但目前这项技术已取得显著进展,其发展程度已与生成式 AI 在仿真领域的应用水平相当。基于此技术进步,机器人开发流程有望大幅提速。
换句话说,正是因为英伟达的这一创新突破,加速了机器人的发展,助力了生态的发展。
可以预见,在未来5 ~10年内,机器人领域将产生重大变革。这也正是当下各大公司纷纷聚焦于推动该领域发展的原因所在。Deepu Talla表示,在与众多公司交流探讨中发现,他们均在开展机器人相关课题的研究,以及通用型机器人 “大脑” 模型的开发。这一发展趋势所指向的未来,将为解决危险工作、劳动力短缺以及企业运营挑战等问题提供有力支持。
这一技术进展令人备受鼓舞。回溯一年前,该技术发展方向能否成功仍充满不确定性。尽管此前已付出诸多努力,但过去6~12个月所取得的突破性进展,彻底扭转了局面,让机器人领域的发展前景变得清晰且充满希望 。
三台计算机,解决机器人挑战
即便在众多科幻作品中,机器人早已是频繁登场的 “熟面孔”。但其实,过去相当长一段时间里,机器人行业的热度一直起起伏伏,除了消费类的机器人产品,很多人其实对机器人本身并没有太多深入了解。
在大众的认知里,当谈及机器人,脑海中浮现的往往是物理实体机器人,它们或是有着类人外形,或是像工业工具般硬朗。这些具象化的机器,的确是机器人发展的终极形态与目标成果。然而,若深入到机器人研发的幕后,便会发现复杂程度远超想象。
“所以,为了真正解决机器人领域的挑战,我们需要三台计算机。” Deepu Talla如是说。
第一台计算机用于训练:这是用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行。这是构建机器人“大脑”的关键步骤。
第二台计算机用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险。更好的解决方案是引入一个“仿真层”,即“数字孪生”(Digital Twin),在虚拟环境中完成测试。仿真允许在大规模、快速且安全的条件下运行数千种场景测试,无需受到真实世界时间或成本的限制。
第三台计算机用于部署:它安装在机器人内部,就是操作物理机器人的“大脑”。对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现。
通过将训练、仿真、部署的循环过程,使得机器人技术进步从50年缩短到了5年,显著缩短机器人的开发周期。Deepu Talla对此解释,在将机器人部署至现实世界前,利用仿真系统开展成千上万次测试,可有效加速整个开发流程。倘若某个设计在现实应用中表现欠佳,便可返回仿真环境对模型进行优化,之后再次测试。
这种开发方法也解释了机器人技术相较于自动驾驶技术难度更高的原因。自动驾驶主要聚焦于躲避障碍物和保障行驶安全,无需与物理物体产生直接交互。而机器人领域则涉及与物体的接触、碰撞以及复杂的物理互动,这些环节的测试与优化难度极大。
仿真并非一个新概念。在芯片领域,仿真就早已进入了大规模生产之中,因为芯片设计一旦出现错误,可能会导致项目延误数月,造成数百万甚至数十亿美元的损失。所以,这样来看,给机器人仿真,也具备一定可行性。
不过,在机器人领域,仿真的主要的挑战在于 “仿真与现实的差距”(sim-to-real gap),即仿真结果与实际表现之间存在差异。在过去,由于仿真技术精度有限,该技术并未得到广泛应用。然而,诸如 Omniverse 等技术的出现,显著缩小了这一差距。尽管目前这一差距尚未完全消除,但技术的改进程度已足以使仿真成为机器人开发中可行且有效的工具。
NVIDIA 并不直接参与机器人的制造环节,而是选择与所有投身于机器人制造以及机器人解决方案开发的专业人员展开合作。当前,NVIDIA 正在搭建一个综合性平台,该平台涵盖了训练、仿真、部署三种计算系统,以及与之相关的软件工具和工作流程。其目的在于助力机器人专家、研究人员、机械工程师和测试人员能够更为便捷地开发机器人解决方案,通过简化流程和提高效率,加速机器人技术的研发进程。
世界大模型,解决数据收集的挑战
不过,即便有了这三台计算机,实际上我们还是会拥有挑战。在这条路上就有着一座大山——数据收集。
以 AI 模型训练为切入点,像ChatGPT这类广为人知的流行模型,是依托大型GPU以及互联网海量文本数据完成训练。然而,机器人模型训练对数据有着截然不同需求。机器人需要执行诸如拾取物体、移动、交互以及完成任务等动作,可遗憾的是,目前这类数据在数量规模上远远无法满足需求。
在CES上,黄仁勋就提出了这样的问题:“在现实世界中收集高质量数据集可能非常耗时、昂贵且乏味,从而让人望而却步。”
既然现实的数据很贵,那就去仿真,但与此相悖的是,现实与仿真总归是有区别。那么怎么办?今年CES上,英伟达推出的Isaac GR00T Blueprint和Cosmos就是解决问题的关键。
首先,简单回顾下Isaac GR00T Blueprint。GR00T Blueprint 是一个软件可编程、开放的平台,具备支持机器人在长时间执行任务过程中基于实时环境反馈进行自我优化的潜力。虽然这种技术目前还处于未来阶段,但它是可能实现的。当前的重点是构建基本的人类智能,使机器人具备更强的智能基础。一旦完成这一基础,未来可以让机器人实现自我学习,根据环境反馈进行调整。GR00T Blueprint 也有计划结合其他平台的技术,以扩展其应用场景。它分为三个工作流:
GR00T-Teleop:数据收集,用户可以借助 Apple Vision Pro 在数字孪生环境中捕捉人类动作。这些人类动作会被记录下来作为金标准,并在仿真环境中由机器人模仿学习。
GR00T-Mimic:合成数据生成,将捕捉到的人类示范扩展成更大的合成运动数据集。
GR00T-Gen:结合真实与合成数据,基于 NVIDIA Omniverse 和 NVIDIA Cosmos 平台构建的 GR00T-Gen 工作流,会通过域随机化和 3D 提升技术,指数级扩增这个数据集。
“对于GR00T,我们的目标不是制造人形机器人,而是打造一个平台,使每个人都能创建自己的机器人。我们正在不断为平台添加更多功能,以确保其灵活性和可扩展性。”Deepu Talla如是说。
其次,解释一下Cosmos平台,是拥有一系列开放的预训练世界基础模型,专为生成具有物理感知的视频和物理 AI 开发所需的世界状态而设计。它包含自回归模型和扩散模型,有各种模型尺寸并适用于多种输入数据格式。这些模型基于1800万亿个数据单元进行训练,其中包括200万小时的自动驾驶、机器人、无人机拍摄的视频以及合成数据。
对于这三个工作流,Deepu Talla解析道:
现实世界数据的局限性:机器人技术的数据获取与自动驾驶汽车可依靠现有车辆搭载传感器收集数据不同,当前,机器人数量有限,远远不足以产生可比的数据量,当前的方法包括使用Apple Vision Pro或动作捕捉套装来记录人类动作的示范。这些方法虽能提供有用的数据,但规模太小,无法完全满足机器人模型的训练需求。所以,我们才要去合成数据生成。
合成数据生成的重要性:为有效应机器人训练数据稀缺这一问题,合成数据生成重要性日益凸显。借助合成数据生成技术,能够生成特定动作(如抓取物体)的无数种变化,或者构建完整的虚拟环境。NVIDIA Cosmos是一个“世界基础模型”,可以生成高度逼真、类似视频游戏的环境,用于机器人训练。在这里,“世界”指的并不是地球,而是机器人交互的环境,例如机器人操作的房间内可见区域。
结合真实与合成数据:把少量现实世界的数据,和用英伟达 Cosmos 这类工具生成的大量合成数据合在一起,就能解决机器人技术数据稀缺的问题。新方法已公布,部分功能已上线了。英伟达正和全球的合作伙伴一起,用这一方法办法解决机器人基础数据的难题。
“没有足够的数据,机器人模型无法进行有效的训练、测试或部署。这使得数据的收集和生成成为解决机器人开发挑战的关键第一步。通过采用这种结合现实与合成数据的创新工作流,我们正为机器人领域的重大进步铺平道路。” Deepu Talla如是说。
那么,Project GR00T 和 Cosmos之间,到底是怎么配合和融合的?对此,Deepu Talla解释道,Cosmos 平台拥有一系列开放的预训练世界基础模型,专为生成具有物理感知的视频和物理 AI 开发所需的世界状态而设计。两者各有技术侧重,目标是一致的,两者相结合,提供从数据生成到部署的完整解决方案。
数据生成:在数据生成阶段,英伟达使用Omniverse和GR00T相关的工作流,例如GR00T-Mimic,将捕捉到的人类示范扩展成更大的合成运动数据集。最后,基于 NVIDIA Omniverse 和 NVIDIA Cosmos 平台构建的 GR00T-Gen 工作流,会通过域随机化和 3D 提升技术,指数级扩增这个数据集。
模型训练:GR00T提供了高效的技术,帮助企业更快速地完成模型训练,从而加速收敛并节省成本。与此同时,Cosmos专注于资源优化,进一步提升训练的速度和效果。
仿真测试:GR00T通过Isaac Labs进行仿真测试来评估机器人策略,而Cosmos也支持在仿真环境中进行测试,确保模型在实际应用中的表现。Cosmos 还能通过将图像从 3D 扩展到真实场景,缩小仿真与现实之间的差距。
模型部署:在部署阶段,GR00T能够帮助机器人完成任务并适应现实环境。Cosmos同样支持实时场景下的机器人部署,确保高效运行。
总结起来,在NVIDIA Isaac GR00T、Omniverse和Cosmos三位一体的融合与加持下,AI和人形机器人正在实现巨大飞跃。
美国有英伟达,中国有银河通用
光是说说,并感受不到英伟达为机器人相关企业带来的红利。在分享会上,银河通用分享了其在与英伟达合作下,取得的进展。
根据银河通用创始人、CTO王鹤介绍,银河通用成立于 2023 年 5 月。2023 年银河通用启用这个名字时,国内很少有人用 “通用” 命名。当时,英伟达在全球宣布 Project GR00T 。在全球,中国有银河通用,美国有英伟达,两家厂商都喊出 “通用机器人” 口号。银河通用的目标是,让高自由度人形机器人走进各行各业和千家万户,这和现在的专用机器人不一样。
他说道,大模型是产生智能的核心,当前大家对大模型关注度高,但其所需数据及具体实现方式常被忽视。图文大模型数据多来自互联网,各家下载使用权重相同。目前主流的数据采集方式是人工采集,如特斯拉用人形机器人模仿人动作,斯坦福大学研究人员用主从力方式操作机器人采集数据。不过,人形机器人数据采集比自动驾驶数据采集困难得多,因无人形机器人公司能付费让用户采集数据,且其数据采集难复制只能冷启动,若无实用功能,用户既不会购买,也不愿遥控采集,这成为全球人形机器人公司面临的瓶颈。
根据谷歌和特斯拉的数据表明,数据采集的成本极为高昂。为获取 13 万条数据,投入了 17 个月的时间、16 名工程师以及 13 台机器人,最终仅采集到 13 万条数据。目前,特斯拉用于数据采集的整套设备,涵盖内部系统设备以及整个数据采集流程,均产生了高昂的成本,费用累计高达百万。由此可见,单纯依靠真实世界数据驱动人形机器人,在短期内难以实现具身智能的突破性进展。
银河通用自创立起,便认同并积极探索利用合成数据推动智能发展,是该领域的早期探索者。通过借助NVIDIA Isaac系列及Omniverse等工具,运用仿真器合成大量机器人操作数据,并转化为机器人模型。通过融合各类 3D 固体资产、环境及材质纹理素材,模拟机器人运行场景,研究其操作物体的方式。
在此过程中,仿真器和渲染引擎至关重要。我们需检查合成场景在物理层面的正确性,若正确,便使用并行渲染器渲染数据,存储机器人训练数据,最终获取以10亿计的海量合成数据。基于10亿级别的完全自研合成大数据,银河通用成就了诸多产品。同时,依托具身大模型,银河通用已成功进军零售、酒店、接待、养老以及工业制造等多个行业领域。
值得一提的是,在NVIDIA CES 2025 发布会上,Galbot 站在英伟达创始人黄仁勋的身后,在全世界的注视下托举起了其发布的新一代显卡产品——RTX5090。紧接着 Galbot 又和团队成员在线下展位接待黄仁勋,现场展示无人零售的取货能力,大获赞誉。
总结
总而言之,英伟达凭借对机器人领域的高度关注与前瞻性布局,通过推出Omniverse技术优化仿真环境、搭建融合训练仿真部署的综合性平台,以及借助Isaac GR00T Blueprint和Cosmos平台解决数据难题,为机器人加速进入千行百业奠定了坚实基础。
其技术革新不仅推动AI与人形机器人实现巨大飞跃,还与如银河通用等企业合作,助力各行业进行机器人应用探索。在未来5 - 10年,随着机器人技术持续进步,有望在危险工作替代、劳动力短缺缓解、养老服务提升等方面发挥关键作用,深刻改变社会生产生活模式,开启机器人广泛应用的崭新时代。