银河通用王鹤：人形机器人将步入生产力时代

人形机器人正成为全球瞩目的焦点，投融资热度持续攀升，但争议也随之而来。

一方面，从技术瓶颈到伦理困境，从就业冲击到社会影响，每一个问题都引发了广泛而深刻的讨论。随着人形机器人越来越接近人类的外观和行为模式，人们开始担忧它们是否会模糊人类与机器的界限，进而引发一系列伦理道德问题。

另一方面，人形机器人行业投融资过热，导致部分企业估值虚高，行业存在泡沫风险。早期融资轮次的规模已经来到next level，头部企业估值水涨船高。

尽管存在诸多争议和挑战，人形机器人的发展势头却并未放缓。全球科技巨头和初创企业纷纷加大投入，从家庭服务到工业生产，从医疗护理到教育娱乐，人形机器人的应用场景不断拓展。

需要承认的是，虽然当下人形机器人能够完成跳舞、跑马拉松等动作，但离真正的劳动力时代还有些距离。

4月18日，在“第19届中国投资年会·年度峰会”上，银河通用创始人及CTO王鹤发表了题为“开启人形机器人的生产力时代”的主题演讲。

他指出，过去三十年，人形机器人走过了以日本、美国企业主导的雏形时代，现在，人形机器人正在经历由中国企业引领的运动时代，在运动时代，人形机器人从简单地形到复杂地形，到跑步，到拟人舞蹈，到一系列武术动作，取得了进一步的进展。

而未来，人形机器人即将开启生产力时代，毕竟我们发展人形机器人的核心是希望它能替我们去劳动，降低体力劳动的需求。

王鹤认为，在从运动时代迭代到生产力时代的过程中，最先要发展的就是手眼脑的协调，这一点是推进人形机器人迅速赋能千行百业的关键。究其原因，则是因为人形机器人的跳舞、跑步，都没有用到视觉传感器，这样的技术跟生产力时代的要求不一样，毕竟没有活是闭着眼睛干的。

以下为现场演讲实录，由投中网进行整理：

大家好，很荣幸跟大家分享我们关于人形机器人的最新动向和我的一些思考。

说到科技产品，我觉得现在人形机器人应当是最火的，有硬件的科技产品之一。

银河通用于2023年5月在北京海淀成立，那时人形机器人的热度还远不如现在，具体来讲，我们专注于研发人形机器人的硬件和具身智能的大模型，最终将一个完整的产品给到用户，让客户直接使用，所以我们是一家全链条的人形机器人公司。

接下来，我们看下人形机器人的发展历程。

其实从上世纪60年代、70年代初，日本就开始率先发展人形机器人。当时像日本的人形机器人之父到ASIMO亮相，到它退出历史舞台，一下子30年的时间就过去了，另外波士顿动力也是一家有30年历史的机器人公司。可以看到，人形机器人给这个世界最早的震撼是这些日本、美国的企业带来的。

但是我认为这一波浪潮在人形机器人里只能算是雏形时代，因为这个时代，虽然造出了一个看起来像人的机器，但它并不是数据驱动的人工智能，而是一种控制。它实现直立行走和简单的运动能力，是通过模型预测控制，叫Model Predictive Control和全身的运动规划，这样的技术对于走路，每一个技能都可以专门去建立它的数学模型，然后进行控制的推导，最终实现一些功能。比如在比较坚硬的地面上行走，背后局限性是相对比较大的，而且开发一个新的能力，也需要比较长的时间。在这漫长的几十年周期里，我们看到像日本的人形机器人从引领世界，到最后像ASIMO退出历史舞台，包括现在人形机器人这么热，其实日本的参与感也不是很强，这个过程其实是雏形时代的“Not Created in China”的缩影。

当下正在经历的是人形机器人的运动时代，在今年春晚宇树人形机器人跳舞之后，全世界都看到了中国的人形机器人拥有非常好的运动能力，包括这周末北京在搞机器人的半程马拉松。

此外，人形机器人的硬件发展依托于中国的制造业，相比于其他市场，成本上已经实现了大幅的下降，同时技术上也发生了革新，它是一个基于数据驱动的强化学习。这样的数据广泛来自于仿真，是在仿真器里面人形机器人的腿足踏地，基于奖励函数习得的一套稳定的行走、跑步，或者你给出一个人类跳舞的动作序列，它以模仿这个动作序列进行奖励学习，习得的一支舞蹈。这个过程已经优先于美国，宇树最早放出的回旋踢的视频后，很多人打假说是AIGC的，说明我们的科技在引领运动时代的发展。在运动时代，人形机器人从简单地形到复杂地形，到跑步，到拟人舞蹈，到一系列武术动作，取得了进一步的进展。

我们现在需要进一步思考的是人形机器人在运动时代之后，应该再去何方？

这个问题要从第一性原理去出发，我们发展人形机器人的核心是希望它替我们去劳动，降低这些体力劳动的需求。比如这一波人形机器人的引领者——特斯拉，也展示过人形机器人在工厂里面抓取电池的工作。我认为这是人形机器人正在展开的一个新时代—人形机器人的生产力时代。当我们有了人形机器人的本体，它已经能够行走之后，最重要的它能够实现自主的工作，泛化的操作。

其实人形机器人的跳舞、跑步，都没有用到视觉传感器，比如马拉松是背后有人在用遥控器遥控，让它往前跑。跳舞是这支舞蹈已经编好了舞，上台以后是不用看的，所有机器人各司其职，也不用躲同台演员，它们就是闭着眼跳完一支已经编好的舞。这样的技术跟现在讲的生产力时代还不是一回事，毕竟没有活是闭着眼睛干的。

我们真正发展的应该是手眼脑的协调，这一点是推进人形机器人迅速赋能千行百业的关键。这背后很关键的技术是有一个实时视觉输入，闭环反馈的端到端的大模型来推动人形机器人干好各种各样的事情，这也是我们银河通用端到端具身大模型发力的地方。

一个端到端的具身大模型遇到的困难跟我们自动驾驶里发展的端到端大模型是不一样的。自动驾驶的特点是数据来源特别广，特别多，量特别大，头部车厂上百万台车每天在外面跑，每个车跑一个小时，它回流的数据大约有上亿条，而人形机器人目前量不足，它不能够实现有人类大量免费驾驶它，所以都是靠人类去遥控机器人采集数据。这样的遥控数据采集成本比较高，同时要想干各种各样无穷无尽的活，可能需要上亿条数据。

那么银河通用是怎么做的呢？

人形机器人需要冷启动，自动驾驶的数据卖了车就回来是热启动，我们在冷启动的时候要用大量的合成仿真数据去推动人形机器人干活这件事，对于冷启动时期的破局之路，我们发展了大量的物体数字资产，在物体数字资产上又用物理的方法合成了大量的抓取的标签，抓取的轨迹。这个工作的第一代完成了一百万个抓取，开启了人形灵巧手的大数据时代。

今年年初，我们以10亿级别的合成大数据端到端训练了一个大模型，这个端到端的大模型是一种视觉语言动作的多模态大模型，它视觉作为输入，语言指令作为第二个输入，模型实时输出当前状态机器人末端的执行器应该怎么移动，怎么旋转，这样一个实时闭环反馈拉的模型。

这也实现了两个全球首次，其一是10亿级别的合成数据规模，其二是只基于合成数据，没有做任何真实数据的采集，就完成了多模态模型训练。

通过这个模型，机械臂可以在复杂环境下，无视各种灯光干扰，实现对移动物体的抓取，像人类一样拥有反应的智能。同时，只要跟它说一句话，它就能进行反应，

而在过去，全球是没有哪个模型能够做到如此泛化的，因为是基于合成数据训练的，所以在在真实场景里还需要加一点点真实数据，这样就能让模型理解人想怎么干事情。

举例来讲，在给货架上水的场景中，我们只需要对这箱水采集200条数据，就能实现精准抓取水瓶，像这样的技能，如果用真实世界数据采集，特斯拉用了40个人几个月的时间。而我们通过合成大数据预训练、真实数据后训练只需要一天下午就能完成数据采集，并且还实现了举一反三，不需要有新的数据采集就能在新品牌上去做抓取上水的工作，这是大模型带来的真正泛化性和涌现。

不仅是人形，我们也赋能像宇树的足式机器人，从腿足到抓取都是我们自己开发的，比如基于宇树的硬件，我们做户外场景的垃圾的捡拾，都是全自主的。

在今年的英伟达CES大会上，银河通用入选了14家人形机器人合作伙伴，并且作为其中4个机器人之一，我们站在Figure旁边，举了他们当天发布的芯片。我相信这也是英伟达对我们的寄托。

人形机器人将托起芯片的下一个未来，虽然只有两年的时间，银河通用已经快速的完成了多轮融资，今天达到了10亿美金独角兽的估值。希望我们能够进一步推动科技产品“Created in China”。

谢谢大家。

文章来源于网络。发布者：读懂财经，转转请注明出处：https://www.juwfa.com/4646.html