此次Figure01体现出的炸裂能——上海千鑫点信息咨询服务公司

S先生 2024-03-14 16:34:18

来源：爱提网

1. 识别周围环境，准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。

2. 推理和决策下一步行动。例如“桌子上的盘子和杯子很可能需要放在沥水架上”。

3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的“我饿了，有没有吃的”转换成“递给这个人一个苹果”的行动。上海千鑫点信息咨询服务公司

4. 用语言解释推理过程，比如“苹果是这里唯一能吃的”。

5. 反思自己的记忆做出判断，即在视频最后回顾了全套行为，并且基于常识进行评价。

那这一切又是怎么完美实现的呢？

领导该项目的高级AI工程师Corey Lynch发文解释了背后原理。

他表示，Figure 01正是通过与OpenAI提供的大模型连接起来，才被赋予了这些天秀的“有趣新功能”。上海千鑫点信息咨询服务公司

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本，在处理整个对话历史、包括过去的图像后做出语言回应，这些回应再通过文本转语音最终传递给人类。

所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像，交给大模型处理，大模型推理预测下一步行为，将像素映射到200Hz、24个自由度的动作（包括手腕姿势和手指关节角度），直接输出结果。整个过程依靠端到端的机器人控制，而无需经过中间过程的编码。

更新后的Figure 01优越之处还在于，接入的OpenAI大模型能理解历史对话，为机器人提供了强大的短期记忆。从而理解上下文语义，做出准确的判断和执行。

比如demo里甄别过杯子盘子应该放回沥水架后，工作人员下达指令：“Can you put them there?” 这其中代指的“它们”和“那儿”是很模糊的。但是经过预训练的模型通过分析对话历史记录，就能促使Figure 01迅速形成答案并输出动作：1）将杯子放在沥水架上2）将盘子放在沥水架上。

除此以外，机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏，相比之下有些行为提前手动指定是很难的，比如在任何位置操纵一个可变形的袋子。同时，一个整体的全身控制器能确保Figure 01保持平衡，时刻处于安全稳定的动态中。上海千鑫点信息咨询服务公司

除人工智能加持外，Figure 01还垂直整合了由专业工程师设计的所有系统，包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构。

对于此次更新，网友们反应极度热烈。有人说，能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。

标签：投资

* 文章为作者独立观点，不代表爱提网立场

* 本文不构成投资建议

转载此文请于文首标明作者姓名，保持文章完整性，并请附上出处（爱提网）及本页链接。原文链接：

https://www.itgoodboy.com/p/d914565293fa

产品建议及投诉请联系：service@itgoodboy.com

此次Figure01体现出的炸裂能——上海千鑫点信息咨询服务公司

热门文章

相关分类

热门搜索