此次Figure01体现出的炸裂能——上海千鑫点信息咨询服务公司

S先生
S先生 2024-03-14 16:34:18
来源:爱提网
1. 识别周围环境,准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。

2. 推理和决策下一步行动。例如“桌子上的盘子和杯子很可能需要放在沥水架上”。

3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的“我饿了,有没有吃的”转换成“递给这个人一个苹果”的行动。上海千鑫点信息咨询服务公司

4. 用语言解释推理过程,比如“苹果是这里唯一能吃的”。

5. 反思自己的记忆做出判断,即在视频最后回顾了全套行为,并且基于常识进行评价。

那这一切又是怎么完美实现的呢?

领导该项目的高级AI工程师Corey Lynch发文解释了背后原理。

他表示,Figure 01正是通过与OpenAI提供的大模型连接起来,才被赋予了这些天秀的“有趣新功能”。上海千鑫点信息咨询服务公司

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本,在处理整个对话历史、包括过去的图像后做出语言回应,这些回应再通过文本转语音最终传递给人类。

所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像,交给大模型处理,大模型推理预测下一步行为,将像素映射到200Hz、24个自由度的动作(包括手腕姿势和手指关节角度),直接输出结果。整个过程依靠端到端的机器人控制,而无需经过中间过程的编码。

更新后的Figure 01优越之处还在于,接入的OpenAI大模型能理解历史对话,为机器人提供了强大的短期记忆。从而理解上下文语义,做出准确的判断和执行。

比如demo里甄别过杯子盘子应该放回沥水架后,工作人员下达指令:“Can you put them there?” 这其中代指的“它们”和“那儿”是很模糊的。但是经过预训练的模型通过分析对话历史记录,就能促使Figure 01迅速形成答案并输出动作:1)将杯子放在沥水架上2)将盘子放在沥水架上。

除此以外,机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏,相比之下有些行为提前手动指定是很难的,比如在任何位置操纵一个可变形的袋子。同时,一个整体的全身控制器能确保Figure 01保持平衡,时刻处于安全稳定的动态中。上海千鑫点信息咨询服务公司

除人工智能加持外,Figure 01还垂直整合了由专业工程师设计的所有系统,包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构。

对于此次更新,网友们反应极度热烈。有人说,能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。

标签: 投资

百度推荐

本周热议
江苏百瑞赢:创业与不同股东该怎么合作 0
持续输出,释放消费潜力——千鑫点信息咨询服务公司 0
暖心服务赢得口碑——千鑫点信息咨询服务公司 0
非侵入式肠癌检测是无痛吗?适合哪些人 0
父亲会携带脆性x染色体吗?要检查吗? 0
NIFTY无创什么时候做?有没有规定呢? 0