从单模态大模型到多模态与具身智能融合发展,是AI发展的大趋势。机器人“ 大脑”的进化速度将主要取决于大模型技术的发展速度,而大模型技术的发展速度
又由算力和数据量的增长速度以及算法的进化速度所决定,目前都呈现出加速迭代
的趋势。在大模型加持下,自学习、自适应、自组织的具身智能正在走向现实,机
器人产业有望迎来繁荣发展期。服务机器人的智能化、协同化、个性化水平将大幅
提升,主要体现在自然人机交互、多模态智能感知、自主认知决策、准确运动控制以及研发训练成本降低等诸多方面
1 人机交互更加,沉浸自然
大模型语言生成能力强,为机器人的语音交互难题提供了解决方案。人工智能
公司Levatas与波士顿动力合作,将ChatGPT和谷歌语音合成技术接入Spot机器狗,
实现与人类的自然交互
2 多模感知更加准确
大模型促进视觉、听觉、文本等多种信息模态的融合处理,服务机器人在处理
复杂任务时能整合多源信息,做出更为全面和准确的决策[12]。OpenAI新发布的
GPT-4o,支持文本、音频和图像的多模态输入输出,实现真正的多模态统一。
3 认知决策更加敏捷
借助大模型,可基于情境分析做出更加合理的判断和规划行动路径,包括评估
多种可能的行动方案,预测行动后果,并选取优解。面对突发情况时,可快速适
应并调整策略,体现出更强的自主性和灵活性。
4 运动控制更加自如
通过集成强化学习算法,大模型帮助机器人在不断试错中学习有效的运动策
略。例如,DQN(DeepQ-Network)和其他强化学习模型可以与大模型协作,基于
当前状态决定下一动作,从而优化路径规划、避障策略和物体操作技巧。
5 整体成本更加可控
具身智能应用到机器人载体的时间和成本都在降低,一是在研发阶段,训练成
本在降低,大模型用于辅助设计、功能开发等工作大幅减少人员、计算资源;二是
自动化的虚拟测试也大幅降低测试成本,提升数据收集,加快产品迭代速度。整体
上会降低研发成本和周期。

|