市场行业

首页 » 常识 » 常识 » 机器人崛起具身智能的技术商业与社会落地
TUhjnbcbe - 2024/12/25 17:49:00
白癜风为何复发 http://www.zherpaint.com/bzlf/hzxd/m/367.html

是由腾讯研究院联合多方发起,通过不同学科背景、不同领域从业者的提问与解答,促进围绕人工智能的多元、前瞻与系统化思考。百人百问旨在聚焦生成式人工智能带来的技术、商业与社会议题,通过多方对话、研究与协同,探索面向智能化未来的新路径、新范式,更好发挥人工智能的潜力与优势,致力于提升社会福祉。

第一期我们聚焦人形机器人,邀请了5位业界嘉宾,从先前征集的“百人百问”的问题中,选择回答了18个问题,如机器人的“ChatGPT”时刻什么时候到来?机器人的大脑和小脑是什么?人脑和人形,哪个更重要?更具通用能力机器人出现,是否会对劳动力市场构成冲击?机器人除了能干活儿,能不能提供情绪价值……

丁宁广东省具身智能机器人创新中心董事长

王鹤北京大学助理教授、北大银河通用具身智能联合实验室主任

陈立宇树科技联合合伙人

DK蓝驰创投科技投资人

田野腾讯AILabRoboticsX高级研究员

徐一平腾讯研究院高级研究员(主理人)

针对这些问题,我们的交流只是一个开始,希望启发大家的讨论,欢迎大家给我们留言互动,提出您关心的问题或答案。技术演进:大模型如何促进机器人智能化?1.大模型的接入,为机器人带来哪些之前难以实现的新功能?

丁宁:从最直接的这个效果来看,肯定是现在类似于语言大模型跟机器人的结合,让机器人能够用自然语言方式跟人来做交流。这个背后意义挺重大的,因为拉低了机器人操作使用和功能编辑、设计的门槛。实现了机器人的平权,有可能会大幅推进整个机器人行业跟大众跟应用的场景的结合。一线没有经过这方面训练的非专业人士的使用是非常有意义的一个事情。就是接入门槛大幅降低。

另外,我觉得最重要的意义是什么?大模型的技术路线,让大家建立起了一个信心。这个scalinglaw的这种方式能够让机器对于复杂的问题,一个边界非常广阔的、跨行业跨场景的问题的底层理解能力,建立了很好的这个信心,它不仅仅是聊天。聊天的本质是什么?是基于人类理解世界所产出语言作为语料来推演出来人是怎么去理解世界的。那么把理解世界的这一些关系重构出来。这样的话你才能跟他聊得起来,才能接得住,不管任何人、任何背景都能够都提出来的问题。它意味着我理解世界的能力、理解问题的能力比以往大幅的提升。

下面除了语言交流可能其实更值得期待的能力就是让机器推理决策能力大幅提升。那么我们通过文生文或者文生图以及文生视频的结果看出来,它真的好像懂了这个世界运行的规则,基于这些规则去推演出来一种可能性。这个时候,我们想让它去根据一些特定任务去理解一些任务,推演出动作,或者说之前没有教过、没有训练过也能够基于这种规则来生成决策,这个是值得期待的。只不过这个后面这一步还没有到非常理想的状态下,它不仅仅只是一个聊天的问题。也不仅仅只是一个逻辑层面的重构问题,还有对于物理世界理解的问题。现在我们期待具身智能的方法论,用机器或者装备作为数据的入口,更多维、更广泛的数据场景能够让机器理解世界更加到位一点。这个时候它的应对变化的问题能力,应对长尾的能力,跨场景、跨行业、跨任务的能力能够进一步的提升。

第一个是让大家的信心,会降低使用门槛。第二,让大家对大模型的技术路线有认可。第三是吸纳资源进一步往这条线上面来聚集。我觉得这个是一个非常好的现象。

2.机器人的大脑和小脑是什么?

丁宁:大脑小脑之分是在一个物理世界去应对不同层次的问题的一种策略。有的时候通过训练、通过交互过程形成了一个应对某一类问题的一个反应、一个策略,以后就可以固化下来。这个从认知心理学上也有这种现象,会用神经网络或者神经系统形成一个小闭环,快速碰到这种事情就快速反应,类似于有点像直觉的过程。这个就是类似于musclememory,不需要太多的决策再去把这个底层的事情全部都捋一遍再来做一个反应,所以这个就有点像小脑。更高层次的可能是之前没有遇到过的。这个时候就可能需要根据之前的经验,根据对场景、外部物理世界规律的推演,形成一些新的策略。这种策略以前没有实施过,也不见得会预判到结果,但是可以推演出一个这个可能性。这个时候偏决策一点,这就是大脑这方面的能力。我觉得这种划分的话,这个无非是对复杂问题解耦、分层,分而治之,用不同的策略去开展执行的过程。现在这种分法包括我们国家分成大脑、小脑、肢体等等,我觉得也是比较合理的一个架构。

3.机器人的“ChatGPT”时刻什么时候到来?

王鹤:机器人迎来chatGPT时刻目前的瓶颈主要是小脑。小脑无法达到chatGPT的通用性,就是fewshot、oneshotgeneralization(小样本甚至单样本)能力。我们对机器人大小脑的这个划分不是完全按照人类大小脑工作的机理。基本上我们把感知和决策认为是大脑,对本体或肢体进行控制生成动作认为是机器人的小脑。在这样的意义下,大脑今天是比小脑发达很多的。今天不论是chatGPT还是GPT-4o本质上都是接收图文信息回答图文,就是决策和感知的过程,所以都属于大脑的部分。我们机器人的chatGPT时刻一定需要机器人可以在理解现实世界和进行“我要做什么事情”的决策之后,真的能把这件事情干成,就需要小脑大模型去泛化,根据任务去驱使身体产生关节电机扭矩或者是关节位置变化。这个是目前我们离机器人chatGPT时刻最大的一个距离。

我们今天谈大模型不管是大脑和小脑的任务都是足够复杂。大脑今天是大模型,小脑应该也是大模型。小脑会控制人形机器人全身上下从双腿、双足到双手、颈部、腰部等五六十个自由度的高维运动。这样泛化控制目前最大的问题在于数据量不够,无法驱动任何一个大模型去做在任何场景、在任何任务下的泛化执行。我们大脑大模型的数据来自于互联网,但是小脑大模型的数据互联网上却没有机器人对应配套的数据。所以说我们今天要想实现就是机器人chatGPT时刻,那么我们关键是实现小脑大模型的能力,那么小脑大模型又卡在了这个数据这一关。

这也是我们银河通用用合成数据试图去完成的一个非常重要的转变。如果这一步能够打通,说机器人chatGPT时刻将会是对人类技术的一个巨大革命。机器人将拥有从感知到决策到执行的全面泛化,一旦再配以人形这样高自由度的身体的话,可能在很多场景能够大量的取代人类劳动力。那么这一个时间点目前看可能离我们还有至少5到10年的时间。

工程化难题:一年就能造出人性机器人需要做对什么?4.为什么双足人形机器人成为产业热点?双足的价值是什么?

陈立:人形机器人从腰部可以一切为二。下半身负责lo

1
查看完整版本: 机器人崛起具身智能的技术商业与社会落地