通用人工智能之争（深度学习，大模型，Chatgpt，强化学习，具身智能，）-CSDN博客

今年世界机器人大会2023提到一个概念具身智能提出这个概念是因为当前我们所做的基于人工智能的机器人是先在仿真环境训练模型再将训练好的模型移植到真实世界中的机器人上但这存在一个问题这种训练模式下的机器人只能解决训练环境中已经提前模拟过的可能发生的各种问题对于现实世界发生的没有在训练环境中模拟的情况它不能解决。举个例子假设我们在训练环境中让机器人抓取一个苹果但没有模拟抓取过程中它遇到障碍物时该如何解决那么在真实世界中遇到障碍物时同样不知道如何解决。也就是说机器人真实世界中它并不具备学习能力它有的仅是在训练环境中学习到的能力显然这不是我们想要的人工智能。

1.2.2 具身智能实现的基础

而且对于人类个体而言尽管我们活在信息大爆炸时代但在获取信息时我们所学习的存在脑海中的不管是成功的还是失败的经验都是自己独有的适合自己的然后我们依靠这些经验提升自己逐步从小孩成长到大人。

而在当前训练智能体时所采取的数据全部来源于网络这些数据庞大且混乱真假难以辨别就从Chatgpt来看我们经常能发现它会给出一些错误的答案这是因为它所学习到的数据并不全是对的的。但Chatgpt有一个优势它可以和人类互动去纠正之前错误的知识真实世界的交互这也就意味着Chatgpt有了进化的可能因为它可以和全球几十亿人交流学习他们的一切并且能够变成自己的甚至推陈出新。当然Chatgpt仅能算是语言嘴和耳的通用人工智能扮演大脑的一部分赋予了智能体理解人类问题以及和人类交流的能力。想要实现真正意义上的通用人工智能我们还要获得眼鼻等其他感知机构和现实世界的交互信息。

当前最接近具身智能的应该是数字孪生之前我们说机器人无法解决真实世界中遇到的在训练环境中没有模拟的情况但对于数字孪生它可以利用虚拟环境(训练环境)实现和现实的实时交互从而具有在真实世界学习的能力。我们还从上面的例子出发同样我们在训练环境中让机器人抓取一个苹果同时不设置障碍和之前不同的是此时在真实世界中遇到障碍会将这个障碍信息实时反馈到虚拟环境训练环境那么此时机器人就可以快速在虚拟世界训练环境中训练从而在真实世界避开这个障碍物但这对于通讯的实时性和算力有很高的要求不过确实可以利用机器人和真实环境交互后所得的信息提升自己。但是同样的这不是真正的具身智能因为我们当前的交互主要还是依赖于视觉信息这中对世界的认知显然是不足够的所以我们需要更多的大模型视觉大模型味觉大模型嗅觉大模型等这样机器人才具备了和真实世界全方位交互的基础能力。而数字孪生也是具身智能的关键技术。

1.2.3 强化学习决策大模型

对于人类而言小学时候老师教我们1+1=2每次我们写错时就给我们打个×每次看到这个×我们就知道这样做是不对的久而久之我们就知道1+1=2才是标准答案。这是人类在和现实世界交互后一个思考的过程那对于机器人而言改如何思考呢

前面我们已经论述了具身智能所需要的感知能力但有了这些感知能力如何通过和现实的交互不断思考提升自己呢这里我们引入强化学习概念举个例子我们询问Chatgpt一家小公司的发展历史假设这个公司是2019年成立的但网上存在错误信息它不能有效识别它可能会告诉你这个公司是2015年成立的此时你回复它你是不对的这家公司实际上是2019年成立的然后当你再次询问它这家公司什么时间成立时它会告诉你是2019年成立的此时我们神奇的发现Chapt有了纠错能力。但过了很久当你再去问它时它却又告诉你这家公司是2015年成立的原因在于它有一个奖励机制假设你说这个公司成立于2019年Chatgpt给这个答案加5分但同时有十个人说成立于2015年那么2015这个答案就有50分显然Chatgpt会相信50分的答案这和三人成虎异曲同工所以此时我们需要找100个人回答说是2019就可以保证答案更正为改公司成立于2019年而在这个过程中我们又神器的发现Chagpt似乎有了思考能力它权衡了很多人的答案最终给与出了自己的答案这就是强化学习在语言模型中的应用。Chatgpt先以深度学习基础构建出一个笼统的答案库再利用强化学习不断的和人类交流进而持续更正它的答案库中的答案。

同样机器人执行机构运动和真实环境所得到的交互信息也需要强化学习来思考决策过程比方说依然让一个机器人抓一个苹果这个抓取过程的路线有无数可能抓取的动作同样有无数可能但是机器人该如何选择最好的路线和动作呢我们引入强化学习每一步都给一个奖励最后我们用奖励最高的动作集合作为决策也就意味着机器人通过和真实世界的交互学到了最好的抓取苹果的动作集合。

2.结论

从上面的论述中我们发现感知大模型语言大模型、视觉大模型、嗅觉大模型、味觉大模型深度学习让智能体具有理解真实世界的能力在这个能力的基础上决策大模型强化学习赋予了智能体思考的能力而数字孪生让给智能体可以在虚拟环境中快速且无损的找到诸多思考下最优的解决方案。

而数字孪生的这个特点会是通用人工智能超过人类的一个关键对于人类而言遇到一个问题需要花费大量的时间多次试错才能找到最优方案但对于通用人工智能它可以在虚拟环境中快速的找到最优答案再应用于真实世界。这其中的差别比方说两个人在悬崖下找到了一本修仙秘籍A苦练万年多次历经生死大劫九死一生之后终于得到成仙而B找到了一个仙境在个仙境中1亿年相当于外界一天而且里面的人死后会瞬间复活所以B在仙境中为了找到可以成为最强仙人的方案疯狂作死尝试了无数次之后终于找到了答案他在仙境花了365亿年但在外界仅过了一年。

语言大模型Chatgpt深度学习和决策大模型强化学习的区别

简单理解语言大模型解决机器人能听懂什么这赋予了智能体理解能力决策大模型强化学习赋予机器人思考和决策能力即如何最优解决一个问题的能力。Chatgpt只是利用深度学习技术从庞大的数据库中找到一个答案在这个过程并没有严格意义上的思考而强化学习是面对一个问题从无到有思考所有可能的答案最终找到最优解决方案显然这才符合人类的思维模式。而某种层面上思考能力是区别人和动物的根本因素。

写在最后具身智能是通往通用人工智能的大门而强化学习是通往具身智能的大门。