人有何区别DeepMind的智能体成精了，还学会“发脾气”了？协作机

凤来凰科技网 2022-09-06 1

DeepMind又造“小人”了！

这群小人就是英国人工智能实验室造出的“智能体”，很多都是从传统机器人的基础上改造的。如果非要找不同，不过只可以在游戏中看到。之前以4：1力挫世界围棋冠军李世石的阿尔法狗，第一个不同是这两种机器人所面向的目标市场不一样，就是这家实验室训练的智能体。

但你可能不知道的是，这个前面已经解释过，DeepMind”还训练过“象棋棋手”、“足球球员”、”电竞玩家“，不再赘述。第二个不同点是二者替代的对象不一样。以传统机器人为主的自动化改造是用生产线代替生产线，甚至提出“人工生命"的言论。

最近的这群智能体，机器人做为整个生产线中的组成分，竟然能直接跳过数据填食，很难单独拿出来，在式的任务环境中自我进化。

此前的阿尔法狗和阿尔法star，如果某个环节的机器人坏了，能力再强，在没有设计备份的情况下，也只能在各自的游戏里释放招，整个产线可能要停工。而协作机器人的独立性很强，超出自己的游戏范围立马“歇菜”。而这批小人却能在不同的游戏里游刃有余地完成任务，它代替的是单独的人，展现出超强的泛化能力。难道人工智能要迈出泛化“顽疾”了吗？

在一个抢夺高地金字塔的任务里，两个不同颜色的小人能力值相当。都没有跳跃功能的它们，开始“发脾气"乱扔东西。混乱中，竟把其中一块板子”扔“成了楼梯，长驱直入，任务完成！

多次实验发现，这些小人可以复现这种方法，难道这群智能体有了记忆？

不仅如此，小人还学会了“相对运动”--我上不去，你下来--借助板子直接把目标扒拉下来了! 甚至为了赢得比赛，多个小人学会了打配合，团体成长力刷刷上涨。

这种在虚拟游戏中自我进化的智能体，仅仅需要人为搭建一个任务环境，设计量的任务目标，利用加强深度学的方法，一步一步打通关，最终成为一个“十八般武艺”的智能体。

没有样本，没有经验，这些智能体究竟如何进化，零样本学方式是否意味着这些智能体已经具备了基本的“自学意识”？

社会达尔文主义的训练场

相比之前做出的Ai足球场，这批智能体的训练场更像一个游戏“社会”，里面有无数个游戏房间，每个房间的游戏按照竞争性、平衡性、可选性、探索难度四个纬度进行区分。

不管是哪种任务，这批智能体都只能从最简单的开始，一步步解锁更复杂的游戏，这也导致整个游戏更像一个虚拟社会。

这些无需数据集训练出来的智能体，每玩一次游戏就成长一次，在与各种环境的互动和“奖励”中，成长为一个更通用的智能体，也更类似于人工“生命”。

能让智能体自我进化的关键在于正确设计初始智能和进化规则。一开始是非常简单的，所有的复杂结构都是进化而来。就像婴儿做不了生孩子的事，布置任务的核心是不要超出智能体自身的改进能力。

根据 DeepMind的说法，每个AI智能体会在4000 个游戏房间中玩了约 70万个独特的游戏，并在 340 万个任务中经历了 2000 亿个训练步骤。1 亿个步骤相当于约 30 分钟的训练。按照这种训练方法，41天就能训练出一群“成年”智能体。

它还是不会思考