清华“挑战杯”科展诞生于1983年,每年举办一次,以集中展示学生课外科技创新成果。本届“挑战杯”科展作为清华109周年校庆活动的一部分,首次尝试在线上举办;新雅书院有三件作品入展,分别是陈伟浩同学的“BiTipText双手指尖盲打”,郑智、崔琢宜、张皓烨同学的“基于强化学习的裂脑机器人研究”,曾哲妮同学的“多情境下的交通视频多目标追踪系统”。
基于强化学习的裂脑机器人研究
作者:郑智 崔琢宜 张皓烨(新雅书院,CDIE方向)
指导老师:徐迎庆
关键词:裂脑,强化学习,策略梯度,LEGO EV3
摘要
裂脑人(split-brain patients)在医学上指代那些胼胝体受损使得左右脑无法正常交流的人。在这项“研究”中,我们使用LEGO Mindstorm搭建了裂脑机器人,用两台互不通信的EV3主机模拟左右脑,分别控制机器人的一半身体,同时利用强化学习的策略梯度算法使机器人学习如何让左右脑协调工作。经过40个回合的学习,机器人基本能够实现直线行走;而在不同实验条件的设置下,机器人也会有不同的行为特点。最后,我们将裂脑机器人的部分行为解释为左右脑的间接通信,而这与裂脑人的行为有相通之处。

图1 从裂脑人到裂脑机器人

图2 裂脑机器人硬件
硬件与算法
我们用两台互不通信的 EV3 主机模拟左右脑,分别控制机器人的一半身体;各连接一个陀螺仪作为感知,各连接一个电机用来运动。同时利用强化学习的策略梯度算法使机器人学习如何让左右脑协调工作。


图3 强化学习的策略梯度算法
实验结果
经过 40 个回合的学习,机器人基本能够实现直线行走,各项表现均显著提升;而在不同实验条件的设置下,机器人也会表现出不同的行为特点。


图4 机器人直线行走情况的变化

图5 不同奖励设置下,平均速度的变化

图6 不同奖励设置下,平均偏转角速度的变化
几点结论
两侧大脑运行着完全相同的程序、在完全对称的条件下(除了两侧CPU的运算速度稍有差别),却能发展出不对称的策略;仅仅改变了奖励,却能发展出十分不同的策略。

实验视频链接
https://www.bilibili.com/video/av64273757