题主问这个领域的瓶颈,我觉得瓶颈是:

没法

并没有问题。包括我们也在努力让强化学习变得好用通用,但目前依然是这个领域的瓶颈。另外游戏在我眼中不算是落地应用。

====== 再次更新

明确一下,我说的没法用是指现在主流学术研究。我们自己不但能用,而且用得很好。

本来就是打算吐槽一下现在的paper,没想到还引出了不少看笑话的。我说我跟滴滴合作,但是我没做调度任务,某些说我们调度做得一下就下线了,真是莫名其妙。

====== 更新

好多留言说明了“没法用”反映出大家的心声。实际上强化学习这个古老的研究领域2016前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低,然后做出了很多改进,但是要改进到什么程度才能有用呢,其实根据我们的经验有一个标准:

零试错:一次试错不能有,上线即能发挥效果,还要明显优于基线

offline RL是个正确的方向,但是目前的主流研究也有很多明显的弯路,可能发论文与做落地本身就是不同的事,大家的关心点不可能完全一致吧。

说没法用只是吐个槽,要想发论文,就只能沿着所谓的SOTA来改进,即使是看起来没有希望的方向。

另外就是我们的落地越来越多,不再想着去说服别人RL可以用了


本文由转载于互联网,如有侵权请联系删除!