分布的多変量方策評価とBellman GANによる探索(DISTRIBUTIONAL MULTIVARIATE POLICY EVALUATION AND EXPLORATION WITH THE BELLMAN GAN)
田中専務拓海先生、最近部下が「Distributional RL」が大事だと言うんですが、正直よくわからないんです。これって普通の強化学習と何が違うんでしょうか。AIメンター拓海素晴らしい着眼点ですね!まず基本から説明しますよ。強化学習は将来の報酬の期待値を学ぶのが普通ですが、Distr