🐭 ネズミ vs チーズ — 強化学習ラボ

🏆 プリセット

FAST

⚡

ターボ学習

高学習率＋小バッチで爆速収束。不安定だが最速

STABLE

🏔

安定重視

低学習率＋大バッチで安定学習。じっくり確実に

BEST

🧠

大脳モデル

隠れ層400＋高γで複雑な経路を学習。最高スコア狙い

EXPLORE

🗺

冒険家

高探索率で未知の経路を開拓。序盤のスコアは低い

TINY

🐜

最小構成

隠れ層50の軽量ネット。限られた容量でどこまで学べるか

PRO

🎯

師範モード

チューニング済みの最適バランス。最も安定して高スコア

⚙ ハイパーパラメータ

学習率 Learning Rate 0.0025

大きいほど学習が速いが不安定になる

割引率 Gamma (γ) 0.980

未来の報酬をどれだけ重視するか（1に近い＝長期的）

探索率 Epsilon (ε) 0.030

ランダムに行動する確率（探索と活用のバランス）

バッチサイズ Batch Size 4

何エピソード分の経験をまとめて学習するか

隠れ層サイズ Hidden Size 200

ニューラルネットの容量（リセット時に反映）

実行速度 Speed 10

1フレームあたりのステップ数

📊 行動確率分布

↓ 下

25%

↑ 上

25%

→ 右

25%

← 左

25%

📈 報酬推移

📖 学習のしくみ ▶

方策勾配法 (Policy Gradient) は、ニューラルネットワークが「どの方向に動くべきか」の確率を直接学習する手法です。

学習率：パラメータの更新幅。大きすぎると発散し、小さすぎると学習が遅くなります。

割引率 γ：γ=0.98なら100ステップ後の報酬は0.98^100 ≈ 0.13倍に。未来の報酬をどれだけ重視するかを制御します。

探索率 ε：ε-greedy法。一定確率でランダムに動くことで、未知の良い経路を発見します。低すぎると局所解にハマります。

バッチサイズ：複数エピソードの経験をまとめてパラメータを更新します。大きいほど安定しますが学習が遅くなります。

隠れ層サイズ：ニューラルネットの中間層のニューロン数。大きいほど複雑なパターンを学習できますが、過学習のリスクも増えます。

ヒートマップ：各マスでネットワークが出力する行動確率の最大値を色で表示。明るいほど「自信がある」マスです。

方策表示：各マスで最も確率が高い行動方向を矢印で表示。ネズミが学習した「地図」が見えます。