コンテンツにスキップ

Reinforcement Learning(強化学習)

10本腕バンディット問題をグリーディ法で解こう!

バンディット問題を貪欲に解く: link

ε-グリーディ法でバンディット問題を解こう!

εという小さい確率を入れるのが大事: link

楽観的初期値をやっていこう!

初期値の決め方で全体を効率的に回る: link

上限信頼区間(UCB)で行動を選択しよう!

行動回数が少ないならその確率を上げればいいじゃない: link