Reinforcement Learning(強化学習) 10本腕バンディット問題をグリーディ法で解こう! バンディット問題を貪欲に解く: link ε-グリーディ法でバンディット問題を解こう! εという小さい確率を入れるのが大事: link 楽観的初期値をやっていこう! 初期値の決め方で全体を効率的に回る: link 上限信頼区間(UCB)で行動を選択しよう! 行動回数が少ないならその確率を上げればいいじゃない: link