機械に試行錯誤させハイレベルの行動を実現

ReNom | 深層強化学習

深層強化学習(Reinforcement Learning)とは、深層学習と強化学習を組み合わせたもので、現在の「状態」、現在の状態に対して取った「行動」、行動によって変化した「状態」、取った行動に対する「報酬」を経験として学習し、機械が試行錯誤を通じて経験を重ねることで、変化する状態に対し最適な行動を選択できるようになるアルゴリズムです。機械が人間の囲碁プレイヤーに勝利したり、ゲームのハイスコアを記録、機械による生産工程の自動制御などの事例は、深層強化学習の活用により実現されています。

 

 

行動と報酬から経験を学習
深層学習における教師あり学習とは、正しい答えを直接教師データとして与え学習させますが、強化学習では、AIが今の環境に対し取った行動に、報酬という評価を与え、その評価を教師として学習します。どの行動を選択すれば高い報酬が得られるか、試行錯誤を繰り返す中でAIが経験として学習します。あたかも人間が試行錯誤を繰り返しながら自然に遊び方を学習するように、経験を重ねることで学習してゆく方法です。

 

 

深層強化学習
ReNomでは、深層強化学習のアルゴリズムとして、DQNDeep Q NetworkDDPGDeep Deterministic Policy Gradients、RDPG(Reinforcement Deterministic Policy Gradients)、A3CAsynchronous Advantage Actor-Criticなどをフォローし、ユーザーが報酬関数を定義するだけで、強化学習に必要な学習を始めることができます。また大学と連携し、研究活動も積極的に行っており、新たな強化学習のアルゴリズムの開発も進めております。

 

 

チュートリアル
ReNom.jpでは、深層強化学習のチュートリアルとして、OPEN AI gymを使ったチュートリアルを掲載し、強化学習の使い方を学んで頂けるような環境を用意しています。

Page top