マルコフ決定プロセス - 基礎と応用
Fouad Sabry
Traduttore Kei Imano
Casa editrice: 10億人の知識があります [Japanese]
Sinossi
マルコフ決定プロセスとは 離散時間確率制御プロセスは、数学の分野ではマルコフ決定プロセス (mdp) と呼ばれます。 これは、結果が意思決定者によって部分的に制御され、部分的にランダムな偶然によって決定されるシナリオでの意思決定をモデル化するための数学的フレームワークを提供します。 動的プログラミングで処理できる最適化問題の研究は、mdp の使用に役立ちます。 少なくとも、民主党は 1950 年代には存在が認識されていた。 1960 年に出版されたロナルド・ハワードの著書『動的プログラミングとマルコフ・プロセス』は、マルコフ意思決定プロセスに関する中心的な研究体系を開始したとされています。 これらは、ロボット工学、自動制御、経済学、製造などの幅広い分野で応用されています。 マルコフ意思決定プロセスはマルコフ連鎖の拡張であるため、ロシアの数学者アンドレイ マルコフが「マルコフ意思決定プロセス」(mdp) という用語の起源となっています。 どのようなメリットがあるか (i) 次のトピックに関する洞察と検証: 第 1 章: マルコフ決定プロセス 第 2 章: マルコフ連鎖 第 3: 強化学習 第 4 章: ベルマン方程式 第 5 章: 許容可能な決定ルール 第 6 章: 部分的に観察可能なマルコフ決定プロセス 第 7 章: 時間差学習 第 8 章: 多腕バンディット 第 9 章: 最適な停止 第 10 章: メトロポリス?ヘイスティングス アルゴリズム (ii) マルコフ決定プロセスに関する一般のよくある質問に答える。 (iii) 多くの分野でのマルコフ決定プロセスの使用例の実例。 (iv) ) マルコフ意思決定プロセスのテクノロジを 360 度完全に理解できるように、各業界の 266 の新興テクノロジを簡潔に説明する 17 の付録。 本書の対象者 専門家、学部生、大学院生、愛好家、趣味人、そしてあらゆる種類のマルコフ意思決定プロセスについて基本的な知識や情報を超えたいと考えている人。
