| 授業コード | 90109000 | 単位数 | 4 |
| 科目名 | 経営情報論特殊研究 | クラス | |
| 履修期 | 年間授業 | カリキュラム | *下表参考 |
| 担当者 | WANG Qi | 配当年次 | *下表参考 |
| 授業の題目 | 最適化理論と最適化アルゴリズム |
| 学修の概要 | 最適化問題の中でも、マルコフ決定過程によるモデル化とその最適化アルゴリズムに焦点を当てる。数理的アプローチ(収束性・計算複雑性の理論解析)と数値解析的アプローチ(実装・実験評価)の両面から研究を進め、博士論文の基盤を形成する。講義は文献購読と報告・討論を中心とした双方向形式で行い、最新の研究動向を踏まえながら各自の研究テーマを深化させる。 |
| 学修の到達目標 | マルコフ決定過程に関連する最適化理論とアルゴリズムの最新研究動向を説明できるとともに、自身の研究テーマを理論と実験の両面から探究し、博士論文へと発展させるための基礎能力を修得する。 |
| 授業計画 | 第1回 | ガイダンスと最適化問題の概要 ・授業の目的、進め方の説明。最適化問題の基本分類(線形計画、非線形計画、動的計画、確率的最適化)と、マルコフ決定過程(MDP)の位置づけを解説する。 ・授業全体の流れを理解し、最適化問題とMDPの関係を概説できる。 |
| 第2回 | マルコフ決定過程の基礎 ・MDPの定義(状態、行動、遷移確率、報酬、割引率)、ベルマン方程式、価値関数の導入。 ・MDPの数学的枠組みを説明できる。 |
|
| 第3回 | 動的計画法とベルマン最適性 ・有限horizonと無限horizonのMDPに対する動的計画法(価値反復、政策反復)の原理と収束性。 ・価値反復法と政策反復法のアルゴリズムを説明できる。 |
|
| 第4回 | 最適化問題としてのMDP ・様々な最適化問題(在庫管理、待ち行列制御、ロボット経路計画など)をMDPとして定式化する例を学ぶ。 ・与えられた問題をMDPにモデル化する手順を理解する。 |
|
| 第5回 | 確率的最適化とロバスト最適化 ・MDPの拡張としての確率的最適化(確率計画法)とロバストMDPの考え方を紹介。 ・不確実性下での最適化とMDPの関係を説明できる。 |
|
| 第6回 | モデルベース強化学習とMDP ・強化学習の枠組みとMDPの関係。モデルベース手法(遷移確率が未知の場合の推定と計画)の基礎。 ・強化学習におけるMDPの役割を説明できる。 |
|
| 第7回 | モデルフリー強化学習①:モンテカルロ法 ・モデルフリーでの価値関数推定:モンテカルロ法の原理 ・モンテカルロ法による価値関数推定の手順を説明できる。 |
|
| 第8回 | モデルフリー強化学習②:TD学習 ・時間差(TD)学習、TD(0)、Sarsa、Q‑learningのアルゴリズムと収束性の概要。 ・TD学習とQ‑learningの更新式を説明し、簡単な例で手計算できる。 |
|
| 第9回 | 関数近似と深層強化学習 ・大規模状態空間への対応:線形関数近似、ニューラルネットワークを用いたDQNの概要。 ・関数近似の必要性とDQNの基本的な仕組みを説明できる。 |
|
| 第10回 | 政策勾配法 ・確率的政策を用いた勾配法:REINFORCEアルゴリズム、Actor‑Critic法の概要。 ・政策勾配定理の意味とActor‑Criticの枠組みを説明できる。 |
|
| 第11回 | 近年のMDP関連論文講読① ・各自が選んだMDPまたは強化学習の最新論文を紹介し、内容を要約する。 ・最新の研究動向を把握し、論文の内容を批判的に読むことができる。 |
|
| 第12回 | 近年のMDP関連論文講読② ・続き。異なるテーマの論文を紹介、質疑応答。 ・多様な研究アプローチを比較検討できる。 |
|
| 第13回 | MDPを用いた最適化アルゴリズムの設計 ・具体的な最適化問題(例:組み合わせ最適化、スケジューリング)に対して、MDP/強化学習を適用する方法のサーベイと議論。 ・問題に応じた状態・行動・報酬の設計について考察できる。 |
|
| 第14回 | アルゴリズムの理論的性質 ・MDPアルゴリズムの収束性、計算量、最適性ギャップなどの理論的保証に関する文献購読。 ・代表的なアルゴリズムの理論的性質を説明できる。 |
|
| 第15回 | 中間まとめと研究計画発表 ・ここまでの学びを踏まえ、各自の研究テーマ(博士論文に関連)の構想を発表する。 ・自身の研究の方向性を明確にし、フィードバックを得る。 |
|
| 第16回 | 数値実験の基礎 ・MDPアルゴリズムの実装環境(Pythonなど)のセットアップと簡単な例題での実行。 ・簡単なMDPを解くプログラムを実装・実行できる。 |
|
| 第17回 | 既存アルゴリズムの再現実験 ・代表的な論文のアルゴリズムを実装し、結果を再現する試み。 ・論文のアルゴリズムを実装に落とし込み、結果を検証できる。 |
|
| 第18回 | 実験結果の分析と可視化 ・実験データの統計的处理(平均、分散、信頼区間)と可視化手法について学ぶ。 ・実験結果を適切に分析・図示できる。 |
|
| 第19回 | 提案アルゴリズムの実装準備 ・各自の研究テーマに基づく提案アルゴリズムの設計と実装計画の立案。 ・提案手法の実装計画を具体的に記述できる。 |
|
| 第20回 | 提案アルゴリズムの実装と初期実験 ・簡単なベンチマーク問題での提案手法の動作確認。 ・提案手法が動作することを確認し、初期結果を得る。 |
|
| 第21回 | 実験結果の評価と改良 ・初期結果に基づき、パラメータ調整やアルゴリズム改良を行う。 ・結果から課題を抽出し、改良案を実装できる。 |
|
| 第22回 | 比較実験と統計的検定 ・既存手法との比較実験を行い、統計的検定(t検定等)で優位性を評価する。 ・提案手法の性能を統計的に評価できる。 |
|
| 第23回 | 理論と実験の整合性の検討 ・実験結果を理論的予測(収束性など)と照らし合わせ、考察を深める。 ・理論と実験のギャップについて議論できる。 |
|
| 第24回 | 研究成果の可視化と解釈 ・結果を図表にまとめ、研究の貢献を明確にする方法を学ぶ。 ・研究成果を説得力のある形で表現できる。 |
|
| 第25回 | 理論と実験結果の整合性に関しての論点整理 ・理論的フレームワークにより想定した結果と実験による実際の結果の整合性について,論点を整理する. ・理論的フレームワークにより想定した結果と実験による実際の結果の整合性について,論点を整理することができるようになる. |
|
| 第26回 | 理論と実験結果の整合性に関してのディスカッション ・理論的フレームワークにより想定した結果と実験による実際の結果の整合性について,論点を整理するして説明することができるようになる. |
|
| 第27回 | 既存研究と各自の研究成果の関係性についての議論 ・既存研究の結果と自身の研究成果の関連性について,優れた点や問題が残る点について整理し,説明できるようになる. |
|
| 第28回 | 既存論文を各自の論文の中で生かす方法①(作文指導) ・既存論文での記述例を参考に,既存論文を自身の論文内で生かすことができるようになる. |
|
| 第29回 | 既存論文を各自の論文の中で生かす方法②(内容検討) ・自身の論文の独自性を主張するために,既存論文との相違点を明確にすることができるようになる. |
|
| 第30回 | 各自の今年度の研究成果発表 ・今年度の研究成果発表を行なう. ・自身の研究成果を客観的に把握し,説明できるようになる. |
| 授業外学習の課題 | 事前学修(2時間程度): ・次回授業での報告の準備を行うこと. 事後学修(2時間程度): ・今回の授業で指摘された問題点や気づきを記録し,再度見直すこと. |
| 履修上の注意事項 | 展開される議論の理解度合い(50%)と研究成果報告の内容(50%)で評価する. <公認欠席に係る対応> 公認欠席は欠席として扱うが、単位認定要件または期末試験の受験要件には影響しないように配慮する. 小テストやプレゼンテーション時に公認欠席となる場合、追試または代替措置で対応する. 公認欠席時の資料は後日配布する. |
| 成績評価の方法・基準 | 平常の成績(小課題・小演習・発表状況など)で判定する.必要に応じて,単位認定用レポートを提出してもらうこともある. |
| テキスト | 資料を配付します |
| 参考文献 | 適宜紹介します |
| 主な関連科目 | 経営情報論研究Ⅰ,経営情報論研究Ⅱ,研究指導 |
| オフィスアワー及び 質問・相談への対応 |
基本的には授業時間中に質問・相談を受け付けるが,時間外の質問・相談(レポート等についての質問も含む)は,電子メールで受け付ける.課題・演習等に関する解答やフィードバックは,締切後の授業回に行います. |
| 所属 | ナンバリングコード | 適用入学年度 | 配当年次 | 身につく能力 | ||||
| 知識・技能 | 思考力 | 判断力 | 表現力 | 協創力 | ||||
| 商学研究科D経営学専攻 | - | 2026~2026 | 1・2・3 | ○ | ○ | ○ | ○ | - |