技術・研究開発セミナー・技術書籍なら情報機構

ロボット制御のための深層強化学習│セミナー2026│入門と最前線・フィジカルAI

ロボット制御のための深層強化学習入門と最前線

~フィジカルAIを支える中核理論~

■本セミナーの受講形式(会場/Zoom両アイコンある場合は受講形式選択可)

zoom……Zoomオンライン受講

見逃し視聴あり……見逃し視聴選択可


〇問題設定等の基礎から、行われてきた様々な理論・アルゴリズムの改善と、国内外の最新ヒューマノイドロボットが採用している強化学習の主要な枠組みまで。
〇深層強化学習の基礎から最新動向まで、目的意識ベースで体系的に解説します!

講師

国立情報学研究所 情報学プリンシプル研究系 助教 小林 泰介 氏


講師紹介

 2016年9月に名古屋大学大学院を修了,博士(工学)取得.2016年11月から2022年3月まで奈良先端大学院大学助教.2022年4月から現在まで国立情報学研究所/総合研究大学院大学助教.
 2016年4月から10月まで日本学術振興会特別研究員,2018年5月から2019年3月までミュンヘン工科大学滞在研究員,2020年12月から2022年3月までJSTさきがけ研究者.
 専門はロボットの運動制御,機械学習理論.

<その他関連セミナー>
機械学習・AI 一覧はこちら


日時・受講料・お申込みフォーム

●日時:2026年2月16日(月) 13:00-17:00 *途中、小休憩を挟みます。

●受講料:
【オンライン受講(見逃し視聴なし)】:1名 46,200円(税込(消費税10%)、資料付)
*1社2名以上同時申込の場合、1名につき35,200円

【オンライン受講(見逃し視聴あり)】:1名 51,700円(税込(消費税10%)、資料付)
*1社2名以上同時申込の場合、1名につき40,700円

学校法人割引:学生、教員のご参加は受講料50%割引。→「セミナー申込要領・手順」を確認ください。
5名以上でのお申込の場合、更なる割引制度もございます。
 ご希望の方は、以下より別途お問い合わせ・お申込みください。
 req@*********(*********にはjohokiko.co.jpを入れてください)

■ セミナーお申込手順からセミナー当日の主な流れ →


お申込みはこちらから
オンライン受講/見逃視聴なし

オンライン受講/見逃視聴あり

配布資料・講師への質問など

●配布資料はPDFなどのデータで配布いたします。ダウンロード方法などはメールでご案内いたします。
・配布資料に関するご案内は、開催1週前~前日を目安にご連絡いたします。
・準備の都合上、開催1営業日前の12:00までにお申込みをお願いいたします。
 (土、日、祝日は営業日としてカウントしません。)
・セミナー資料の再配布は対応できかねます。必ず期限内にダウンロードください。

●当日、可能な範囲でご質問にお答えします。(全ての質問にお答えできない可能性もございます。何卒ご了承ください。)
●ご受講に際しご質問・要望などございましたら、下記メールアドレス宛にお問い合わせください。
req@*********(*********にはjohokiko.co.jpを入れてください)

5名以上でのお申込の場合、更なる割引制度もございます。
 ご希望の方は、以下より別途お問い合わせ・お申込みください。
 req@*********(*********にはjohokiko.co.jpを入れてください)

オンラインセミナーご受講に関する各種案内(必ずご確認の上、お申込みください。)

  • PC/タブレット/スマートフォンなど、Zoomが使用できるデバイスをご用意ください。
  • インターネット 回線速度の目安(推奨) 下り:20Mbps以上
  • 開催が近くなりましたら、Zoom入室URL、配布資料、当日の流れなどをメールでご連絡いたします。開催前日(営業日)の12:00までにメールが届かない場合は必ず弊社までご一報ください。
  • ⇒よくある事例として「弊社ドメイン(johokiko.co.jp)のメールがスパム扱いとなっている」「メールアドレスのご記載ミス」などがございます。お申込み後にフォームへご記載いただいたメールアドレスへ自動返信メールを送信しますので、こちらのメールが受信できない場合、弊社からのZoom入室URLや配布資料のご案内メールもお届けすることができなくなってしまいます。予め受信できる設定にお願いいたします。
    ※メールアドレスの記載誤りについては、以下へご連絡お願いいたします。
    req@*********(*********にはjohokiko.co.jpを入れてください)
  • 受講者側のVPN、セキュリティ設定、通信帯域などのネットワーク環境ならびに使用デバイスの不具合については弊社では対応いたしかねますので予めご了承ください。
  • 講座で使用する資料や配信動画は著作物であり、無断での録音・録画・複写・転載・配布・上映・販売などは禁止いたします。また、申込者以外の受講・動画視聴は固くお断りいたします(代理受講ご希望の際は、開催前日までに弊社までご連絡お願いします)。
  • Zoom使用に関する注意事項(クリックして展開)

  • 公式サイトから必ず事前のテストミーティングをお試しください。
  • 確認はこちら
    →Skype/Teams/LINEなど別のミーティングアプリが起動していると、Zoomで音声が聞こえない、カメラ・マイクが使えないなどの事象が起きる可能性がございます。お手数ですが、これらのアプリは閉じた状態にてZoomにご参加ください。
    音声が聞こえない場合の対処例

  • Zoomアプリのインストール、Zoomへのサインアップをせずブラウザからの参加も可能です。
  • 参加方法はこちら
    →一部のブラウザは音声が聞こえないなどの不具合が起きる可能性があります。
    対応ブラウザをご確認の上、必ず事前のテストミーティング をお願いします。
    (iOSやAndroidOS ご利用の場合は、アプリインストールが必須となります)

    申込み時に(見逃し視聴あり)を選択された方は、見逃し視聴が可能です。(クリックして展開)

  • 見逃し視聴ありでお申込みされた方は、セミナーの録画動画を一定期間視聴可能です。
  • セミナーを復習したい方、当日の受講が難しい方、期間内であれば動画を何度も視聴できます。
  • 原則、遅くとも開催4営業日後までに録画動画の配信を開始します(一部、編集加工します)。
  • 視聴期間はセミナー開催日から4営業日後を起点に1週間となります。
  • ex)2/6(月)開催 セミナー → 2/10(金)までに配信開始 → 2/17(金)まで視聴可能
    →見逃し視聴について、 こちらから問題なく視聴できるかご確認ください。(テスト視聴動画へ)パスワード「123456」

    <見逃し視聴ご案内の流れ・配信期間詳細>
  • メールにて視聴用URL・パスワードを配信します。配信開始日を過ぎてもメールが届かない場合は必ず弊社までご連絡ください。
  • 準備出来しだい配信いたしますので開始日が早まる可能性もございます。その場合でも終了日は変わりません。上記例の2/6開催セミナーの場合、2/8から開始となっても2/17まで視聴可能です。
  • GWや年末年始・お盆期間などを挟む場合、それに応じて弊社の標準配信期間設定を延長します。
  • 原則、配信期間の延長はいたしません。
  • 万一、見逃し視聴の提供ができなくなった場合、(見逃し視聴あり)の方の受講料は(見逃し視聴なし)の受講料に準じますので、ご了承ください。
  • セミナーポイント

    ■はじめに:
     強化学習(Reinforcement Learning: RL)は、近年のフィジカルAIを支える中核的な理論の一つとして、大きな期待が寄せられています。本セミナーでは、ロボットの高度な運動制御技術の最前線とも言える強化学習について、以下の内容を目的意識ベースで体系的に解説します。

    基礎:強化学習の問題設定(マルコフ決定過程など)のレベルから、基礎を固めます。

    理論とアルゴリズム:深層強化学習(Deep RL)としてこれまで行われてきた様々な理論・アルゴリズムの改善について、その背景と目的を明確にしながら解説します。

    最新の枠組み:世界的に開発・量産が急加速している最新ヒューマノイドロボットが採用している、近年の強化学習の主要な枠組みについても、そのエッセンスを簡潔にご紹介します。

     本セミナーを通して、受講者の皆様が強化学習をロボット制御に応用するための確かな基礎知識と、最新動向を理解する視点を養うことを目指します。

    ■受講対象者:
    ・深層強化学習の基礎知識を身につけたい方
    ・最先端のロボット制御を実装したい方
    ・近年のフィジカルAIについて理解を深めたい方

    ■必要な予備知識:
    大学1~2年度の数学知識(線形代数、微積分・偏微分、確率)

    ■本セミナーで習得できること:
    ・深層強化学習の基礎
    ・ロボット制御に関する最新動向
    など

    セミナー内容

    1.強化学習とは
     1.1 強化学習の目的
     1.2 マルコフ決定過程
     1.3 学習すべき要素

    2.基礎となるアルゴリズム
     2.1 価値関数の学習:TD学習
     2.2 方策関数の学習:方策勾配法

    3.深層強化学習への発展
     3.1 学習を安定化・効率化させるテクニック
      3.1.1 経験再生
      3.1.2 ターゲットネットワーク
     3.2 最新のActor-Criticアルゴリズム
      3.2.1 方策更新の制限:PPO
      3.2.2 方策エントロピーの最大化:SAC

    4.モデルベース強化学習
     4.1 世界モデルの学習
     4.2 世界モデルの活用例

    5.ドメイン知識を活用した発展
     5.1 Sim-to-Real転移
     5.2 Guided強化学習

    <質疑応答>


    お申込みはこちらから
    オンライン受講/見逃視聴なし

    オンライン受講/見逃視聴あり

    セミナーコード:AD260230

    ページトップへ