NEDO「AIロボット・フィジカルAIを見据えたマルチモーダル基盤モデル開発事業」とは
国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が公募する「AIロボット・フィジカルAIを見据えたマルチモーダル基盤モデル開発事業」は、ロボットが視覚・触覚・言語など複数のモダリティ(情報様式)を統合的に処理できるAI基盤モデルの研究開発を推進する国家プロジェクトです。
公募概要
公募期間:2026年3月24日〜2026年4月22日
対象地域:全国
事業形態:委託事業(NEDO委託)
対象業種:学術研究、専門・技術サービス業
本事業は、製造業・物流・介護・農業などの現場で活躍するロボットの知能化を飛躍的に向上させることを目的としています。従来の産業用ロボットが事前プログラムされた動作しか行えなかったのに対し、マルチモーダル基盤モデルを搭載したロボットは、環境を認識し、状況に応じて自律的に判断・行動できるようになります。
マルチモーダル基盤モデルとは:複数の感覚を統合するAI
マルチモーダル基盤モデルとは、テキスト(言語)・画像(視覚)・音声(聴覚)・触覚・力覚センサーなど、複数の種類のデータを同時に処理・理解できるAIモデルです。OpenAIのGPT-4oやGoogleのGeminiなどが代表的ですが、本事業ではこれをロボットの身体動作にまで拡張します。
- 視覚+言語:「赤い箱を取って」という指示を画像認識と言語理解で処理
- 触覚+動作:物体の硬さ・形状をリアルタイムで感知し、把持力を自動調整
- 環境認識+計画:未知の環境でも障害物を回避しながら作業を完遂
なぜ今この事業が必要か:日本のロボティクス競争力
日本は産業用ロボットの世界シェアで長年トップクラスを維持してきましたが、AI統合型ロボット(フィジカルAI)の分野では米国・中国の企業が急速に台頭しています。Tesla Optimus、Figure AI、1X NEOなど、LLM(大規模言語モデル)とロボティクスを融合させた製品が相次いで登場する中、日本がこの分野で主導権を確保するための戦略的投資です。
NEDOは2025年度から「ポスト5G」関連事業と連携し、高速通信基盤の上でロボットが遠隔・自律動作するための技術開発を加速させており、本事業はその中核を担います。
応募資格・対象者:どのような企業・研究機関が応募できるか
本事業は一般的な中小企業向け補助金とは異なり、NEDO委託事業として実施されます。研究開発の実施者を公募する形式であり、以下のような組織が応募対象となります。
| 応募対象 | 詳細 |
|---|---|
| 企業 | ロボティクス・AI関連の研究開発能力を有する企業(大企業含む) |
| 大学・研究機関 | 国立大学法人、公立大学、私立大学、独立行政法人等 |
| コンソーシアム | 複数機関による共同提案も可能(複数申請可) |
注意:一般的な設備導入補助金ではありません
本事業はロボットの「導入」ではなく「開発」を支援する委託事業です。ロボット導入を検討中の中小企業は、フィジカルAI補助金完全ガイドで他の補助金制度をご確認ください。
コンソーシアム応募のメリットと求められる体制
NEDO事業では、単独企業よりもコンソーシアム(産学連携)での応募が採択されやすい傾向があります。大学の基礎研究力と企業の実装力を組み合わせた提案が高く評価されます。
- 研究統括機関(幹事)+参画機関の役割分担を明確にすること
- 知財の取り扱いについて事前合意を形成すること
- 社会実装までのロードマップを示すこと
研究テーマ:マルチモーダル基盤モデルの技術的要素
本事業で開発が求められるマルチモーダル基盤モデルの技術的要素は多岐にわたります。
Vision-Language-Action(VLA)モデル:見て・理解して・動く
VLAモデルは、カメラ映像(Vision)と言語指示(Language)を統合し、ロボットの動作(Action)を生成する統合AIモデルです。Google DeepMindのRT-2やOpenAIの研究成果を踏まえ、日本発のVLAモデル開発が期待されています。
- ゼロショット般化:未知の物体・環境にも対応できる汎用性
- リアルタイム推論:100ms以下の応答速度で安全な動作制御
- 日本語対応:日本語での作業指示に正確に応答
触覚センシング統合:繊細な作業を可能にする技術
工場の組立作業や介護の身体補助では、視覚情報だけでは不十分で、触覚フィードバックが不可欠です。本事業では、触覚センサーデータを基盤モデルに統合し、力加減の自動調整や繊細な操作を実現する技術の開発が求められます。
関連事業として、NEDO 触覚-動作統合フィジカルAI研究開発事業も同時期に公募されており、相互に補完する関係にあります。
Sim-to-Real転移:シミュレーションから実世界へ
ロボットの学習には膨大なデータが必要ですが、実機での試行錯誤はコストが高く危険も伴います。シミュレーション環境で学習した知識を実世界のロボットに転移する「Sim-to-Real」技術は、開発効率と安全性を両立する鍵となります。
- NVIDIA IsaacやMuJoCoなどの物理シミュレーター活用
- ドメインランダマイゼーション:仮想環境にランダムなノイズを加えて頑健性を向上
- 実世界データとの融合学習(Real-to-Sim-to-Real)