AI長時間タスクは本物か？MythosとGPT-5.5、企業対策を解説

AIエージェント長時間タスク性能は約4〜5カ月で倍増し、企業は2026年中の防御体制更新が必要です。

要点1: METRは2023年以降、時間地平線が128.744日（約4.2カ月）で倍増と公表
要点2: AISIは80%信頼水準で約4.7カ月倍増、MythosとGPT-5.5は既存トレンドを上振れ
要点3: MythosはTLOレンジを10回中3回完遂、GPT-5.5はExpertタスク71.4%を記録

対象: AI導入とサイバー対策を同時に進める経営層・情シス・DX推進担当

今日やること: パッチ運用、アクセス制御、AI利用ルールの3点を四半期単位で見直す

この記事の著者

株式会社Nexa 代表取締役川島陸

一橋大学経済学部卒業後、フォーティエンスコンサルティング株式会社（旧株式会社クニエ）にて法人向けAI導入支援等を経験。独立後、AI系メディア運営やDify/n8nの導入支援を経て、株式会社Nexaを創業。法人向けAI研修・AI導入支援・AI関連メディア運営を手掛ける。

詳しく見る無料相談をする

この記事の目次

AIエージェントの「時間地平線」とは何か
MythosとGPT-5.5で確認された最新の伸び
ただし過信は禁物—評価条件の限界
日本企業が今すぐ取るべき3つのアクション
今後6〜12カ月の注目ポイント
よくある質問
まとめ
参考情報

AIエージェントの長時間タスク性能は、2026年に入って明確に次の段階へ進みました。結論から言えば、企業は「もう少し様子を見る」よりも、運用ルールと防御体制を前倒しで更新するべき局面です。

特に注目されるのが、AnthropicのClaude Mythos PreviewとOpenAIのGPT-5.5です。両モデルは、これまでの延長線を超えるペースで高難度タスクをこなしたと報告されています。この記事では、METRとAISIの公開データを基に、過大評価を避けながら実務でどう動くべきかを整理します。

AIエージェントの「時間地平線」とは何か

時間地平線（Time Horizon）は、AIがどの長さのタスクを、どの程度の確率で完了できるかを示す指標です。ここでいう「長さ」は、AIの実行時間ではなく、人間の熟練者が同じタスクを完了する想定時間です。

50%時間地平線と80%時間地平線の違い

指標	意味	実務での見方
50%時間地平線	2回に1回は成功するタスク時間	可能性の上限を読むときに有効
80%時間地平線	10回中8回成功するタスク時間	運用レベルの安定性を見るときに有効

経営判断では、一般に80%指標の方が扱いやすいです。理由は、運用や監査では再現性が重要だからです。

なぜ「長時間タスク化」が注目されるのか

短いタスクの自動化だけなら、従来モデルでも一定の成果は出ていました。変化の本質は、複数工程をまたぐ長い作業を、AIが自律的につなげ始めた点にあります。

これは、攻撃側にとっては「連続した侵害工程の自動化」を意味します。一方で防御側にとっては、「脆弱性探索や検証の自動化」を強化できる余地でもあります。

MythosとGPT-5.5で確認された最新の伸び

今回の話題は、単一メディアの観測ではありません。研究機関METRと英国AISIの双方で、同方向の変化が示されています。

METRの最新トレンド（約4.2カ月で倍増）

METRの公開データ（2026-05-08更新）では、2023年以降の時間地平線の倍増ペースが128.744日（約4.2カ月）と示されています。さらに、Mythos Preview earlyの50%時間地平線推定値は1044.78時間、80%時間地平線推定値は185.91時間です。

ただしMETRは、現行タスクセットでは16時間超の測定信頼性が落ちる場合がある点も明示しています。高い数値ほど、幅を持って読む必要があります。

AISIの観測（約4.7カ月倍増トレンドの上振れ）

AISIは2026-05-13公開の分析で、80%信頼水準のサイバー時間地平線がlate 2024以降で約4.7カ月ごとに倍増してきたと説明しています。そのうえで、Mythos PreviewとGPT-5.5はこのトレンドを上振れしたと報告しました。

CTF・レンジ評価の主要スコア比較

モデル	主な評価結果	出典
Claude Mythos Preview	Expert-level CTF成功率73%、TLOレンジ32ステップを10回中3回完遂	AISI（2026-04-13）
GPT-5.5	Expert-level advanced cyber tasks成功率71.4%（±8.0%）	AISI（2026-04-30）
比較対象	Mythos 68.6%、GPT-5.4 52.4%、Opus 4.7 48.6%（同条件比較）	AISI（2026-04-30）

この比較から読み取れるのは、「トップモデルだけが突出」というより、複数ベンダーで高水準化が進んでいることです。

＼ Claude Codeの導入、何から始めればいいかわかります／

法人様のAI導入に関するご相談はこちら

ただし過信は禁物—評価条件の限界

ここは見落としやすいですが、企業実務では最重要ポイントです。評価の読み違いは、過剰投資か過少対策のどちらかを招きます。

2.5Mトークン上限と実力のギャップ

AISIの時系列比較では、可比性のために1タスクあたり2.5Mトークン上限を置いています。これは比較には有効ですが、実力を過小評価する方向に働く可能性があります。

同機関は別評価で100Mトークン帯まで試験しており、トークン増加で性能がさらに伸びる傾向も示しています。

「脆弱な環境」前提が多い点

レンジ評価は、防御が弱い環境や限定条件での検証です。AISI自身も、実環境の防御体制や監視下で同じ成功率になるとは断定していません。

実運用で精度が落ちるケース

METRもAISIも、タスク分布や人間ベースライン、長時間領域でのサンプル不足など不確実性を開示しています。現場導入時は「高スコア＝そのまま本番性能」ではなく、PoCで再検証する前提が必要です。

日本企業が今すぐ取るべき3つのアクション

重要なのは、ニュースを知ることではなく、運用に変換することです。以下3点は、業種を問わず優先度が高い対応です。

① パッチとアクセス制御の運用SLAを再設計する

AIが攻撃手順を高速化するほど、脆弱性放置期間のリスクは増えます。パッチ適用目標日数、特権ID管理、多要素認証の対象範囲を、四半期ごとに見直す体制が必要です。

② AI前提の脆弱性診断・演習を定例化する

従来の年1回診断では、モデル進化の速度に追随できません。四半期単位で、AI支援の診断や疑似侵入演習を回し、検知と初動の改善サイクルを短縮してください。

③ 生成AI利用ルールを「攻撃側/防御側」両面で更新する

多くの企業では、生成AIガイドラインが情報漏えい対策に偏っています。今後は、攻撃シナリオを前提にした禁止事項、ログ保存、権限分離、外部連携審査を加える必要があります。

AI活用とセキュリティ運用を同時に設計したい方は、現行ルールの棚卸しから無料でご相談いただけます。

AI活用の無料相談はこちら →

＼業務自動化のお悩み、プロが30分で整理します／

法人様のAI導入に関するご相談はこちら

今後6〜12カ月の注目ポイント

今後は、単純な成功率比較よりも「どの条件で崩れるか」を見ることが重要になります。

注目点	見るべき指標	企業への示唆
ベンチマーク上限到達	長時間タスクでの誤差拡大	社内評価基準を固定せず更新する
防御あり環境での検証	監視下での成功率/検知率	SOC・CSIRTの運用設計を見直す
モデル更新の速度	半期ごとの性能差分	年次計画より四半期計画を重視する

よくある質問

Q. 時間地平線が伸びると、何が一番変わりますか？

単発の自動化ではなく、複数工程を連続処理する能力が上がる点です。攻撃・防御の両方で、作業の速度と規模が同時に変わります。

Q. 中堅企業でも同じ優先順位で対策すべきですか？

はい。むしろ中堅企業は専任要員が限られるため、パッチ運用SLAとアクセス制御の明文化を先に固める効果が大きいです。

Q. まずは攻撃リスク対策と業務効率化のどちらを優先すべきですか？

二者択一ではなく、同時設計が現実的です。防御ルールと業務活用ルールを同じガバナンス文書で管理すると、運用コストを抑えられます。

＼ AI活用の「次の一手」を一緒に考えませんか／

法人様のAI導入に関するご相談はこちら

まとめ

MythosとGPT-5.5の評価結果は、AIエージェントの長時間タスク性能が継続的に伸びていることを示しました。とくに、4〜5カ月単位で能力が倍増するトレンドは、企業の見直しサイクルより速い可能性があります。

一方で、評価条件には明確な限界があるため、過信も禁物です。最適解は、過大評価と過小評価の間で、四半期ごとに対策を更新する運用モデルです。まずはパッチ運用、アクセス制御、AI利用ルールの3点から着手してください。

参考情報

METR: Task-Completion Time Horizons of Frontier AI Models（2026-05-08更新）
AISI: How fast is autonomous AI cyber capability advancing?（2026-05-13）
AISI: Our evaluation of Claude Mythos Preview’s cyber capabilities（2026-04-13）
AISI: Our evaluation of OpenAI’s GPT-5.5 cyber capabilities（2026-04-30）

法人向けAI導入・活用の月額伴走サービス

AI導入の疑問を、週1回のMTGで相談できる「AI顧問」

株式会社Nexaでは、ChatGPT・Claude・Claude CodeなどのAI導入に関する質問や、社内活用・業務自動化の進め方を週1回相談できる 月額15万円のAI顧問サービス を提供しています。

「自社では何から始めるべきか」「この業務はAI化できるか」「どのツールを選ぶべきか」を、無料相談で整理します。

AI顧問の無料相談はこちら →

AI長時間タスクは本物か？MythosとGPT-5.5、企業対策を解説

AIエージェントの「時間地平線」とは何か

50%時間地平線と80%時間地平線の違い

なぜ「長時間タスク化」が注目されるのか

MythosとGPT-5.5で確認された最新の伸び

METRの最新トレンド（約4.2カ月で倍増）

AISIの観測（約4.7カ月倍増トレンドの上振れ）

CTF・レンジ評価の主要スコア比較

ただし過信は禁物—評価条件の限界

2.5Mトークン上限と実力のギャップ

「脆弱な環境」前提が多い点

実運用で精度が落ちるケース

日本企業が今すぐ取るべき3つのアクション

① パッチとアクセス制御の運用SLAを再設計する

② AI前提の脆弱性診断・演習を定例化する

③ 生成AI利用ルールを「攻撃側/防御側」両面で更新する

今後6〜12カ月の注目ポイント

よくある質問

Q. 時間地平線が伸びると、何が一番変わりますか？

Q. 中堅企業でも同じ優先順位で対策すべきですか？

Q. まずは攻撃リスク対策と業務効率化のどちらを優先すべきですか？

まとめ

参考情報

AI導入の疑問を、週1回のMTGで相談できる「AI顧問」

関連記事

GPT-5.6 Solのファイル削除問題｜企業が取るべき対策

AI顧問とは？サービス内容・費用・AIコンサルとの違い・選び方を解説

Claude Corpsとは？AnthropicのAI人材育成策

AIの力で、ビジネスを次のステージへ