長時間タスクのための harness 設計 ── AI が数時間動き続けるための足場の作り方 | Blog

Anthropic が 2026 年 3 月に公開した記事は、長時間の AI 開発で効くのはモデルの賢さだけではなく、harness design だと教えてくれます。ここでいう harness は、AI に仕事をさせるための足場のことです。

仕事をどう分解するか、どこで区切るか、次のセッションに何を受け渡すかまで含めて設計しないと、数時間単位の自動実行は途中で崩れやすくなります。この記事では、その考え方を中小企業の AI 運用にも引き寄せて整理します。

lightbulb

この記事を読むとわかること

lightbulb

読者フィルター

向く: 数時間かかる AI 実装、途中再開が前提の運用、評価つきの自動化を考えている方

向かない: 単発チャットだけを軽く試したい方や、まだタスク分解の必要がないケース

Anthropic の記事では、harness は「モデルに何をさせるか」だけでなく、「どう走らせるか」まで含めた仕組みとして扱われています。言い換えると、モデル本体よりも、実行の足場が性能を決める場面がある、ということです。

Anthropic が指摘しているつまずきは、かなり現実的です。長時間タスクは「最初は順調でも、後半で崩れる」ことが多く、単にモデルを大きくするだけでは直りません。

lightbulb

compaction では足りない場面がある

要約でつなぐ compaction は便利ですが、同じエージェントをそのまま走らせるので「もう終わるべきだ」という焦りは残りやすいです。そこで Anthropic は、必要なところで context reset を入れて、まっさらなセッションに手渡す発想を重視しています。

記事の面白いところは、作業するモデルと評価するモデルを分けたことです。これで「作る側は作ることに集中し、見る側は疑うことに集中する」という役割分担が成立します。

小さなチームがそのまま真似するなら、まずは「モデルを賢くする」より「仕事の流れを整える」ほうが効きます。Anthropic の記事から拾える実践ポイントは、次の 5 つです。

i-Style でも、AI を使った作業は「賢いモデルを置いたら終わり」ではありません。実際には、どこで止めるか、どの粒度で渡すか、何を成果物として残すかを決めた瞬間に、AI の実用性がかなり変わります。

lightbulb

結局は「モデル」より「運用の足場」

長時間タスクで失敗しやすいのは、モデルが弱いからだけではありません。足場が弱いと、強いモデルでも途中で崩れます。逆に言えば、足場を整えるだけで、今のモデルでも十分に仕事を任せられる場面はかなり増えます。

この記事の文脈でいえば、harness design は「AI を信頼するための設計」でもあります。長時間動かすほど、作業の分割、評価の独立、再開の仕組みが効いてくる。そこを整えるのが、いちばん地味で、いちばん効く投資です。

参考: Harness design for long-running application development（Anthropic Engineering / 2026 年 3 月 24 日）

AI を前提にした業務設計や、長時間タスクの自動化についてご相談があれば、お問い合わせください。

記事の内容について「自社の場合はどう考えればいいか」を軽く確認したい方は、i-Styleサポートデスクbotもご利用ください。問い合わせ前の整理や、AI活用・Web活用の最初の相談窓口としてお使いいただけます。