Responsible Scaling Policy 3.0 — AIの安全性基準はどこへ向かうのか
RSP 3.0 — 安全性基準のメジャーアップデート
2026年2月初旬、AnthropicがResponsible Scaling Policy(RSP)のバージョン3.0を公開しました。RSPとは、AIモデルの能力が向上するにつれて安全対策をどう強化するかを定めた自主基準です。今回のv3は、AI業界全体の方向性を示す重要なドキュメントとなっています。
RSP 3.0で最も注目すべきは、AI Safety Level(ASL)の明確化です。ASL-1からASL-4まで4段階のリスクレベルが定義され、各レベルに応じた安全対策が具体的に記述されています。現行のClaudeモデルはASL-2に分類され、ASL-3に到達する前に追加の安全対策を実装することが約束されています。
軍事利用拒否の明文化
RSP 3.0で明確になったのが、軍事利用への厳格な姿勢です。Anthropicは「大量破壊兵器の開発支援」「自律型致死兵器システム」「民間人監視システム」への使用を明確に禁止しています。この姿勢は後述するOpenAIの国防総省契約と対照的で、AI業界における倫理的分岐点を象徴しています。
開発者として気になるのは、「軍事利用」の定義の曖昧さです。例えば、退役軍人向けのメンタルヘルスアプリは軍事利用に含まれるのか?サイバーセキュリティの防御ツールは?RSP 3.0ではこうしたグレーゾーンについても具体例を挙げて判断基準を示しており、実務的に使える文書になっています。
Verceptの買収とその意味
同時期に発表されたAnthropicによるVercept社の買収も、RSP 3.0と密接に関連しています。Verceptは、AIモデルの出力を監視・評価するツールを開発していた企業です。この買収により、AnthropicはAIの安全性を「約束」するだけでなく、技術的に「検証」する能力を手に入れました。
具体的には、Verceptの技術を使って以下が可能になります。
- AIモデルの出力がポリシーに準拠しているかリアルタイム監視
- 有害な出力パターンの自動検出と遮断
- モデル更新前後の安全性比較テスト自動化
AI倫理と商業化の両立
RSP 3.0が興味深いのは、安全性を強調しながらも商業的な現実を直視している点です。「安全だが使えないAI」は誰にも価値を提供できません。Anthropicは「安全性と有用性は相反するものではなく、安全なAIこそが最も有用なAI」という立場を明確にしています。
wagahi開発への影響
wagahiアプリではClaude APIを使ったキャラクター対話機能を実装しています。RSP 3.0に準拠したAPIを使うことで、以下の安心感があります。
- キャラクターが有害な発言をするリスクが体系的に管理されている
- ユーザーデータの取り扱いに関する明確な基準がある
- モデル更新時の安全性担保が文書化されている
AI駆動開発を進める上で、使用するAIモデルの安全性基準を理解しておくことは、技術的な判断だけでなく、ビジネス上のリスク管理としても重要です。RSP 3.0は、その判断材料として非常に有用なドキュメントです。
業界全体への波及効果
Anthropicが自主基準を公開することで、他のAI企業にも同様の透明性が求められる流れが生まれています。GoogleやOpenAIも安全性に関する文書を公開していますが、RSP 3.0ほど具体的で実務に使える内容は少ないのが現状です。
AI規制がまだ整備途上にある中、業界自主基準の質と透明性が、ユーザーの信頼を左右する時代に入っています。開発者として、こうした基準を理解し、自社のプロダクトに適切に反映させることが求められています。
本記事は2026年2月時点の情報に基づいています。
著者: 株式会社シーテン — インフラ系から宇宙関連システムまで20年以上の開発経験を持つ技術者集団。2025年より生成AI・AIエージェントを活用したAI駆動開発に本格参入し、自社プロダクト「wagahi」の開発を通じて実践知見を蓄積中。
関連記事
投稿者プロフィール




