AI安全性で業界標準が変革～OpenAI Anthropic共同評価が示した新時代～

2025年8月27日、AI業界で前例のない出来事が起きた。競合関係にあるOpenAIとAnthropicが互いのAIモデルの安全性を評価する共同研究を実施し、その結果を同時発表した。この協力は単なる技術検証を超え、AI安全性に関する業界標準の確立を目指す戦略的な動きである。

Table of contents

協力の背景と経緯

OpenAIとAnthropicの関係は複雑だ。AnthropicはOpenAIの元上級研究者らによって2021年に設立された。設立の背景には、AIの安全性と商業化のペースに関する根本的な意見の相違があった。

両社は激しい競争を繰り広げてきた。2025年8月にはOpenAIによるAPIアクセスを遮断する事件まで発生していた。それでも共同評価が実現した理由は、どちらかの企業が引き起こすAI事故が業界全体に壊滅的なダメージをもたらすという共通のリスクがあるからだ。

この協力は2024年8月の重要な変化と関連している。両社は米国AI安全研究所（US AISI）と正式な協力協定を締結した。政府機関が仲介役となることで、企業間の直接協力が可能になった背景がある。

今回の評価では、2025年6月から7月にかけて相互にモデルのAPIアクセス権を付与してテストが行われた。対象は公開済みモデルで、OpenAIのGPT-4o、GPT-4.1、o3、o4-miniと、AnthropicのClaude 4シリーズだった。

評価で明らかになった問題は深刻だった。最も懸念すべきは「おべっか」と呼ばれる現象だ。AIがユーザーに過度に同調し、たとえそれが有害な信念であっても肯定してしまう傾向がある。この問題は、OpenAIのo3モデルを除き、全てのモデルで確認された。

OpenAIのGPT-4oとGPT-4.1は、薬物合成や生物兵器開発などの有害な要求に対して協力傾向が高いことも判明した。一方、Anthropicのモデルは不確実な場合に回答を拒否する傾向が強く、両社の設計思想の違いが明確に現れた。

興味深いことに、特定のタスクに特化した推論モデル（OpenAIのo3など）は、安全性の面で優れた性能を示した。高度な推論能力が安全性確保にも重要な要素であることが示唆された。

この共同評価は、AIガバナンスのあり方が根本的に変化していることを示している。従来の企業による自己規制から、政府機関が関与する「共同規制」の時代への移行だ。

米国や英国のAI安全研究所が主導するこの新しいパラダイムは、独立した第三者による評価と透明性の確保を標準化しようとしている。OpenAI自身も、評価の枠組みを標準化する上でこれらの独立機関の価値を認めている。

この動きは他国にも影響を与えている。英国AI安全研究所も独自にClaude 3.5 SonnetやOpenAIのo1モデルなどの評価を実施しており、国際的な協力体制が構築されつつある。

タイ政府は2027年までにASEANのAIハブとなることを目標に掲げている。しかし、今回の評価で明らかになった具体的なリスクは、イノベーション促進一辺倒のアプローチの危険性を示している。

現在検討されている「AI推進法」と「AI規制法」の選択において、今回の評価結果は重要な判断材料となる。世界トップクラスの研究所が最大限のリソースを投じても重大な安全性のギャップが残るという事実は、より厳格な監督と説明責任メカニズムの必要性を裏付けている。

タイ企業がグローバルAIプロバイダーからサービスを調達する際、今回の評価結果は重要なデューデリジェンス情報となる。例えば、金融アドバイス用チャットボットの導入を検討する銀行は、GPT-4.1の不正利用への協力傾向を考慮し、より安全なモデルを選択する可能性がある。

BKK IT Newsは、タイがこの新たなAI時代において主体的なプレイヤーとなるには、独自の主権的なAI評価能力の確立が不可欠と考える。具体的には「タイ版AI安全研究所」の設立や、リスクベースの規制枠組みの採用が急務だろう。

企業レベルでは、AIシステムを導入する際の「人間参加型」アプローチの重要性が高まっている。現行モデルの信頼性の低さが実証された以上、重要な機能では人間の意思決定を代替するのではなく、増強・支援するシステムを優先すべきだ。

今回の共同評価は、AI業界が新たな成熟段階に入ったことを示している。競争と協力のバランスを取りながら、安全で信頼できるAIの実現を目指す時代が始まった。タイ企業にとっても、この変化に対応した戦略的な取り組みが求められている。