Microsoft Fara-7B登場 ~視覚操作とオンデバイスAIが拓く業務自動化の新時代~

Microsoft Fara-7B、AIエージェント時代の転換点 ~視覚操作とオンデバイス処理が示す新たな可能性~ AI
AI

2025年11月下旬、マイクロソフトが「Fara-7B」を発表した。わずか70億パラメータの小規模モデルながら、パソコンの画面を視覚的に認識し、マウスやキーボードを操作してタスクを完遂する能力を持つ。クラウド依存から脱却する「オンデバイスAI」として、企業の業務自動化に新たな選択肢を提供している。

視覚で操作する新技術

Fara-7Bは画面のスクリーンショットのみでPC操作を実行できる。従来の自動化ツールがHTMLのDOM構造やアクセシビリティAPIに依存していたのに対し、人間と同じように「見た目」で判断する。ボタンやリンク、入力フォームなどの視覚要素を認識し、次にクリックすべき座標や入力すべきテキストを予測する。

この視覚主導型のアプローチは、APIが提供されていない古い業務システムでも操作可能という利点をもたらす。GUIが存在する限り、対象を選ばない汎用性を持つ。基盤モデルとして「Qwen2.5-VL-7B」の派生アーキテクチャを採用し、画像と言語の統合処理に優れている。

学習データ生成の革新

性能を支えるのは、学習データ生成システム「FaraGen」だ。人間がPCを操作する手順のデータは希少であり、高品質なデータセット不足が開発のボトルネックとなっていた。FaraGenはGPT-4を用いて多様なWebタスクのシナリオを合成し、解決プロセスをシミュレーションすることでこの問題を解決した。

マイクロソフトは1タスクあたり約1ドルという低コストで、高品質かつ検証済みの操作データを大量生産することに成功した。この合成データを用いたトレーニングにより、Fara-7Bは70億パラメータでありながら数千億パラメータを持つモデルと同等以上の操作精度を獲得している。

評価では、競合モデルが平均41ステップを要するタスクをFara-7Bは平均16ステップで完了した。無駄な操作や迷走が少なく、オンデバイスでの処理速度と相まってユーザー体験の向上に直結する。

オンデバイス処理の利点

すべての処理が「オンデバイス(端末内)」で完結する点が重要だ。クラウドベースのAIエージェントは画面のスクリーンショットをサーバーに送信する必要があり、情報漏洩のリスクやコンプライアンス上の懸念が付きまとう。

Fara-7BはローカルのNPU(Neural Processing Unit)を活用して推論を行うため、機密情報が外部ネットワークに流出するリスクを構造的に排除している。マイクロソフトの研究者が提唱する「ピクセル主権」という概念は、ユーザーの画面データがデバイスの外に出ることなく処理される状態を指す。

コスト面でも優位性がある。クラウドベースのAIエージェントは操作ステップごとにトークン課金が発生するが、Fara-7Bは一度導入すれば推論コストは電気代のみだ。この圧倒的なコストパフォーマンスは、利益率の低い中小企業にもAIの恩恵を行き渡らせる要因となる。

マイクロソフトのSLM戦略

Fara-7Bの登場は、マイクロソフトが長年推進してきた「AIの民主化」と「効率化」に向けた戦略の到達点だ。マイクロソフトは巨大化するLLMに対するアンチテーゼとして、小規模言語モデル(SLM)の可能性を追求してきた。

その代表が「Phi(ファイ)」シリーズである。Phi-1は2023年に高品質なデータのみで学習させることで13億パラメータでプログラミングタスクにおいて高い性能を示した。Phi-2は推論能力を強化し、Phi-3 / Phi-3.5は視覚機能を統合してスマートフォンやPC上で動作する実用的なSLMとして展開された。

Fara-7Bは、このPhiシリーズで培われた技術を新たに「PC操作」という領域に応用したものである。2024年は生成AIが「Copilot(副操縦士)」へと進化した年だった。しかし、2025年に入り、AI業界のトレンドは急速に「エージェント」へとシフトした。

Fara-7Bは、この「エージェント化」の波に対し、マイクロソフトが提示した「オンデバイス」という回答である。他社がクラウドパワーに依存した高機能エージェントを指向する中、マイクロソフトはWindowsエコシステムの強みである「PCハードウェア」を最大限に活用し、ローカルで動くことによる「速さ」と「安心感」を差別化要因として打ち出している。

企業への影響と活用シナリオ

Fara-7Bは企業の業務自動化に新たな選択肢を提供する。APIが存在しない古い業務システムであっても、画面を見て操作できるため、システムリプレースを行うことなく既存資産を活かしたまま自動化が実現できる。

例えば、LINEで受け取った注文メッセージをFara-7Bに読み取らせ、それを古いデスクトップアプリに自動入力させるといったワークフローが可能になる。LINEの利用率が極めて高いタイのような市場では、チャットアプリと業務システムの「隙間」を埋める役割が大きい。

また、複雑なUI操作を代行することで、高齢者や視力・指先の機能が低下した人々のデジタルサービス利用を支援できる。音声で指示するだけでAIが銀行アプリや病院のWebサイトを操作してくれる環境は、デジタル・ディバイドを「技術による代行」で解消するアプローチとなる。

オンデバイス処理という特性は、個人情報保護法(PDPA)への準拠が求められる環境で特に有効だ。データはパソコンから外に出ないという保証は、医療データや金融データを扱うヘルスケアサービスやFinTech分野での導入を加速させる要因となる。

リスクと課題への対応

生成AIの「もっともらしい嘘(ハルシネーション)」は、PC操作においては致命的な結果を招く可能性がある。Fara-7Bが画面上の「購入」ボタンと「キャンセル」ボタンを見間違えたり、送金額の「0」を一つ多く入力したりするリスクはゼロではない。

マイクロソフトも現時点では「サンドボックス(隔離環境)」での使用を推奨しており、実業務への適用には慎重な検証が必要である。セキュリティ面でも懸念があり、悪意ある攻撃者に利用された場合、「自律型マルウェア」が出現する可能性がある。

また、Fara-7Bを快適に動作させるには、高性能なNPUを搭載した最新のPCが必要となる可能性が高い。このハードウェア要件が新たな障壁となり、AIの恩恵を受けられる層と受けられない層の分断を拡大させる懸念がある。

タイ市場における意義

タイでは2025年11月18日、マイクロソフトが戦略的コミットメントを発表し、ローカルクラウドリージョン開設とAI人材育成を推進している。タイ労働省と連携した15万人のAIスキル開発プログラムも展開されており、Fara-7Bのような実用的なAIツールの普及基盤が整いつつある。

タイのSMEは企業数の99%以上、雇用の70%以上を占める屋台骨だ。多くの企業でAPI連携に対応していない古い会計ソフトや在庫管理システムが依然として主流である。Fara-7Bは、こうしたレガシーシステムと最新技術の「架け橋」として機能し、高額なシステムリプレースを行うことなく業務自動化を実現できる可能性を提供する。

また、タイの個人情報保護法(PDPA)は2022年に完全施行され、企業のデータ取り扱いに厳格な規律を求めている。オンデバイスで動作するFara-7Bは、顧客の個人データを国外のサーバーに送信することなく処理できるため、PDPA準拠の観点からも優位性を持つ。

今後の展望

Fara-7Bは、AIエージェント時代における重要な転換点を示している。クラウド依存から脱却し、オンデバイスで完結する視覚操作型AIは、プライバシー保護、コスト削減、レガシーシステムとの互換性という3つの利点を同時に実現する。

タイのようにSMEが経済の中心を担い、PDPAのような個人情報保護規制が強化される市場において、Fara-7Bの技術的特性は高い適合性を持つ。ただし、ハルシネーションによる誤操作リスクやセキュリティ上の懸念に対しては、適切な監督体制とユーザー教育が不可欠となる。

BKK IT Newsとしては、AIの誤操作を防ぐための「監督スキル」の教育、古いハードウェアでも恩恵を受けられるような支援策、そしてAIによる自律操作を前提とした新たな法整備が求められると考える。Fara-7Bは、AI利用者から「AI共存社会」へと成熟するための試金石となるだろう。

参考記事リンク