- GoogleがGemini 2.5 Computer Useモデルの開発者プレビューを公開
- AIエージェントがブラウザやモバイルアプリのUI操作を自動実行
- WebVoyagerベンチマークで79.9%の性能を達成、低遅延を維持
Gemini 2.5 Computer Useモデルの革新的機能
Googleは開発者向けにGemini 2.5 Computer Useモデルのプレビューを公開しました[1]。このモデルは、AIエージェントがWebブラウザやモバイルアプリケーションのユーザーインターフェースを直接操作できる画期的な機能を提供します。具体的には、クリック、スクロール、テキスト入力、フォーム記入などの操作を自動実行することが可能です[2]。
この技術は、computer_useツールを通じてGemini APIから利用でき、開発者は複雑なデジタルタスクを自動化するAIエージェントを構築できます[1]。従来のAPIベースの統合とは異なり、実際の画面操作を通じてアプリケーションを制御するため、より柔軟で汎用性の高い自動化が実現されます。
この技術は、まるで熟練したアシスタントがあなたのパソコンを操作してくれるようなものです。例えば、複数のWebサイトから情報を収集し、スプレッドシートに整理し、メールで報告書を送信するといった一連の作業を、AIが画面を見ながら自動的に実行できるようになります。これまでのRPA(ロボティック・プロセス・オートメーション)ツールが事前に定義されたルールに従って動作するのに対し、Gemini 2.5 Computer Useは状況に応じて柔軟に判断し、まるで人間のように画面を操作できる点が革新的です。
優れた性能と技術的実装
Gemini 2.5 Computer UseモデルはWebVoyagerベンチマークにおいて79.9%という優秀な性能を記録し、競合他社を上回る結果を示しました[1]。さらに重要なのは、この高い性能を維持しながら低遅延を実現している点です。実用的なAIエージェントには、正確性と応答速度の両方が不可欠であり、この技術はその要求を満たしています。
技術的な実装面では、GoogleのComputer Controlフレームワークが仮想ディスプレイをバックグラウンドで作成し、メインディスプレイをユーザーが使用している間もAIエージェントが別の画面でアプリケーションを操作できる仕組みを提供しています[4]。この仮想ディスプレイはコンピュータにミラーリングして監視や手動介入も可能です。
この仮想ディスプレイ技術は、まるでAI専用の作業スペースを提供するようなものです。あなたが普段通りパソコンを使っている間に、AIが見えない画面で黙々と作業を進めているイメージです。セキュリティ面では、事前にインストールされた特権アプリケーションのみがこの機能にアクセスでき、ユーザーが明示的に許可したアプリケーションのみを制御できる仕組みになっています。これにより、AIが勝手に重要なアプリケーションを操作してしまうリスクを防いでいます。
Gemini CLIエコシステムとの統合
Computer Useモデルの公開と同時に、GoogleはGemini CLIのアップデートも発表しました。バージョン0.8.0では拡張機能(Extensions)が正式にローンチされ、Figma、Shopify、Stripeなどのパートナー企業との連携が可能になりました[5]。これにより、開発者はより強力な汎用AIエージェントを構築できるようになります。
また、VS Code、Zed、JetBrainsなどの統合開発環境でのネイティブな差分表示機能や、CI/ヘッドレス実行での事前承認済みツールの非対話実行機能も追加されました[5]。これらの機能により、開発ワークフローの自動化がさらに進化します。
このエコシステムの拡張は、AIエージェントが単体のツールから包括的なワークフロー・オーケストレーターへと進化していることを示しています。例えば、デザイナーがFigmaでUIを作成すると、AIがそのデザインを解釈してShopifyストアに実装し、Stripeで決済システムを設定するといった複雑な作業チェーンを自動化できる可能性があります。これは従来の「一つのタスクを自動化する」レベルから、「ビジネスプロセス全体を理解して実行する」レベルへの大きな飛躍と言えるでしょう。
エンタープライズ展開と業界への影響
GoogleはGemini Enterpriseプラットフォームも発表し、Computer Useモデルを含む6つのコア要素を企業向けにバンドル提供します[6]。このプラットフォームは、Microsoft 365、Salesforce、SAPなどの外部データソースとの連携も可能で、企業のAIサイロ化問題の解決を目指しています。
さらに、GoogleはAgent2Agent(A2A)、Model Context Protocol(MCP)、Agent Payments Protocol(AP2)などのオープンスタンダードの開発にも取り組んでおり、American Express、Coinbase、Mastercard、PayPalなどの企業と協力して自律的な取引システムの構築を進めています[6]。
これらの動きは、AIエージェントが単なる作業自動化ツールから、ビジネス生態系の重要な参加者へと変化していることを示しています。例えば、AIエージェントが顧客の要求を理解し、適切なサービスを選択し、他のAIエージェントと交渉し、最終的に支払いまで完了するといった、人間が行っていた複雑な商取引プロセスを自動化できる未来が見えてきます。オープンスタンダードの採用により、異なる企業のAIエージェント同士が協調して動作できる環境が整備されれば、ビジネスの効率性は劇的に向上するでしょう。
参考文献
- [1] AI Week in Review 25.10.11
- [2] Google has launched a developer preview of its Gemini 2.5 Computer Use model
- [3] AI Agents Weekly: AgentKit, Gemini 2.5 Computer Use, State of AI Report 2025
- [4] Gemini could be the big Google Maps upgrade we’ve been waiting for
- [5] Gemini CLI 4.0: This INTERFACE is now better than…
- [6] Google’s Gemini Enterprise platform aims to break down AI silos in companies
*この記事は生成AIを活用しています。*細心の注意を払っていますが、情報には誤りがある可能性があります。
