このトレンドは、単にブラウザにより賢いチャットボットを追加することではなく、機械とデジタル環境とのインタラクション方法の根本的な変化です。ブラウザエージェントは、ウェブページを「見る」ことができ、アクションを実行する AI システムの一種です:リンクをクリックしたり、フォームに入力したり、ページをスクロールしたり、文字を入力したりします:人間のユーザーのように。このモデルは、現在は手動操作が必要なタスクや、従来のスクリプトでは複雑すぎて完了できないタスクを自動化できるため、大きな生産性と経済的価値を解放することを約束しています。
Donutはブロックチェーンデータと操作を第一級市民として統合します。ユーザー(またはその代理人)はトークンのリアルタイムリスク指標をホバーして確認したり、「/swap 100 USDC to SOL」のような自然言語指令を直接入力したりできます。Web2の敵対的な摩擦点を回避することで、Donutは代理人がDeFiで全速力で運営できるようにし、流動性、アービトラージ、および市場効率を向上させます。
ブラウザがプロキシになるとき
by マリオ・チョウ & フィーゴ・@IOSG
紹介
過去12ヶ月間、ウェブブラウザと自動化の関係は劇的に変化しました。ほぼすべての大手テクノロジー企業が自律的なブラウザエージェントを構築することに競っています。2024年末からこの傾向はますます明らかになります:OpenAIは1月にエージェントモードを発表し、AnthropicはClaudeモデルのために「コンピュータ使用」機能をリリースし、Google DeepMindはProject Marinerを発表し、Operaはエージェント型ブラウザNeonを発表し、Perplexity AIはCometブラウザを発表しました。信号は非常に明確です:AIの未来は自律的にウェブをナビゲートできるエージェントにあります。
このトレンドは、単にブラウザにより賢いチャットボットを追加することではなく、機械とデジタル環境とのインタラクション方法の根本的な変化です。ブラウザエージェントは、ウェブページを「見る」ことができ、アクションを実行する AI システムの一種です:リンクをクリックしたり、フォームに入力したり、ページをスクロールしたり、文字を入力したりします:人間のユーザーのように。このモデルは、現在は手動操作が必要なタスクや、従来のスクリプトでは複雑すぎて完了できないタスクを自動化できるため、大きな生産性と経済的価値を解放することを約束しています。
▲ GIF デモ:AI ブラウザプロキシの実際の操作:指示に従い、ターゲットデータセットページにナビゲートし、自動的にスクリーンショットを撮って必要なデータを抽出します。
誰がAIブラウザ戦争に勝つのか?
ほとんどすべての大手テクノロジー企業(およびいくつかのスタートアップ)がそれぞれのブラウザAIエージェントのソリューションを開発しています。以下は最も代表的なプロジェクトのいくつかです:
OpenAI – エージェントモード
OpenAIのエージェントモード(以前はオペレーターとして知られていた、2025年1月に発売予定)は、ブラウザを内蔵したAIエージェントです。オペレーターは、ウェブフォームの記入、食料品の注文、会議のスケジュール設定など、さまざまな繰り返しのオンラインタスクを処理できます。すべては人間が一般的に使用する標準的なウェブインターフェースを通じて行われます。
▲ AIエージェントはプロのアシスタントのように会議を設定します:カレンダーを確認し、利用可能な時間帯を探し、イベントを作成し、確認を送信し、.icsファイルを生成します。
Anthropic – クロードの「コンピューターの使用」:
2024年末、AnthropicはClaude 3.5に新しい「Computer Use(コンピュータ使用)」機能を導入し、人間のようにコンピュータやブラウザを操作する能力を与えました。Claudeは画面を見ることができ、カーソルを動かし、ボタンをクリックし、文字を入力できます。これは同種の大規模モデルエージェントツールとして初めて公開テスト版に入ったもので、開発者はClaudeにウェブサイトやアプリケーションを自動的にナビゲートさせることができます。Anthropicはこれを実験的機能として位置付けており、主な目標はウェブ上の複数のステップのワークフロー自動化を実現することです。
パープレキシティ – コメット
AIスタートアップのPerplexity(Q&Aエンジンで知られる)は、2025年中頃にChromeのAI駆動代替品としてCometブラウザを発表しました。Cometのコアは、アドレスバー(オムニボックス)に内蔵された対話型AI検索エンジンで、従来の検索リンクではなく、即時のQ&Aと要約を提供します。
さらに、CometにはComet Assistantが組み込まれており、これはサイドバーに常駐するエージェントで、サイトをまたいで日常のタスクを自動的に実行できます。例えば、開いているメールを要約したり、会議をスケジュールしたり、ブラウザのタブを管理したり、あなたの代わりにウェブページの情報を閲覧して取得したりすることができます。
サイドバーインターフェースを通じてエージェントが現在のウェブページの内容を感知できるようにし、CometはブラウジングとAIアシスタントをシームレスに統合することを目指しています。
ブラウザプロキシの実際のアプリケーションシーン
前文では、OpenAI、Anthropic、Perplexityなどの主要なテクノロジー企業が、異なる製品形態を通じてブラウザエージェントに機能を注入する方法を振り返りました。それらの価値をより直感的に理解するために、これらの能力が日常生活や企業のワークフローにどのように適用されているかを実際のシーンでさらに見ていきましょう。
日常ウェブ自動化
eコマースと個人ショッピング
非常に実用的なシナリオは、ショッピングと予約タスクを代理人に委託することです。代理人は固定されたリストに基づいてあなたのオンラインショッピングカートを自動的に埋め、注文を下すことができます。また、複数の小売業者の間で最低価格を探し、あなたの代わりにチェックアウトプロセスを完了することもできます。
旅行について、AIに次のようなタスクを実行させることができます。「来月東京行きのフライトを予約して(運賃は800ドル未満)、さらに無料Wi-Fiのあるホテルを予約してください。」エージェントはプロセス全体を処理します:フライトを検索し、オプションを比較し、乗客情報を入力し、ホテルの予約を完了させます。すべて航空会社とホテルのウェブサイトを通じて行われます。この自動化のレベルは、現在の旅行ロボットをはるかに超えています:単に推奨するだけではなく、直接購入を実行します。
オフィスの効率を向上させる
エージェントは、ブラウザで行われる多くの繰り返しのビジネス操作を自動化できます。たとえば、電子メールを整理してタスクを抽出したり、複数のカレンダーで空き時間を確認して自動的に会議を設定したりします。PerplexityのCometアシスタントは、ウェブインターフェースを通じて受信トレイの内容を要約したり、スケジュールに追加したりすることができます。エージェントは、あなたの承認を得た後、SaaSツールにログインして定期的なレポートを生成したり、スプレッドシートを更新したり、フォームを提出したりすることもできます。異なる求人サイトに自動的にログインして求人を投稿できるHRエージェントや、CRMシステムのリードデータを更新できる営業エージェントを想像してみてください。これらの日常的な雑務は、本来は多くの従業員の時間を浪費するものでしたが、AIはウェブフォームやページ操作を自動化することでこれを実現できます。
単一のタスクに加えて、エージェントは複数のネットワークシステムを横断する完全なワークフローを連携させることができます。これらすべてのステップは異なるウェブページインターフェースで操作する必要があり、これがブラウザエージェントの強みです。エージェントはさまざまなダッシュボードにログインしてトラブルシューティングを行い、新しい従業員のオンボーディング(複数のSaaSサイトでアカウントを作成する)などのプロセスを編成することさえできます。本質的に、現在複数のウェブサイトを開いて完了する必要がある複数ステップの操作はすべてエージェントに実行させることができます。
その日の課題と制限
巨大な可能性があるにもかかわらず、今日のブラウザプロキシは完璧にはほど遠いです。現在の実装は、長年存在している技術的およびインフラ面の課題を明らかにしています:
アーキテクチャが一致しません
現代のネットワークは人間が操作するブラウザのために設計されており、時間の経過とともに自動化に対抗するように進化してきました。データは視覚的表示を最適化するためのHTML/CSSに埋め込まれていることが多く、インタラクティブなジェスチャー(マウスホバー、スワイプ)によって制限されているか、公開されていないAPIを通じてしかアクセスできません。
この基盤の上に、ボット対策および詐欺防止システムがさらに追加の障壁を人為的に設けています。これらのツールは、IPの評判、ブラウザのフィンガープリンティング、JavaScriptチャレンジのフィードバック、および行動分析(例えば、マウスの動きのランダム性、タイピングのリズム、滞在時間)を組み合わせています。矛盾しているのは、AIエージェントが「完璧」に振る舞い、効率が高いほど:例えば瞬時にフォームを記入し、決して間違えず、悪意のある自動化として識別される可能性が高くなります。これにより、ハードな失敗が引き起こされる可能性があります:例えば、OpenAIやGoogleのエージェントはチェックアウト前のすべてのステップをスムーズに完了することができても、最終的にはCAPTCHAや二次的なセキュリティフィルターにブロックされることがあります。
人間が最適化したインターフェースとロボットに対して友好的でない防御層が重なり合い、エージェントに脆弱な「人間模倣」戦略を取らせる。 このアプローチは非常に失敗しやすく、成功率が低い(人工的な介入がなければ、完全な取引の完了率は依然として3分の1に満たない)。
信頼と安全に関する懸念
代理人が完全な制御を得るためには、通常、敏感な情報へのアクセスが必要です:ログイン資格情報、クッキー、二要素認証トークン、さらには支払い情報です。これにより、ユーザーと企業の両方が理解できる懸念が生じます:
エージェントにエラーが発生したり、悪意のあるサイトに騙された場合はどうすればよいですか?
代理人が特定のサービス条件に同意した場合や取引を実行した場合、誰が責任を負うべきですか?
これらのリスクに基づいて、現在のシステムは一般的に慎重な態度を取っています。
GoogleのMarinerはクレジットカード情報を入力したり、サービス利用規約に同意したりすることはなく、ユーザーに返還します。
OpenAIのオペレーターは、ユーザーにログインやCAPTCHAのチャレンジを引き継ぐように促します。
AnthropicのClaudeによって駆動されるエージェントは、安全上の理由からログインを直接拒否する可能性があります。
結果は:AIと人間の間で頻繁に停止と引き継ぎが行われ、シームレスな自動化の体験が弱まった。
これらの障害が存在するにもかかわらず、進展は急速に進んでいます。OpenAI、Google、Anthropicなどの企業は、各イテレーションで失敗の経験を活かしています。需要の増加に伴い、「共進化」が起こる可能性が高いです:ウェブサイトは有利なシナリオでエージェントに対してよりフレンドリーになり、エージェントは既存の障壁を回避するために人間の行動の模倣能力を不断に向上させるでしょう。
方法と機会
現在のブラウザプロキシは、全く異なる二つの現実に直面しています。一方は Web2 の敵対的な環境で、クローリング防止とセキュリティ防御が至る所に存在します。もう一方は Web3 のオープンな環境で、自動化がしばしば奨励されます。この違いが、さまざまなソリューションの方向性を決定しています。
以下のソリューションは大きく二つのカテゴリに分かれます。一つはエージェントがWeb2の敵対的環境を回避するのを助けるもので、もう一つはWeb3にネイティブなソリューションです。
ブラウザプロキシが直面する課題は依然として顕著ですが、新しいプロジェクトが次々と現れ、これらの問題に直接取り組もうとしています。暗号通貨と分散型金融(DeFi)のエコシステムは、オープンでプログラム可能で、自動化に対してそれほど敵対的ではないため、天然の実験場となりつつあります。オープンAPI、スマートコントラクト、チェーン上の透明性は、Web2の世界で一般的な摩擦点を多く取り除きました。
以下は4つのタイプのソリューションであり、各タイプは現在の1つ以上のコアの制限に対処しています。
オンチェーン操作向けのネイティブプロキシブラウザ
これらのブラウザはゼロから自主的なプロキシ駆動のために設計されており、ブロックチェーンプロトコルと深く統合されています。従来のChromeブラウザとは異なり、後者はオンチェーン操作の自動化にSelenium、Playwright、またはウォレットプラグインを追加で依存する必要がありますが、ネイティブプロキシ型ブラウザはプロキシの呼び出しのためにAPIと信頼できる実行パスを直接提供します。
分散型金融において、取引の有効性はユーザーが「人間のよう」であるかどうかに依存するのではなく、暗号署名に依存しています。したがって、オンチェーン環境では、エージェントはWeb2の世界で一般的なCAPTCHA、詐欺検出スコア、デバイスフィンガープリンティングを回避できます。しかし、これらのブラウザがAmazonのようなWeb2サイトを指す場合、関連する防御メカニズムを回避することはできず、そのようなシナリオでは通常のボット対策が引き続き発動します。
代理型ブラウザの価値は、すべてのウェブサイトに魔法のようにアクセスできることではなく、次の点にあります:
ネイティブブロックチェーン統合:内蔵ウォレットと署名サポートを提供し、MetaMaskのポップアップやdAppフロントエンドのDOMを解析する必要がありません。
自動化優先設計:安定した高レベルの指示を提供し、プロトコル操作に直接マッピングできます。
セキュリティモデル:細かな権限管理とサンドボックスにより、自動化の過程で秘密鍵の安全性を確保します。
性能最適化:ブラウザのレンダリングやUIの遅延なしに、複数のオンチェーン呼び出しを並行して実行できる。
ケース:ドーナツ
Donutはブロックチェーンデータと操作を第一級市民として統合します。ユーザー(またはその代理人)はトークンのリアルタイムリスク指標をホバーして確認したり、「/swap 100 USDC to SOL」のような自然言語指令を直接入力したりできます。Web2の敵対的な摩擦点を回避することで、Donutは代理人がDeFiで全速力で運営できるようにし、流動性、アービトラージ、および市場効率を向上させます。
検証可能で信頼できるエージェントの実行
代理人にセンシティブな権限を与えるリスクは非常に大きい。関連する解決策は、実行前に代理人の期待される行動を暗号化して確認するために、信頼できる実行環境(TEEs)やゼロ知識証明(ZKPs)を使用し、ユーザーと対戦相手が秘密鍵や証明書を公開することなく、代理人の行動を検証できるようにします。
その好例が、Phala Network
Phalaは、TEEs(Intel SGXなど)を使用して実行環境を隔離および保護し、Phalaの運営者や攻撃者が代理ロジックやデータを覗き見たり改ざんしたりするのを防ぎます。TEEは、ハードウェアによって強化された「安全な部屋」のようなもので、機密性(外部からは見えない)と完全性(外部からは変更できない)を保証します。
ブラウザプロキシにとって、これはログイン、セッショントークンの保持、または支払い情報の処理が可能であり、これらの機密データは安全な密室から決して離れないことを意味します。たとえ使用者のマシン、オペレーティングシステム、またはネットワークが侵害されても、漏洩することはありません。これは、プロキシアプリケーションの導入における最大の障害の1つである、機密資格情報と操作に対する信頼問題を直接緩和します。
分散型構造化データネットワーク
現代のボット検出システムは、リクエストが「速すぎる」または「自動化されている」かどうかをチェックするだけでなく、IPの評判、ブラウザのフィンガープリンティング、JavaScriptチャレンジフィードバック、行動分析(例えば、カーソルの動き、タイピングのリズム、セッション履歴)を組み合わせて行います。データセンターIPや完全に再現可能なブラウザ環境からのプロキシは簡単に識別されます。
この問題を解決するために、この種のネットワークは人間に最適化されたウェブページを取得するのではなく、機械可読データを直接収集して提供するか、リアルな人間のブラウジング環境を介してトラフィックを代理します。この方法は、従来のクローラーが解析と対クローリングの段階での脆弱性を回避し、代理によりクリーンで信頼できる入力を提供することができます。
分散型ネットワーク(distribution network)は、これらの実世界のセッションに代理トラフィックを代理することによって、AIエージェントが人間のようにウェブコンテンツにアクセスできるようにし、即座にブロックが発生するのを防ぎます。
ケース
Grass:去中心化データ/DePINネットワークでは、ユーザーが未使用の住宅ブロードバンドを共有し、公共ウェブデータの収集やモデルのトレーニングに対して、代理フレンドリーで地理的に多様なアクセスチャネルを提供します。
WootzApp:暗号通貨決済をサポートするオープンソースのモバイルブラウザで、バックエンドプロキシとゼロ知識アイデンティティを備えています。AI/データタスクを「ゲーム化」して消費者に提供します。
Sixpence:分散型ブラウザネットワークで、世界中の貢献者のブラウジングを通じてAIエージェントにトラフィックをルーティングします。
しかし、これは完全な解決策ではありません。行動検出(マウス/スクロールトラッキング)、アカウントレベルの制限(KYC、アカウント年齢)、およびフィンガープリンティングの一貫性チェックは、依然としてブロックを引き起こす可能性があります。したがって、分散型ネットワークは基本的な隠蔽層と見なすべきであり、人間の模倣的な実行戦略と組み合わせて最大限の効果を発揮する必要があります。
代理に向けたウェブ標準(前瞻)
現在、ますます多くの技術コミュニティや組織が探求しています:将来のネットワークユーザーが人間だけでなく自動化エージェント(agent)である場合、ウェブサイトはそれらと安全かつコンプライアンスを守ってどのように対処すべきでしょうか?
これは、一部の新しい標準とメカニズムに関する議論を促進しました。目標は、ウェブサイトが「信頼できる代理人のアクセスを許可する」と明確に表示し、インタラクションを完了するための安全なルートを提供することであり、今日のようにデフォルトで代理人を「ボット攻撃」として遮断するのではありません。
「エージェント許可」タグ:検索エンジンが従うrobots.txtのように、将来的なウェブページでは、ブラウザエージェントに「ここに安全にアクセスできます」と知らせるタグがコードに追加される可能性があります。たとえば、代理店を使って航空券を予約する場合、ウェブサイトは一杯の認証コード(CAPTCHA)を表示することなく、認証済みのインターフェースを直接提供します。
認証された代理のAPIゲートウェイ:ウェブサイトは認証された代理のために特別な入口を提供することができ、まるで「ファストトラック」のようです。代理は人間のクリックや入力を模倣する必要はなく、より安定したAPIパスを通じて注文、支払い、またはデータ検索を完了します。
W3C の議論:ワールドワイドウェブコンソーシアム(W3C)は「管理された自動化」のための標準化されたチャネルをどのように策定するかを研究しています。これは、将来的に信頼できる代理人がウェブサイトに認識され受け入れられるための共通のルールが整備される可能性があることを意味し、同時に安全性と説明責任を維持します。
これらの探求はまだ初期段階ですが、実現すれば人間↔エージェント↔ウェブサイト間の関係が大きく改善される可能性があります。想像してみてください:エージェントがリスク管理を「欺く」ために人間のマウスの動きを必死に模倣する必要がなくなり、正式に許可された通路を通じて堂々とタスクを完了できるようになります。
このルートでは、暗号ネイティブのインフラが先行する可能性があります。なぜなら、オンチェーンアプリケーションはオープンAPIとスマートコントラクトに依存しており、自動化に対して友好的だからです。それに対して、従来のWeb2プラットフォームは、特に広告や不正防止システムに依存している企業においては、慎重に守る姿勢を続けるかもしれません。しかし、ユーザーと企業が自動化による効率向上を徐々に受け入れるにつれて、これらの標準化の試みは、インターネット全体を「エージェント優先アーキテクチャ」に向かわせる重要な触媒となる可能性が高いです。
結論
ブラウザプロキシは、最初のシンプルな対話ツールから、複雑なオンラインワークフローを完了できる自律システムに進化しています。この変化は、ユーザーとインターネットの相互作用のコアインターフェースに自動化を直接組み込むという、より広範なトレンドを反映しています。生産性向上の可能性は巨大ですが、根深い反ロボットメカニズムを突破する方法や、安全性、信頼、責任ある使用方法を確保する方法など、同様に厳しい課題も存在します。
短期間内、エージェントの推論能力の向上、速度の向上、既存サービスとのより緊密な統合、そして分散ネットワークの進展により、信頼性は段階的に向上する可能性があります。長期的には、自動化がサービス提供者とユーザー双方に利益をもたらすシナリオにおいて、「エージェントフレンドリー」基準が徐々に実現されるのを見るかもしれません。しかし、この変化は均一には進まないでしょう。DeFiのような自動化に優しい環境では、採用がより迅速に進む一方で、ユーザーのインタラクション制御に大きく依存するWeb2プラットフォームでは、受け入れが遅れるでしょう。
将来的に、テクノロジー企業の競争は次のいくつかの側面にますます集中するでしょう:現実世界の制約の下でのナビゲーション能力、重要なワークフローへの安全な統合が可能かどうか、そして多様なオンライン環境で結果を安定して提供できるかどうかです。これらすべてが最終的に「ブラウザ戦争」を再形成するかどうかは、単なる技術力ではなく、信頼を築き、インセンティブを調整し、日常使用の中で実際の価値を示すことができるかどうかに依存します。