Selama 12 bulan terakhir, hubungan antara peramban web dan otomatisasi telah mengalami perubahan yang drastis. Hampir semua perusahaan teknologi besar berlomba-lomba untuk membangun agen peramban (browser agent) mereka sendiri. Tren ini semakin jelas mulai akhir 2024: OpenAI meluncurkan mode Agen pada bulan Januari, Anthropic merilis fitur "penggunaan komputer" untuk model Claude, Google DeepMind meluncurkan Project Mariner, Opera mengumumkan peramban berbasis agen Neon, dan Perplexity AI meluncurkan peramban Comet. Sinyalnya sangat jelas: masa depan AI terletak pada agen yang dapat menavigasi web secara mandiri.
Tren ini bukan hanya menambahkan chatbot yang lebih cerdas ke browser, tetapi merupakan perubahan fundamental dalam cara mesin berinteraksi dengan lingkungan digital. Browser agent adalah sejenis sistem AI yang dapat "melihat" halaman web dan mengambil tindakan: mengklik tautan, mengisi formulir, menggulir halaman, mengetik teks: seperti pengguna manusia. Pola ini menjanjikan untuk melepaskan produktivitas yang besar dan nilai ekonomi, karena dapat mengotomatiskan tugas-tugas yang saat ini masih memerlukan intervensi manusia, atau terlalu kompleks untuk diselesaikan oleh skrip tradisional.
▲ GIF Demonstrasi: Operasi nyata dari AI Browser Proxy: mengikuti instruksi, menavigasi ke halaman dataset target, secara otomatis mengambil screenshot dan mengekstrak data yang diperlukan.
Siapa yang akan memenangkan perang browser AI?
Hampir semua perusahaan teknologi besar (serta beberapa perusahaan rintisan) sedang mengembangkan solusi agen AI browser mereka sendiri. Berikut adalah beberapa proyek yang paling mewakili:
OpenAI – Mode Agen
Mode Agen OpenAI (sebelumnya dikenal sebagai Operator, diluncurkan pada Januari 2025) adalah agen AI dengan browser bawaan. Operator dapat menangani berbagai tugas online yang repetitif: seperti mengisi formulir web, memesan bahan makanan, mengatur pertemuan: semua dilakukan melalui antarmuka web standar yang biasa digunakan manusia.
▲ AI agen mengatur pertemuan seperti asisten profesional: memeriksa kalender, mencari slot waktu yang tersedia, membuat acara, mengirim konfirmasi, dan menghasilkan file .ics untukmu.
Anthropic – Claude 'Computer Use':
Pada akhir tahun 2024, Anthropic memperkenalkan fitur baru "Computer Use" untuk Claude 3.5, yang memberinya kemampuan untuk beroperasi di komputer dan browser seperti manusia. Claude dapat melihat layar, menggerakkan kursor, mengklik tombol, dan memasukkan teks. Ini adalah alat agen model besar pertama dari jenisnya yang memasuki versi uji coba publik, di mana pengembang dapat membuat Claude secara otomatis menavigasi situs web dan aplikasi. Anthropic memposisikannya sebagai fitur eksperimental, dengan tujuan utama untuk mengautomasi alur kerja multi-langkah di halaman web.
Perplexity – Comet
Perusahaan rintisan AI Perplexity (terkenal dengan mesin tanya jawab) meluncurkan browser Comet pada pertengahan 2025, sebagai alternatif berbasis AI untuk Chrome. Inti dari Comet adalah mesin pencari AI percakapan yang terintegrasi di bilah alamat (omnibox), yang mampu memberikan jawaban instan dan ringkasan, bukan tautan pencarian tradisional.
Selain itu, Comet juga dilengkapi dengan Comet Assistant, yang merupakan agen yang tinggal di sidebar dan dapat secara otomatis menjalankan tugas sehari-hari di berbagai situs web. Misalnya, ia dapat merangkum email yang Anda buka, mengatur pertemuan, mengelola tab browser, atau menjelajahi dan mengambil informasi dari halaman web atas nama Anda.
Melalui antarmuka bilah samping, memungkinkan agen untuk merasakan konten halaman web saat ini, Comet bertujuan untuk mengintegrasikan penelusuran dengan asisten AI secara mulus.
Skenario aplikasi nyata dari proxy browser
Dalam teks sebelumnya, kita telah meninjau bagaimana perusahaan teknologi besar (seperti OpenAI, Anthropic, Perplexity, dll.) menyuntikkan fungsi ke dalam agen browser melalui berbagai bentuk produk. Untuk memahami nilai-nilai ini dengan lebih jelas, kita dapat melihat lebih jauh bagaimana kemampuan ini diterapkan dalam kehidupan sehari-hari dan alur kerja perusahaan dalam skenario nyata.
Automatisasi web sehari-hari
E-commerce dan belanja pribadi
Salah satu skenario yang sangat praktis adalah mendelegasikan tugas belanja dan pemesanan kepada agen. Agen dapat secara otomatis mengisi keranjang belanja online Anda dan melakukan pemesanan berdasarkan daftar tetap, serta mencari harga terendah di antara beberapa pengecer dan menyelesaikan proses pembayaran atas nama Anda.
Untuk perjalanan, Anda dapat meminta AI untuk melakukan tugas seperti ini: "Bantu saya memesan penerbangan ke Tokyo bulan depan (dengan harga tiket di bawah 800 dolar), lalu pesan hotel yang memiliki Wi-Fi gratis." Agen akan menangani seluruh proses: mencari penerbangan, membandingkan opsi, mengisi informasi penumpang, menyelesaikan pemesanan hotel, semua dilakukan melalui situs maskapai dan hotel. Tingkat otomatisasi ini jauh melampaui robot perjalanan yang ada: ini bukan hanya sekadar rekomendasi, tetapi langsung melakukan pembelian.
Meningkatkan efisiensi kerja
Agen dapat mengotomatiskan banyak operasi bisnis berulang yang dilakukan orang di browser. Misalnya, mengatur email dan mengekstrak tugas yang harus dilakukan, atau memeriksa slot waktu di beberapa kalender dan secara otomatis menjadwalkan pertemuan. Asisten Comet dari Perplexity sudah dapat merangkum isi kotak masuk Anda melalui antarmuka web, atau menambahkan jadwal untuk Anda. Agen juga dapat masuk ke alat SaaS setelah mendapatkan otorisasi Anda untuk menghasilkan laporan rutin, memperbarui spreadsheet, atau mengirimkan formulir. Bayangkan seorang agen HR yang dapat secara otomatis masuk ke berbagai situs perekrutan untuk memposting lowongan; atau seorang agen penjualan yang dapat memperbarui data prospek di sistem CRM. Tugas-tugas sehari-hari ini biasanya akan menghabiskan banyak waktu karyawan, tetapi AI dapat menyelesaikannya dengan mengotomatiskan formulir web dan operasi halaman.
Selain tugas tunggal, agen juga dapat menghubungkan alur kerja lengkap yang melibatkan beberapa sistem jaringan. Semua langkah ini perlu dilakukan di berbagai antarmuka web, dan inilah kekuatan dari agen browser. Agen dapat masuk ke berbagai dasbor untuk memecahkan masalah, bahkan mengatur proses, seperti menyelesaikan onboarding untuk karyawan baru (membuat akun di beberapa situs SaaS). Secara esensial, setiap operasi multi-langkah yang saat ini memerlukan pembukaan beberapa situs web dapat diserahkan kepada agen.
Tantangan dan batasan saat ini
Meskipun memiliki potensi besar, namun proxy browser saat ini masih jauh dari kesempurnaan. Implementasi saat ini mengungkapkan beberapa masalah teknis dan infrastruktur yang telah ada sejak lama:
Arsitektur tidak cocok
Jaringan modern dirancang untuk browser yang dioperasikan oleh manusia, dan seiring berjalannya waktu telah berevolusi menjadi perlindungan aktif terhadap otomatisasi. Data sering kali tersembunyi dalam HTML/CSS yang dioptimalkan untuk tampilan visual, dibatasi oleh gestur interaksi (hover mouse, geser), atau hanya dapat diakses melalui API yang tidak dipublikasikan.
Berdasarkan hal tersebut, sistem anti-scraping dan anti-penipuan menambahkan penghalang ekstra secara artifisial. Alat-alat ini menggabungkan reputasi IP, sidik jari browser, tantangan JavaScript, dan analisis perilaku (seperti acak pergerakan mouse, ritme mengetik, dan waktu tinggal). Ironisnya, semakin "sempurna" dan efisien AI proxy berperilaku: misalnya mengisi formulir dalam sekejap, tidak pernah membuat kesalahan, semakin mudah dikenali sebagai otomatisasi yang berbahaya. Ini dapat menyebabkan kegagalan yang keras: misalnya, proxy dari OpenAI atau Google mungkin berhasil menyelesaikan semua langkah sebelum checkout, tetapi akhirnya terhalang oleh CAPTCHA atau filter keamanan kedua.
Antarmuka yang dioptimalkan oleh manusia dan lapisan pertahanan yang tidak ramah terhadap robot digabungkan, memaksa agen untuk mengadopsi strategi "imitasi manusia" yang rentan. Metode ini sangat mudah gagal, dengan tingkat keberhasilan yang rendah (jika tidak ada intervensi manusia, tingkat penyelesaian transaksi yang lengkap masih kurang dari sepertiga).
Kekhawatiran tentang Kepercayaan dan Keamanan
Untuk memberikan agen kontrol penuh, biasanya diperlukan akses ke informasi sensitif: kredensial login, Cookies, token autentikasi dua faktor, bahkan informasi pembayaran. Ini menimbulkan kekhawatiran yang dapat dipahami oleh pengguna dan perusahaan:
Apa yang harus dilakukan jika agen mengalami kesalahan atau tertipu oleh situs web jahat?
Jika agen menyetujui syarat layanan tertentu atau melakukan transaksi, siapa yang harus bertanggung jawab?
Berdasarkan risiko tersebut, sistem saat ini umumnya mengambil sikap hati-hati:
Mariner Google tidak akan memasukkan informasi kartu kredit atau menyetujui syarat layanan, melainkan mengembalikannya kepada pengguna.
Operator OpenAI akan memberi tahu pengguna untuk mengambil alih login atau tantangan CAPTCHA.
Agen yang didorong oleh Claude dari Anthropic mungkin langsung menolak login, dengan alasan pertimbangan keamanan.
Hasilnya adalah: seringnya jeda dan peralihan antara AI dan manusia mengurangi pengalaman otomatisasi yang mulus.
Meskipun ada hambatan ini, kemajuan tetap berlangsung dengan cepat. Perusahaan seperti OpenAI, Google, dan Anthropic belajar dari pengalaman kegagalan di setiap iterasi. Seiring dengan meningkatnya permintaan, kemungkinan akan muncul "ko-evolusi": situs web menjadi lebih ramah terhadap agen dalam skenario yang menguntungkan, sementara agen juga terus meningkatkan kemampuan meniru perilaku manusia untuk melewati hambatan yang ada.
Metode dan Peluang
Saat ini, proxy browser menghadapi dua realitas yang sangat berbeda: di satu sisi adalah lingkungan permusuhan Web2, di mana anti-scraping dan pertahanan keamanan ada di mana-mana; di sisi lain adalah lingkungan terbuka Web3, di mana otomatisasi justru sering didorong. Perbedaan ini menentukan arah berbagai solusi.
Solusi berikut dapat dibagi menjadi dua kategori: satu kategori membantu agen untuk menghindari lingkungan musuh Web2, sementara kategori lainnya adalah solusi yang berasal dari Web3.
Meskipun tantangan yang dihadapi oleh proxy browser tetap signifikan, proyek-proyek baru terus bermunculan untuk secara langsung mengatasi masalah ini. Cryptocurrency dan ekosistem keuangan terdesentralisasi (DeFi) semakin menjadi arena percobaan alami, karena terbuka, dapat diprogram, dan tidak begitu menentang otomatisasi. API terbuka, kontrak pintar, dan transparansi di blockchain menghilangkan banyak titik gesekan yang umum terjadi di dunia Web2.
Berikut adalah empat kategori solusi, masing-masing mengatasi satu atau lebih batasan inti saat ini:
Browser proksi asli yang ditujukan untuk operasi di blockchain
Browser ini dirancang dari awal untuk menggerakkan proxy secara mandiri dan terintegrasi secara mendalam dengan protokol blockchain. Berbeda dengan browser Chrome tradisional, yang memerlukan ketergantungan tambahan pada Selenium, Playwright, atau plugin dompet untuk mengotomatisasi operasi di blockchain; sementara browser proxy asli langsung memberikan API dan jalur eksekusi yang dapat dipercaya untuk digunakan oleh proxy.
Dalam keuangan terdesentralisasi, kevalidan transaksi bergantung pada tanda tangan kriptografi, bukan pada apakah pengguna "seperti manusia". Oleh karena itu, dalam lingkungan on-chain, agen dapat melewati CAPTCHA, skor deteksi penipuan, dan pemeriksaan sidik jari perangkat yang umum di dunia Web2. Namun, jika browser ini mengarah ke situs Web2 seperti Amazon, mereka tidak dapat melewati mekanisme pertahanan yang relevan, dan dalam kasus tersebut tetap akan memicu langkah-langkah anti-bot yang normal.
Nilai dari browser berbasis proxy bukanlah kemampuan untuk mengakses semua situs web secara ajaib, melainkan:
Integrasi blockchain asli: dompet bawaan dan dukungan tanda tangan, tidak perlu lagi melalui pop-up MetaMask atau menganalisis DOM frontend dApp.
Desain Prioritas Otomatisasi: Menyediakan instruksi tingkat tinggi yang stabil, dapat langsung dipetakan sebagai operasi protokol.
Model keamanan: kontrol izin yang terperinci dan sandbox, memastikan kunci pribadi aman dalam proses otomatisasi.
Optimasi kinerja: dapat menjalankan beberapa panggilan on-chain secara paralel, tanpa rendering browser atau penundaan UI.
Contoh: Donut
Donut mengintegrasikan data dan operasi blockchain sebagai warga negara kelas satu. Pengguna (atau agennya) dapat mengarahkan kursor untuk melihat indikator risiko token secara real-time, atau langsung memasukkan perintah dalam bahasa alami seperti “/swap 100 USDC to SOL”. Dengan melewati titik gesekan yang bermusuhan dari Web2, Donut memungkinkan agen untuk beroperasi dengan kecepatan penuh di DeFi, meningkatkan likuiditas, arbitrase, dan efisiensi pasar.
Eksekusi agen yang dapat diverifikasi dan dapat dipercaya
Memberikan agen izin sensitif memiliki risiko yang sangat besar. Solusi terkait menggunakan lingkungan eksekusi tepercaya (TEE) atau bukti nol pengetahuan (ZKP) untuk mengenkripsi konfirmasi perilaku yang diharapkan dari agen sebelum pelaksanaan, memungkinkan pengguna dan pihak lawan untuk memverifikasi tindakan agen tanpa mengungkapkan kunci pribadi atau kredensial.
Contoh: Phala Network
Phala menggunakan TEE (seperti Intel SGX) untuk mengisolasi dan melindungi lingkungan eksekusi, sehingga menghindari pengoperasian Phala atau penyerang dari memantau atau memodifikasi logika dan data agen. TEE seperti "ruang aman" yang didorong oleh perangkat keras, menjamin kerahasiaan (tidak dapat dilihat dari luar) dan integritas (tidak dapat diubah dari luar).
Untuk proxy browser, ini berarti ia dapat login, menyimpan token sesi, atau memproses informasi pembayaran, dan data sensitif ini tidak akan pernah meninggalkan ruang aman. Bahkan jika mesin pengguna, sistem operasi, atau jaringan diretas, tidak ada yang dapat bocor. Ini secara langsung mengurangi salah satu hambatan terbesar bagi aplikasi proxy untuk diimplementasikan: masalah kepercayaan terhadap kredensial dan operasi sensitif.
Jaringan data terstruktur terdesentralisasi
Sistem deteksi anti-bot modern tidak hanya memeriksa apakah permintaan "terlalu cepat" atau "otomatis", tetapi juga menggabungkan reputasi IP, sidik jari browser, umpan balik tantangan JavaScript, dan analisis perilaku (seperti pergerakan kursor, ritme mengetik, riwayat sesi). Proksi yang berasal dari IP pusat data atau lingkungan browser yang sepenuhnya dapat diulang mudah dikenali.
Untuk mengatasi masalah ini, jaringan semacam itu tidak lagi mengambil halaman web yang dioptimalkan untuk manusia, melainkan langsung mengumpulkan dan menyediakan data yang dapat dibaca mesin, atau dengan menggunakan lalu lintas yang dihasilkan oleh lingkungan penelusuran manusia yang nyata. Metode ini menghindari kelemahan tradisional dalam penguraian dan fase anti-pengambilan, dan dapat memberikan input yang lebih bersih dan lebih dapat diandalkan untuk proksi.
Dengan mengalihkan lalu lintas agen ke sesi dunia nyata ini, jaringan terdistribusi (distribution network) memungkinkan agen AI untuk mengakses konten web seperti manusia, tanpa segera memicu pemblokiran.
kasus
Grass: Jaringan data terdesentralisasi/DePIN, pengguna berbagi bandwidth rumah yang tidak terpakai, sehingga menyediakan saluran akses yang ramah proxy dan beragam secara geografis untuk pengumpulan data halaman publik dan pelatihan model.
WootzApp: browser mobile sumber terbuka yang mendukung pembayaran cryptocurrency, dilengkapi dengan proxy latar belakang dan identitas tanpa pengetahuan; ini mengubah tugas AI/data menjadi "permainan" bagi konsumen.
Sixpence: Jaringan browser terdistribusi yang merouting lalu lintas untuk agen AI melalui kontribusi penjelajah global.
Namun ini bukanlah solusi yang lengkap. Deteksi perilaku (jalur mouse/gulir), batasan tingkat akun (KYC, usia akun), serta pemeriksaan konsistensi sidik jari masih dapat memicu pemblokiran. Oleh karena itu, jaringan terdistribusi sebaiknya dianggap sebagai lapisan penyamaran dasar, yang harus dipadukan dengan strategi eksekusi yang meniru manusia untuk mencapai efektivitas maksimum.
Standar web yang ditujukan untuk agen (proyeksi)
Saat ini, semakin banyak komunitas dan organisasi teknologi yang sedang menjelajahi: bagaimana cara situs web berinteraksi dengan aman dan sesuai aturan dengan agen otomatis (agent) jika pengguna jaringan di masa depan tidak hanya manusia?
Ini mendorong diskusi tentang beberapa standar dan mekanisme yang muncul, dengan tujuan agar situs web dapat secara jelas menyatakan "Saya mengizinkan agen tepercaya untuk mengakses", dan menyediakan saluran yang aman untuk menyelesaikan interaksi, alih-alih secara default menganggap agen sebagai "serangan bot" untuk disaring seperti saat ini.
"Label Diizinkan Agen": Seperti robots.txt yang diikuti oleh mesin pencari, di masa depan halaman web mungkin akan menambahkan label dalam kode yang memberitahu agen browser "di sini dapat diakses dengan aman". Misalnya, jika Anda menggunakan agen untuk memesan tiket pesawat, situs web tidak akan memunculkan banyak kode verifikasi (CAPTCHA), melainkan langsung menyediakan antarmuka yang telah terverifikasi.
API gateway untuk agen terverifikasi: Situs web dapat membuka pintu masuk khusus untuk agen yang telah diverifikasi, seperti "jalur cepat". Agen tidak perlu mensimulasikan klik manusia, input, tetapi mengikuti jalur API yang lebih stabil untuk menyelesaikan pemesanan, pembayaran, atau pencarian data.
Diskusi W3C: World Wide Web Consortium (W3C) sedang meneliti bagaimana menetapkan saluran standar untuk "automasi yang diawasi". Ini berarti, di masa depan kita mungkin akan memiliki seperangkat aturan universal yang memungkinkan agen yang dapat dipercaya dikenali dan diterima oleh situs web, sambil menjaga keamanan dan dapat dipertanggungjawabkan.
Meskipun eksplorasi ini masih dalam tahap awal, begitu diterapkan, itu dapat sangat meningkatkan hubungan antara manusia ↔ agen ↔ situs web. Bayangkan: tidak perlu lagi agen berusaha keras untuk meniru gerakan mouse manusia untuk "menipu" sistem pengendalian risiko, tetapi secara terbuka menyelesaikan tugas melalui saluran "yang diizinkan secara resmi".
Di jalur ini, infrastruktur dasar kripto mungkin akan memulai lebih dulu. Karena aplikasi di atas rantai secara alami bergantung pada API terbuka dan kontrak pintar, yang ramah terhadap otomatisasi. Sebaliknya, platform Web2 tradisional mungkin masih akan terus berhati-hati, terutama perusahaan yang bergantung pada iklan atau sistem anti-penipuan. Namun, seiring dengan semakin banyaknya pengguna dan perusahaan yang menerima peningkatan efisiensi yang dibawa oleh otomatisasi, upaya standarisasi ini kemungkinan akan menjadi katalisator kunci untuk mendorong seluruh internet menuju "arsitektur prioritas perwakilan".
Kesimpulan
Proxy browser sedang berkembang dari alat percakapan sederhana menjadi sistem mandiri yang mampu menyelesaikan alur kerja kompleks secara online. Perubahan ini mencerminkan tren yang lebih luas: mengintegrasikan otomatisasi langsung ke dalam antarmuka inti interaksi pengguna dengan internet. Meskipun potensi peningkatan produktivitas sangat besar, tantangan juga sama beratnya, termasuk bagaimana mengatasi mekanisme anti-robot yang telah mengakar, serta bagaimana memastikan keamanan, kepercayaan, dan penggunaan yang bertanggung jawab.
Dalam jangka pendek, peningkatan kemampuan penalaran agen, kecepatan yang lebih cepat, integrasi yang lebih erat dengan layanan yang ada, serta kemajuan jaringan terdistribusi, mungkin secara bertahap meningkatkan keandalan. Dalam jangka panjang, kita mungkin akan melihat standar "ramah agen" secara bertahap diterapkan dalam situasi yang menguntungkan kedua belah pihak, penyedia layanan dan pengguna, dalam otomatisasi. Namun, perubahan ini tidak akan merata: dalam lingkungan yang ramah otomatisasi seperti DeFi, adopsinya akan lebih cepat; sedangkan dalam platform Web2 yang sangat bergantung pada kontrol interaksi pengguna, tingkat penerimaannya akan lebih lambat.
Di masa depan, persaingan perusahaan teknologi akan semakin terfokus pada beberapa aspek berikut: bagaimana kemampuan agennya untuk bernavigasi di bawah batasan dunia nyata, apakah dapat diintegrasikan dengan aman ke dalam alur kerja kritis, dan apakah dapat memberikan hasil yang stabil dalam lingkungan online yang beragam. Mengenai apakah semua ini pada akhirnya akan membentuk ulang "perang peramban", bukan hanya kekuatan teknologi yang akan menjadi penentu, tetapi apakah dapat membangun kepercayaan, menyelaraskan insentif, dan menunjukkan nilai nyata dalam penggunaan sehari-hari.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Ketika browser Anda menjadi proxy
Penulis: Mario Chow & Figo @IOSG
Pendahuluan
Selama 12 bulan terakhir, hubungan antara peramban web dan otomatisasi telah mengalami perubahan yang drastis. Hampir semua perusahaan teknologi besar berlomba-lomba untuk membangun agen peramban (browser agent) mereka sendiri. Tren ini semakin jelas mulai akhir 2024: OpenAI meluncurkan mode Agen pada bulan Januari, Anthropic merilis fitur "penggunaan komputer" untuk model Claude, Google DeepMind meluncurkan Project Mariner, Opera mengumumkan peramban berbasis agen Neon, dan Perplexity AI meluncurkan peramban Comet. Sinyalnya sangat jelas: masa depan AI terletak pada agen yang dapat menavigasi web secara mandiri.
Tren ini bukan hanya menambahkan chatbot yang lebih cerdas ke browser, tetapi merupakan perubahan fundamental dalam cara mesin berinteraksi dengan lingkungan digital. Browser agent adalah sejenis sistem AI yang dapat "melihat" halaman web dan mengambil tindakan: mengklik tautan, mengisi formulir, menggulir halaman, mengetik teks: seperti pengguna manusia. Pola ini menjanjikan untuk melepaskan produktivitas yang besar dan nilai ekonomi, karena dapat mengotomatiskan tugas-tugas yang saat ini masih memerlukan intervensi manusia, atau terlalu kompleks untuk diselesaikan oleh skrip tradisional.
▲ GIF Demonstrasi: Operasi nyata dari AI Browser Proxy: mengikuti instruksi, menavigasi ke halaman dataset target, secara otomatis mengambil screenshot dan mengekstrak data yang diperlukan.
Siapa yang akan memenangkan perang browser AI?
Hampir semua perusahaan teknologi besar (serta beberapa perusahaan rintisan) sedang mengembangkan solusi agen AI browser mereka sendiri. Berikut adalah beberapa proyek yang paling mewakili:
OpenAI – Mode Agen
Mode Agen OpenAI (sebelumnya dikenal sebagai Operator, diluncurkan pada Januari 2025) adalah agen AI dengan browser bawaan. Operator dapat menangani berbagai tugas online yang repetitif: seperti mengisi formulir web, memesan bahan makanan, mengatur pertemuan: semua dilakukan melalui antarmuka web standar yang biasa digunakan manusia.
▲ AI agen mengatur pertemuan seperti asisten profesional: memeriksa kalender, mencari slot waktu yang tersedia, membuat acara, mengirim konfirmasi, dan menghasilkan file .ics untukmu.
Anthropic – Claude 'Computer Use':
Pada akhir tahun 2024, Anthropic memperkenalkan fitur baru "Computer Use" untuk Claude 3.5, yang memberinya kemampuan untuk beroperasi di komputer dan browser seperti manusia. Claude dapat melihat layar, menggerakkan kursor, mengklik tombol, dan memasukkan teks. Ini adalah alat agen model besar pertama dari jenisnya yang memasuki versi uji coba publik, di mana pengembang dapat membuat Claude secara otomatis menavigasi situs web dan aplikasi. Anthropic memposisikannya sebagai fitur eksperimental, dengan tujuan utama untuk mengautomasi alur kerja multi-langkah di halaman web.
Perplexity – Comet
Perusahaan rintisan AI Perplexity (terkenal dengan mesin tanya jawab) meluncurkan browser Comet pada pertengahan 2025, sebagai alternatif berbasis AI untuk Chrome. Inti dari Comet adalah mesin pencari AI percakapan yang terintegrasi di bilah alamat (omnibox), yang mampu memberikan jawaban instan dan ringkasan, bukan tautan pencarian tradisional.
Selain itu, Comet juga dilengkapi dengan Comet Assistant, yang merupakan agen yang tinggal di sidebar dan dapat secara otomatis menjalankan tugas sehari-hari di berbagai situs web. Misalnya, ia dapat merangkum email yang Anda buka, mengatur pertemuan, mengelola tab browser, atau menjelajahi dan mengambil informasi dari halaman web atas nama Anda.
Melalui antarmuka bilah samping, memungkinkan agen untuk merasakan konten halaman web saat ini, Comet bertujuan untuk mengintegrasikan penelusuran dengan asisten AI secara mulus.
Skenario aplikasi nyata dari proxy browser
Dalam teks sebelumnya, kita telah meninjau bagaimana perusahaan teknologi besar (seperti OpenAI, Anthropic, Perplexity, dll.) menyuntikkan fungsi ke dalam agen browser melalui berbagai bentuk produk. Untuk memahami nilai-nilai ini dengan lebih jelas, kita dapat melihat lebih jauh bagaimana kemampuan ini diterapkan dalam kehidupan sehari-hari dan alur kerja perusahaan dalam skenario nyata.
Automatisasi web sehari-hari
E-commerce dan belanja pribadi
Salah satu skenario yang sangat praktis adalah mendelegasikan tugas belanja dan pemesanan kepada agen. Agen dapat secara otomatis mengisi keranjang belanja online Anda dan melakukan pemesanan berdasarkan daftar tetap, serta mencari harga terendah di antara beberapa pengecer dan menyelesaikan proses pembayaran atas nama Anda.
Untuk perjalanan, Anda dapat meminta AI untuk melakukan tugas seperti ini: "Bantu saya memesan penerbangan ke Tokyo bulan depan (dengan harga tiket di bawah 800 dolar), lalu pesan hotel yang memiliki Wi-Fi gratis." Agen akan menangani seluruh proses: mencari penerbangan, membandingkan opsi, mengisi informasi penumpang, menyelesaikan pemesanan hotel, semua dilakukan melalui situs maskapai dan hotel. Tingkat otomatisasi ini jauh melampaui robot perjalanan yang ada: ini bukan hanya sekadar rekomendasi, tetapi langsung melakukan pembelian.
Meningkatkan efisiensi kerja
Agen dapat mengotomatiskan banyak operasi bisnis berulang yang dilakukan orang di browser. Misalnya, mengatur email dan mengekstrak tugas yang harus dilakukan, atau memeriksa slot waktu di beberapa kalender dan secara otomatis menjadwalkan pertemuan. Asisten Comet dari Perplexity sudah dapat merangkum isi kotak masuk Anda melalui antarmuka web, atau menambahkan jadwal untuk Anda. Agen juga dapat masuk ke alat SaaS setelah mendapatkan otorisasi Anda untuk menghasilkan laporan rutin, memperbarui spreadsheet, atau mengirimkan formulir. Bayangkan seorang agen HR yang dapat secara otomatis masuk ke berbagai situs perekrutan untuk memposting lowongan; atau seorang agen penjualan yang dapat memperbarui data prospek di sistem CRM. Tugas-tugas sehari-hari ini biasanya akan menghabiskan banyak waktu karyawan, tetapi AI dapat menyelesaikannya dengan mengotomatiskan formulir web dan operasi halaman.
Selain tugas tunggal, agen juga dapat menghubungkan alur kerja lengkap yang melibatkan beberapa sistem jaringan. Semua langkah ini perlu dilakukan di berbagai antarmuka web, dan inilah kekuatan dari agen browser. Agen dapat masuk ke berbagai dasbor untuk memecahkan masalah, bahkan mengatur proses, seperti menyelesaikan onboarding untuk karyawan baru (membuat akun di beberapa situs SaaS). Secara esensial, setiap operasi multi-langkah yang saat ini memerlukan pembukaan beberapa situs web dapat diserahkan kepada agen.
Tantangan dan batasan saat ini
Meskipun memiliki potensi besar, namun proxy browser saat ini masih jauh dari kesempurnaan. Implementasi saat ini mengungkapkan beberapa masalah teknis dan infrastruktur yang telah ada sejak lama:
Arsitektur tidak cocok
Jaringan modern dirancang untuk browser yang dioperasikan oleh manusia, dan seiring berjalannya waktu telah berevolusi menjadi perlindungan aktif terhadap otomatisasi. Data sering kali tersembunyi dalam HTML/CSS yang dioptimalkan untuk tampilan visual, dibatasi oleh gestur interaksi (hover mouse, geser), atau hanya dapat diakses melalui API yang tidak dipublikasikan.
Berdasarkan hal tersebut, sistem anti-scraping dan anti-penipuan menambahkan penghalang ekstra secara artifisial. Alat-alat ini menggabungkan reputasi IP, sidik jari browser, tantangan JavaScript, dan analisis perilaku (seperti acak pergerakan mouse, ritme mengetik, dan waktu tinggal). Ironisnya, semakin "sempurna" dan efisien AI proxy berperilaku: misalnya mengisi formulir dalam sekejap, tidak pernah membuat kesalahan, semakin mudah dikenali sebagai otomatisasi yang berbahaya. Ini dapat menyebabkan kegagalan yang keras: misalnya, proxy dari OpenAI atau Google mungkin berhasil menyelesaikan semua langkah sebelum checkout, tetapi akhirnya terhalang oleh CAPTCHA atau filter keamanan kedua.
Antarmuka yang dioptimalkan oleh manusia dan lapisan pertahanan yang tidak ramah terhadap robot digabungkan, memaksa agen untuk mengadopsi strategi "imitasi manusia" yang rentan. Metode ini sangat mudah gagal, dengan tingkat keberhasilan yang rendah (jika tidak ada intervensi manusia, tingkat penyelesaian transaksi yang lengkap masih kurang dari sepertiga).
Kekhawatiran tentang Kepercayaan dan Keamanan
Untuk memberikan agen kontrol penuh, biasanya diperlukan akses ke informasi sensitif: kredensial login, Cookies, token autentikasi dua faktor, bahkan informasi pembayaran. Ini menimbulkan kekhawatiran yang dapat dipahami oleh pengguna dan perusahaan:
Apa yang harus dilakukan jika agen mengalami kesalahan atau tertipu oleh situs web jahat?
Jika agen menyetujui syarat layanan tertentu atau melakukan transaksi, siapa yang harus bertanggung jawab?
Berdasarkan risiko tersebut, sistem saat ini umumnya mengambil sikap hati-hati:
Mariner Google tidak akan memasukkan informasi kartu kredit atau menyetujui syarat layanan, melainkan mengembalikannya kepada pengguna.
Operator OpenAI akan memberi tahu pengguna untuk mengambil alih login atau tantangan CAPTCHA.
Agen yang didorong oleh Claude dari Anthropic mungkin langsung menolak login, dengan alasan pertimbangan keamanan.
Hasilnya adalah: seringnya jeda dan peralihan antara AI dan manusia mengurangi pengalaman otomatisasi yang mulus.
Meskipun ada hambatan ini, kemajuan tetap berlangsung dengan cepat. Perusahaan seperti OpenAI, Google, dan Anthropic belajar dari pengalaman kegagalan di setiap iterasi. Seiring dengan meningkatnya permintaan, kemungkinan akan muncul "ko-evolusi": situs web menjadi lebih ramah terhadap agen dalam skenario yang menguntungkan, sementara agen juga terus meningkatkan kemampuan meniru perilaku manusia untuk melewati hambatan yang ada.
Metode dan Peluang
Saat ini, proxy browser menghadapi dua realitas yang sangat berbeda: di satu sisi adalah lingkungan permusuhan Web2, di mana anti-scraping dan pertahanan keamanan ada di mana-mana; di sisi lain adalah lingkungan terbuka Web3, di mana otomatisasi justru sering didorong. Perbedaan ini menentukan arah berbagai solusi.
Solusi berikut dapat dibagi menjadi dua kategori: satu kategori membantu agen untuk menghindari lingkungan musuh Web2, sementara kategori lainnya adalah solusi yang berasal dari Web3.
Meskipun tantangan yang dihadapi oleh proxy browser tetap signifikan, proyek-proyek baru terus bermunculan untuk secara langsung mengatasi masalah ini. Cryptocurrency dan ekosistem keuangan terdesentralisasi (DeFi) semakin menjadi arena percobaan alami, karena terbuka, dapat diprogram, dan tidak begitu menentang otomatisasi. API terbuka, kontrak pintar, dan transparansi di blockchain menghilangkan banyak titik gesekan yang umum terjadi di dunia Web2.
Berikut adalah empat kategori solusi, masing-masing mengatasi satu atau lebih batasan inti saat ini:
Browser proksi asli yang ditujukan untuk operasi di blockchain
Browser ini dirancang dari awal untuk menggerakkan proxy secara mandiri dan terintegrasi secara mendalam dengan protokol blockchain. Berbeda dengan browser Chrome tradisional, yang memerlukan ketergantungan tambahan pada Selenium, Playwright, atau plugin dompet untuk mengotomatisasi operasi di blockchain; sementara browser proxy asli langsung memberikan API dan jalur eksekusi yang dapat dipercaya untuk digunakan oleh proxy.
Dalam keuangan terdesentralisasi, kevalidan transaksi bergantung pada tanda tangan kriptografi, bukan pada apakah pengguna "seperti manusia". Oleh karena itu, dalam lingkungan on-chain, agen dapat melewati CAPTCHA, skor deteksi penipuan, dan pemeriksaan sidik jari perangkat yang umum di dunia Web2. Namun, jika browser ini mengarah ke situs Web2 seperti Amazon, mereka tidak dapat melewati mekanisme pertahanan yang relevan, dan dalam kasus tersebut tetap akan memicu langkah-langkah anti-bot yang normal.
Nilai dari browser berbasis proxy bukanlah kemampuan untuk mengakses semua situs web secara ajaib, melainkan:
Integrasi blockchain asli: dompet bawaan dan dukungan tanda tangan, tidak perlu lagi melalui pop-up MetaMask atau menganalisis DOM frontend dApp.
Desain Prioritas Otomatisasi: Menyediakan instruksi tingkat tinggi yang stabil, dapat langsung dipetakan sebagai operasi protokol.
Model keamanan: kontrol izin yang terperinci dan sandbox, memastikan kunci pribadi aman dalam proses otomatisasi.
Optimasi kinerja: dapat menjalankan beberapa panggilan on-chain secara paralel, tanpa rendering browser atau penundaan UI.
Contoh: Donut
Donut mengintegrasikan data dan operasi blockchain sebagai warga negara kelas satu. Pengguna (atau agennya) dapat mengarahkan kursor untuk melihat indikator risiko token secara real-time, atau langsung memasukkan perintah dalam bahasa alami seperti “/swap 100 USDC to SOL”. Dengan melewati titik gesekan yang bermusuhan dari Web2, Donut memungkinkan agen untuk beroperasi dengan kecepatan penuh di DeFi, meningkatkan likuiditas, arbitrase, dan efisiensi pasar.
Eksekusi agen yang dapat diverifikasi dan dapat dipercaya
Memberikan agen izin sensitif memiliki risiko yang sangat besar. Solusi terkait menggunakan lingkungan eksekusi tepercaya (TEE) atau bukti nol pengetahuan (ZKP) untuk mengenkripsi konfirmasi perilaku yang diharapkan dari agen sebelum pelaksanaan, memungkinkan pengguna dan pihak lawan untuk memverifikasi tindakan agen tanpa mengungkapkan kunci pribadi atau kredensial.
Contoh: Phala Network
Phala menggunakan TEE (seperti Intel SGX) untuk mengisolasi dan melindungi lingkungan eksekusi, sehingga menghindari pengoperasian Phala atau penyerang dari memantau atau memodifikasi logika dan data agen. TEE seperti "ruang aman" yang didorong oleh perangkat keras, menjamin kerahasiaan (tidak dapat dilihat dari luar) dan integritas (tidak dapat diubah dari luar).
Untuk proxy browser, ini berarti ia dapat login, menyimpan token sesi, atau memproses informasi pembayaran, dan data sensitif ini tidak akan pernah meninggalkan ruang aman. Bahkan jika mesin pengguna, sistem operasi, atau jaringan diretas, tidak ada yang dapat bocor. Ini secara langsung mengurangi salah satu hambatan terbesar bagi aplikasi proxy untuk diimplementasikan: masalah kepercayaan terhadap kredensial dan operasi sensitif.
Jaringan data terstruktur terdesentralisasi
Sistem deteksi anti-bot modern tidak hanya memeriksa apakah permintaan "terlalu cepat" atau "otomatis", tetapi juga menggabungkan reputasi IP, sidik jari browser, umpan balik tantangan JavaScript, dan analisis perilaku (seperti pergerakan kursor, ritme mengetik, riwayat sesi). Proksi yang berasal dari IP pusat data atau lingkungan browser yang sepenuhnya dapat diulang mudah dikenali.
Untuk mengatasi masalah ini, jaringan semacam itu tidak lagi mengambil halaman web yang dioptimalkan untuk manusia, melainkan langsung mengumpulkan dan menyediakan data yang dapat dibaca mesin, atau dengan menggunakan lalu lintas yang dihasilkan oleh lingkungan penelusuran manusia yang nyata. Metode ini menghindari kelemahan tradisional dalam penguraian dan fase anti-pengambilan, dan dapat memberikan input yang lebih bersih dan lebih dapat diandalkan untuk proksi.
Dengan mengalihkan lalu lintas agen ke sesi dunia nyata ini, jaringan terdistribusi (distribution network) memungkinkan agen AI untuk mengakses konten web seperti manusia, tanpa segera memicu pemblokiran.
kasus
Grass: Jaringan data terdesentralisasi/DePIN, pengguna berbagi bandwidth rumah yang tidak terpakai, sehingga menyediakan saluran akses yang ramah proxy dan beragam secara geografis untuk pengumpulan data halaman publik dan pelatihan model.
WootzApp: browser mobile sumber terbuka yang mendukung pembayaran cryptocurrency, dilengkapi dengan proxy latar belakang dan identitas tanpa pengetahuan; ini mengubah tugas AI/data menjadi "permainan" bagi konsumen.
Sixpence: Jaringan browser terdistribusi yang merouting lalu lintas untuk agen AI melalui kontribusi penjelajah global.
Namun ini bukanlah solusi yang lengkap. Deteksi perilaku (jalur mouse/gulir), batasan tingkat akun (KYC, usia akun), serta pemeriksaan konsistensi sidik jari masih dapat memicu pemblokiran. Oleh karena itu, jaringan terdistribusi sebaiknya dianggap sebagai lapisan penyamaran dasar, yang harus dipadukan dengan strategi eksekusi yang meniru manusia untuk mencapai efektivitas maksimum.
Standar web yang ditujukan untuk agen (proyeksi)
Saat ini, semakin banyak komunitas dan organisasi teknologi yang sedang menjelajahi: bagaimana cara situs web berinteraksi dengan aman dan sesuai aturan dengan agen otomatis (agent) jika pengguna jaringan di masa depan tidak hanya manusia?
Ini mendorong diskusi tentang beberapa standar dan mekanisme yang muncul, dengan tujuan agar situs web dapat secara jelas menyatakan "Saya mengizinkan agen tepercaya untuk mengakses", dan menyediakan saluran yang aman untuk menyelesaikan interaksi, alih-alih secara default menganggap agen sebagai "serangan bot" untuk disaring seperti saat ini.
"Label Diizinkan Agen": Seperti robots.txt yang diikuti oleh mesin pencari, di masa depan halaman web mungkin akan menambahkan label dalam kode yang memberitahu agen browser "di sini dapat diakses dengan aman". Misalnya, jika Anda menggunakan agen untuk memesan tiket pesawat, situs web tidak akan memunculkan banyak kode verifikasi (CAPTCHA), melainkan langsung menyediakan antarmuka yang telah terverifikasi.
API gateway untuk agen terverifikasi: Situs web dapat membuka pintu masuk khusus untuk agen yang telah diverifikasi, seperti "jalur cepat". Agen tidak perlu mensimulasikan klik manusia, input, tetapi mengikuti jalur API yang lebih stabil untuk menyelesaikan pemesanan, pembayaran, atau pencarian data.
Diskusi W3C: World Wide Web Consortium (W3C) sedang meneliti bagaimana menetapkan saluran standar untuk "automasi yang diawasi". Ini berarti, di masa depan kita mungkin akan memiliki seperangkat aturan universal yang memungkinkan agen yang dapat dipercaya dikenali dan diterima oleh situs web, sambil menjaga keamanan dan dapat dipertanggungjawabkan.
Meskipun eksplorasi ini masih dalam tahap awal, begitu diterapkan, itu dapat sangat meningkatkan hubungan antara manusia ↔ agen ↔ situs web. Bayangkan: tidak perlu lagi agen berusaha keras untuk meniru gerakan mouse manusia untuk "menipu" sistem pengendalian risiko, tetapi secara terbuka menyelesaikan tugas melalui saluran "yang diizinkan secara resmi".
Di jalur ini, infrastruktur dasar kripto mungkin akan memulai lebih dulu. Karena aplikasi di atas rantai secara alami bergantung pada API terbuka dan kontrak pintar, yang ramah terhadap otomatisasi. Sebaliknya, platform Web2 tradisional mungkin masih akan terus berhati-hati, terutama perusahaan yang bergantung pada iklan atau sistem anti-penipuan. Namun, seiring dengan semakin banyaknya pengguna dan perusahaan yang menerima peningkatan efisiensi yang dibawa oleh otomatisasi, upaya standarisasi ini kemungkinan akan menjadi katalisator kunci untuk mendorong seluruh internet menuju "arsitektur prioritas perwakilan".
Kesimpulan
Proxy browser sedang berkembang dari alat percakapan sederhana menjadi sistem mandiri yang mampu menyelesaikan alur kerja kompleks secara online. Perubahan ini mencerminkan tren yang lebih luas: mengintegrasikan otomatisasi langsung ke dalam antarmuka inti interaksi pengguna dengan internet. Meskipun potensi peningkatan produktivitas sangat besar, tantangan juga sama beratnya, termasuk bagaimana mengatasi mekanisme anti-robot yang telah mengakar, serta bagaimana memastikan keamanan, kepercayaan, dan penggunaan yang bertanggung jawab.
Dalam jangka pendek, peningkatan kemampuan penalaran agen, kecepatan yang lebih cepat, integrasi yang lebih erat dengan layanan yang ada, serta kemajuan jaringan terdistribusi, mungkin secara bertahap meningkatkan keandalan. Dalam jangka panjang, kita mungkin akan melihat standar "ramah agen" secara bertahap diterapkan dalam situasi yang menguntungkan kedua belah pihak, penyedia layanan dan pengguna, dalam otomatisasi. Namun, perubahan ini tidak akan merata: dalam lingkungan yang ramah otomatisasi seperti DeFi, adopsinya akan lebih cepat; sedangkan dalam platform Web2 yang sangat bergantung pada kontrol interaksi pengguna, tingkat penerimaannya akan lebih lambat.
Di masa depan, persaingan perusahaan teknologi akan semakin terfokus pada beberapa aspek berikut: bagaimana kemampuan agennya untuk bernavigasi di bawah batasan dunia nyata, apakah dapat diintegrasikan dengan aman ke dalam alur kerja kritis, dan apakah dapat memberikan hasil yang stabil dalam lingkungan online yang beragam. Mengenai apakah semua ini pada akhirnya akan membentuk ulang "perang peramban", bukan hanya kekuatan teknologi yang akan menjadi penentu, tetapi apakah dapat membangun kepercayaan, menyelaraskan insentif, dan menunjukkan nilai nyata dalam penggunaan sehari-hari.