Quando o seu navegador se torna um proxy

2025-08-18 16:09:45

Autor: Mario Chow & Figo @IOSG

Introdução

Nos últimos 12 meses, a relação entre navegadores da web e automação passou por mudanças drásticas. Quase todas as grandes empresas de tecnologia estão correndo para construir agentes de navegador autônomos. A partir do final de 2024, essa tendência se tornará cada vez mais evidente: a OpenAI lançou o modo Agent em janeiro, a Anthropic lançou a funcionalidade "uso do computador" para o modelo Claude, o Google DeepMind lançou o Project Mariner, a Opera anunciou o navegador Neon, e a Perplexity AI lançou o navegador Comet. O sinal é muito claro: o futuro da IA está em agentes que podem navegar autonomamente na web.

Essa tendência não se resume apenas a adicionar chatbots mais inteligentes aos navegadores, mas sim a uma transformação fundamental na maneira como as máquinas interagem com o ambiente digital. Os agentes de navegador são uma classe de sistemas de IA que podem "ver" páginas da web e tomar ações: clicar em links, preencher formulários, rolar páginas, inserir texto: como usuários humanos. Esse modelo promete liberar uma enorme produtividade e valor econômico, pois pode automatizar tarefas que atualmente ainda exigem intervenção humana ou que são muito complexas para serem concluídas por scripts tradicionais.

▲ Demonstração em GIF: Operação prática do proxy do navegador AI: seguir instruções, navegar até a página do conjunto de dados alvo, capturar automaticamente e extrair os dados necessários.

Quem vencerá a batalha dos navegadores de IA?

Quase todas as grandes empresas de tecnologia (e algumas startups) estão a desenvolver as suas próprias soluções de agentes de IA para navegadores. Aqui estão alguns dos projetos mais representativos:

OpenAI – Modo Agente

O modo Agent da OpenAI (anteriormente conhecido como Operator, lançado em janeiro de 2025) é um agente de IA que vem com um navegador. O Operator é capaz de lidar com várias tarefas online repetitivas: como preencher formulários da web, fazer pedidos de mercearia, agendar reuniões: tudo isso é feito através de interfaces web padrão comumente usadas por humanos.

▲ O agente de IA organiza reuniões como um assistente profissional: verifica o calendário, procura períodos disponíveis, cria eventos, envia confirmações e gera um arquivo .ics para você.

Anthropic – Claude "Uso de Computador":

No final de 2024, a Anthropic introduziu uma nova funcionalidade chamada "Computer Use" (uso de computador) para o Claude 3.5, conferindo-lhe a capacidade de operar computadores e navegadores como um humano. O Claude pode ver a tela, mover o cursor, clicar em botões e inserir texto. Este é a primeira ferramenta de agente de grande modelo do seu tipo a entrar na versão de teste público, permitindo que os desenvolvedores façam com que o Claude navegue automaticamente por sites e aplicativos. A Anthropic posiciona isso como uma funcionalidade experimental, com o objetivo principal de automatizar fluxos de trabalho de várias etapas na web.

Perplexidade – Cometa

A startup de IA Perplexity (famosa pelo seu motor de perguntas e respostas) lançou o navegador Comet em meados de 2025, como uma alternativa impulsionada por IA ao Chrome. O núcleo do Comet é um motor de busca conversacional embutido na barra de endereços (omnibox), capaz de fornecer respostas instantâneas e resumos, em vez de links de pesquisa tradicionais.

Além disso, o Comet tem integrado o Comet Assistant, que é um agente residente na barra lateral que pode executar automaticamente tarefas diárias em diferentes sites. Por exemplo, ele pode resumir os e-mails que você abriu, agendar reuniões, gerenciar abas do navegador ou navegar e coletar informações da web em seu nome.

Através da interface da barra lateral, os agentes podem perceber o conteúdo atual da página da web, e o Comet visa fundir de forma fluida a navegação com assistentes de IA.

Cenários reais de aplicação de proxies de navegador

No texto anterior, já revisámos como as grandes empresas de tecnologia (OpenAI, Anthropic, Perplexity, etc.) injetam funcionalidades nos agentes de navegador através de diferentes formas de produto. Para compreender melhor o seu valor, podemos examinar mais de perto como essas capacidades são aplicadas na vida quotidiana e nos fluxos de trabalho empresariais em cenários reais.

Automatização de páginas web do dia-a-dia

Comércio eletrónico e compras pessoais

Um cenário muito prático é delegar as compras e tarefas de reserva a um agente. O agente pode preencher automaticamente o seu carrinho de compras online e fazer o pedido com base em uma lista fixa, ou pode procurar o menor preço entre vários varejistas e concluir o processo de checkout em seu nome.

Para viajar, você pode fazer com que a IA execute tarefas como: "Ajude-me a reservar um voo para Tóquio no próximo mês (com preço abaixo de 800 dólares), e reserve um hotel com Wi-Fi gratuito." O agente cuidará de todo o processo: pesquisar voos, comparar opções, preencher informações dos passageiros e concluir a reserva do hotel, tudo feito através dos sites das companhias aéreas e dos hotéis. Esse nível de automação ultrapassa em muito os robôs de viagem existentes: não se trata apenas de recomendações, mas sim de realizar a compra diretamente.

Aumentar a eficiência no trabalho

Os agentes podem automatizar muitas operações de negócios repetitivas que as pessoas realizam no navegador. Por exemplo, organizar e-mails e extrair tarefas, ou verificar horários disponíveis em vários calendários e agendar reuniões automaticamente. O assistente Comet da Perplexity já pode resumir o conteúdo da sua caixa de entrada através de uma interface web, ou adicionar compromissos para você. Os agentes também podem, após obter sua autorização, fazer login em ferramentas SaaS para gerar relatórios regulares, atualizar planilhas ou enviar formulários. Imagine um agente de RH que pode fazer login automaticamente em diferentes sites de recrutamento para publicar vagas; ou um agente de vendas que pode atualizar os dados de leads no sistema CRM. Essas tarefas diárias e rotineiras consumiriam muito tempo dos funcionários, mas a IA pode realizar isso automatizando formulários e operações de página na web.

Além de tarefas únicas, o agente pode orquestrar um fluxo de trabalho completo que abrange vários sistemas de rede. Todas essas etapas precisam ser realizadas em diferentes interfaces da web, e essa é a especialidade do agente do navegador. O agente pode se conectar a vários painéis para solução de problemas, e até mesmo orquestrar processos, como completar a integração de novos funcionários (criando contas em vários sites SaaS). Essencialmente, qualquer operação de múltiplas etapas que atualmente exija abrir vários sites pode ser realizada pelo agente.

Desafios e limitações atuais

Apesar do grande potencial, os proxies de navegador de hoje ainda estão longe da perfeição. As implementações atuais revelam alguns problemas técnicos e de infraestrutura que existem há muito tempo:

Arquitetura incompatível

A rede moderna foi projetada para navegadores operados por humanos e, ao longo do tempo, evoluiu para resistir ativamente à automação. Os dados muitas vezes estão enterrados em HTML/CSS otimizados para exibição visual, limitados por gestos de interação (como passar o mouse ou deslizar), ou acessíveis apenas através de APIs não divulgadas.

Com base nisso, os sistemas de anti-bot e anti-fraude adicionaram barreiras extras artificialmente. Essas ferramentas combinam reputação de IP, impressões digitais de navegador, feedback de desafios em JavaScript e análise de comportamento (como a aleatoriedade do movimento do mouse, ritmo de digitação e tempo de permanência). Contraditoriamente, quanto mais "perfeitos" e eficientes se comportam os agentes de IA: por exemplo, preenchendo formulários instantaneamente e nunca cometendo erros, mais fácil se torna a identificação como automação maliciosa. Isso pode levar a falhas rígidas: por exemplo, os agentes da OpenAI ou Google podem concluir todos os passos antes do checkout sem problemas, mas acabam sendo bloqueados por um CAPTCHA ou por uma segunda filtragem de segurança.

A interface otimizada para humanos e uma camada de defesa hostil a robôs se sobrepõem, forçando os agentes a adotar uma frágil estratégia de "imitação humano-máquina". Este método é altamente suscetível a falhas, com uma taxa de sucesso baixa (se não houver intervenção humana, a taxa de conclusão de transações completas ainda é inferior a um terço).

Preocupações com confiança e segurança

Para que o agente obtenha controle total, geralmente é necessário acessar informações sensíveis: credenciais de login, Cookies, tokens de autenticação de dois fatores e até informações de pagamento. Isso traz preocupações que tanto os usuários quanto as empresas podem entender:

O que fazer se o agente cometer um erro ou for enganado por um site malicioso?

Se um agente concordar com um determinado termo de serviço ou executar uma transação, quem deve ser responsabilizado?

Com base nesses riscos, os sistemas atuais geralmente adotam uma atitude cautelosa:

O Mariner do Google não insere informações de cartão de crédito nem concorda com os termos de serviço, mas devolve ao usuário.

O operador da OpenAI irá solicitar ao usuário que assuma o login ou o desafio CAPTCHA.

O agente alimentado por Claude da Anthropic pode recusar diretamente o login, por questões de segurança.

O resultado é: as frequentes pausas e transições entre a IA e os humanos enfraquecem a experiência de automação sem costura.

Apesar desses obstáculos, o progresso continua a avançar rapidamente. Empresas como OpenAI, Google e Anthropic aprendem com as experiências de falha a cada rodada de iteração. Com o aumento da demanda, é provável que surja uma "coevolução": os sites tornam-se mais amigáveis para os agentes em cenários favoráveis, enquanto os agentes também continuam a melhorar sua capacidade de imitar o comportamento humano para contornar as barreiras existentes.

Métodos e Oportunidades

Os proxies de navegador atuais enfrentam duas realidades distintas: por um lado, o ambiente hostil do Web2, onde a defesa contra bots e a segurança estão em toda parte; por outro lado, o ambiente aberto do Web3, onde a automação é frequentemente incentivada. Essa diferença determina a direção das várias soluções.

As soluções abaixo estão aproximadamente divididas em duas categorias: uma ajuda os agentes a contornar o ambiente hostil do Web2, enquanto a outra é nativa do Web3.

Embora os desafios enfrentados pelos proxies de navegador ainda sejam significativos, novos projetos estão surgindo constantemente, tentando resolver esses problemas diretamente. As criptomoedas e o ecossistema de finanças descentralizadas (DeFi) estão se tornando um campo de testes natural, pois são abertos, programáveis e menos hostis à automação. APIs abertas, contratos inteligentes e transparência na cadeia eliminam muitos dos pontos de atrito comuns no mundo Web2.

As seguintes são quatro tipos de soluções, cada uma lidando com uma ou mais limitações centrais atuais:

Navegador nativo de tipo proxy voltado para operações em cadeia

Esses navegadores foram projetados do zero para serem impulsionados por proxies autônomos e estão profundamente integrados com protocolos de blockchain. Ao contrário do navegador Chrome tradicional, que precisa depender adicionalmente do Selenium, Playwright ou plugins de carteira para automatizar operações em blockchain; os navegadores nativos baseados em proxies fornecem diretamente APIs e caminhos de execução confiáveis para chamadas de proxies.

Na finança descentralizada, a eficácia das transações depende de assinaturas criptográficas, e não de os usuários serem "como humanos". Assim, em um ambiente em cadeia, agentes podem contornar os CAPTCHA comuns do mundo Web2, pontuações de detecção de fraude e verificações de impressões digitais de dispositivos. No entanto, se esses navegadores se direcionarem a sites Web2 como a Amazon, eles não conseguirão contornar os mecanismos de defesa relevantes, e nesse cenário ainda ativarão as medidas normais contra robôs.

O valor de um navegador proxy não está em acessar magicamente todos os sites, mas sim em:

Integração nativa de blockchain: suporte a carteira embutida e assinatura, sem necessidade de passar pela janela pop-up do MetaMask ou analisar o DOM do front-end do dApp.

Design de prioridade automatizada: fornece instruções de alto nível estáveis que podem ser mapeadas diretamente para operações de protocolo.

Modelo de segurança: controle de permissões refinado e sandbox, garantindo que a chave privada permaneça segura durante o processo de automação.

Otimização de desempenho: capacidade de realizar múltiplas chamadas em cadeia em paralelo, sem a necessidade de renderização no navegador ou atraso na interface do utilizador.

Caso: Donut

Donut integra dados e operações de blockchain como cidadãos de primeira classe. Usuários (ou seus agentes) podem passar o mouse para ver os indicadores de risco em tempo real dos tokens ou inserir diretamente comandos em linguagem natural, como “/swap 100 USDC to SOL”. Ao contornar os pontos de fricção hostis do Web2, Donut permite que os agentes operem em alta velocidade no DeFi, aumentando a liquidez, arbitragem e eficiência do mercado.

Execução de agentes verificáveis e confiáveis

Conceder permissões sensíveis aos agentes representa um grande risco. As soluções relacionadas utilizam ambientes de execução confiáveis (TEEs) ou provas de conhecimento zero (ZKPs) para criptografar a confirmação do comportamento esperado do agente antes da execução, permitindo que os usuários e a parte oposta verifiquem as ações do agente sem expor chaves privadas ou credenciais.

Exemplo: Phala Network

Phala utiliza TEEs (como Intel SGX) para isolar e proteger o ambiente de execução, evitando que os operadores da Phala ou atacantes espiem ou modifiquem a lógica e os dados do agente. TEE é como uma "sala segura" com suporte de hardware, garantindo a confidencialidade (não visível externamente) e a integridade (não modificável externamente).

Para um proxy de navegador, isso significa que ele pode fazer login, manter tokens de sessão ou processar informações de pagamento, e esses dados sensíveis nunca saem da sala segura. Mesmo que a máquina do usuário, o sistema operacional ou a rede sejam comprometidos, não haverá vazamento. Isso alivia diretamente um dos maiores obstáculos para a implementação de aplicativos proxy: a questão de confiança em credenciais sensíveis e operações.

Rede de dados estruturados descentralizada

Os modernos sistemas de deteção de bots não só verificam se os pedidos são "demasiado rápidos" ou "automatizados", mas também combinam a reputação do IP, impressões digitais do navegador, feedback de desafios JavaScript e análise comportamental (como movimento do cursor, ritmo de digitação e histórico de sessão). Proxies provenientes de IPs de centros de dados ou ambientes de navegação completamente repetíveis são facilmente identificáveis.

Para resolver este problema, este tipo de rede não coleta mais páginas otimizadas para humanos, mas sim recolhe e fornece dados legíveis por máquina, ou através de tráfego de agentes em um ambiente de navegação humano real. Este método contorna a fragilidade dos crawlers tradicionais na etapa de análise e anti-crawling, podendo fornecer entradas mais limpas e confiáveis para os agentes.

Ao redirecionar o tráfego de proxy para essas sessões do mundo real, a rede distribuída permite que os agentes de IA acessem conteúdo da web como humanos, sem acionar bloqueios imediatamente.

Caso

Grass: Rede de dados descentralizada/DePIN, onde os usuários compartilham a largura de banda de suas residências ociosas, proporcionando canais de acesso geograficamente diversificados e amigáveis para coleta de dados de páginas públicas e treinamento de modelos.

WootzApp: um navegador móvel de código aberto que suporta pagamentos em criptomoedas, com proxy em segundo plano e identidade de conhecimento zero; ele "gamifica" tarefas de IA/dados para os consumidores.

Sixpence: rede de navegador distribuído, que roteia tráfego para agentes de IA através da navegação de contribuintes globais.

No entanto, esta não é uma solução completa. A detecção de comportamento (movimento do mouse/trajetória de rolagem), restrições a nível de conta (KYC, idade da conta) e a verificação de consistência de impressão digital ainda podem acionar bloqueios. Portanto, redes distribuídas devem ser vistas como uma camada de ocultação básica, devendo ser combinadas com estratégias de execução que imitam o comportamento humano para alcançar o máximo efeito.

Padrões de página da web orientados para agentes (perspectiva)

Atualmente, cada vez mais comunidades e organizações tecnológicas estão a explorar: como é que os websites devem lidar de forma segura e conforme com agentes automatizados (agent), se no futuro os utilizadores da rede não forem apenas humanos?

Isto impulsionou a discussão de alguns novos padrões e mecanismos, com o objetivo de permitir que os sites possam declarar claramente "eu permito o acesso a agentes confiáveis", e fornecer um canal seguro para completar a interação, em vez de, como hoje, tratar os agentes por default como "ataques de robôs" para serem interceptados.

"Agente Permitido" etiqueta: Assim como o robots.txt que os motores de busca obedecem, as futuras páginas da web poderão adicionar uma etiqueta no código, informando aos agentes do navegador "aqui pode ser acessado com segurança". Por exemplo, se você usar um agente para reservar passagens aéreas, o site não exibirá um monte de códigos de verificação (CAPTCHA), mas oferecerá diretamente uma interface autenticada.

API Gateway para agentes certificados: o site pode abrir um acesso especial para agentes verificados, semelhante a um "fast track". Os agentes não precisam simular cliques ou entradas humanas, mas seguem um caminho de API mais estável para completar pedidos, pagamentos ou consultas de dados.

Discussão do W3C: O World Wide Web Consortium (W3C) está atualmente pesquisando como estabelecer um canal padronizado para a "automação gerida". Isso significa que, no futuro, poderemos ter um conjunto de regras globais que permitam que agentes confiáveis sejam reconhecidos e aceitos pelos sites, mantendo a segurança e a responsabilização.

Embora essas explorações ainda estejam em uma fase inicial, uma vez implementadas, podem melhorar significativamente a relação entre humanos ↔ agentes ↔ sites. Imagine: não haverá mais a necessidade de agentes imitarem desesperadamente o movimento do mouse humano para "enganar" a gestão de riscos, mas sim completarem tarefas de forma transparente através de um canal "oficialmente permitido".

Nesta rota, a infraestrutura nativa de criptomoeda pode ser a primeira a dar início. Isso porque as aplicações em blockchain dependem naturalmente de APIs abertas e contratos inteligentes, sendo favoráveis à automação. Em comparação, as plataformas tradicionais Web2 podem continuar a defender-se cautelosamente, especialmente as empresas que dependem de publicidade ou sistemas de combate à fraude. Mas à medida que os usuários e as empresas gradualmente aceitam o aumento da eficiência trazido pela automação, essas tentativas de padronização provavelmente se tornarão um catalisador-chave para impulsionar toda a internet em direção a uma "arquitetura de prioridade de agente".

Conclusão

Os proxies de navegador estão evoluindo de ferramentas de diálogo simples para sistemas autônomos capazes de realizar fluxos de trabalho online complexos. Essa transformação reflete uma tendência mais ampla: incorporar a automação diretamente na interface central de interação do usuário com a internet. Embora o potencial para aumentar a produtividade seja enorme, os desafios também são severos, incluindo como superar mecanismos anti-robô profundamente enraizados e como garantir segurança, confiança e um uso responsável.

A curto prazo, a melhoria nas capacidades de raciocínio dos agentes, a velocidade mais rápida, a integração mais estreita com os serviços existentes e os avanços nas redes distribuídas podem gradualmente aumentar a fiabilidade. A longo prazo, podemos começar a ver a implementação gradual de padrões "amigáveis aos agentes" em cenários que beneficiam ambas as partes, prestadores de serviços e usuários, através da automação. No entanto, essa transição não será uniforme: em ambientes amigáveis à automação, como o DeFi, a adoção será mais rápida; enquanto em plataformas Web2 que dependem fortemente do controle da interação do usuário, a aceitação será mais lenta.

No futuro, a concorrência entre empresas de tecnologia concentrar-se-á cada vez mais nos seguintes aspectos: como a sua capacidade de navegação opera sob restrições do mundo real, se podem ser integradas com segurança em fluxos de trabalho críticos e se conseguem entregar resultados de forma estável em ambientes online diversificados. Quanto a saber se tudo isso acabará por remodelar a "guerra dos navegadores", não depende apenas da força técnica, mas sim de se conseguir estabelecer confiança, alinhar incentivos e demonstrar um valor real no uso diário.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#Institutions Hold 10M+ ETH
7k Popularidade
#MicroStrategy Loosens Stock Rules
6k Popularidade
#Show My Alpha Points
164k Popularidade
#BTC ETFs Top $153B in Holdings
21k Popularidade
#Gate July Transparency Report
20k Popularidade

Pino