Cuando tu navegador se convierte en un proxy

2025-08-18 16:09:45

Autor: Mario Chow & Figo @IOSG

Introducción

En los últimos 12 meses, la relación entre los navegadores web y la automatización ha cambiado drásticamente. Casi todas las grandes empresas tecnológicas están compitiendo para construir agentes de navegador autónomos. A partir de finales de 2024, esta tendencia se vuelve cada vez más evidente: OpenAI lanzó el modo Agente en enero, Anthropic presentó la función de "uso de computadora" para el modelo Claude, Google DeepMind lanzó el Proyecto Mariner, Opera anunció el navegador tipo agente Neon, y Perplexity AI lanzó el navegador Comet. La señal es muy clara: el futuro de la IA radica en agentes que puedan navegar por la web de manera autónoma.

Esta tendencia no se trata simplemente de agregar chatbots más inteligentes a los navegadores, sino de un cambio fundamental en la forma en que las máquinas interactúan con el entorno digital. Los agentes de navegador son una clase de sistemas de IA que pueden "ver" páginas web y tomar acciones: hacer clic en enlaces, completar formularios, desplazarse por páginas, ingresar texto: como lo haría un usuario humano. Este modelo promete liberar una enorme productividad y valor económico, ya que puede automatizar tareas que actualmente aún requieren intervención humana o que son demasiado complejas para ser realizadas por scripts tradicionales.

▲ GIF demostración: operación real del proxy del navegador AI: seguir instrucciones, navegar a la página del conjunto de datos objetivo, capturar automáticamente la pantalla y extraer los datos necesarios.

¿Quién ganará la guerra de los navegadores de IA?

Casi todas las grandes empresas tecnológicas (así como algunas startups) están desarrollando sus propios esquemas de agentes de IA para navegadores. A continuación, se presentan algunos de los proyectos más representativos:

OpenAI – Modo Agente

El modo Agente de OpenAI (anteriormente llamado Operador, lanzado en enero de 2025) es un agente de IA que viene con un navegador. El Operador puede manejar una variedad de tareas en línea repetitivas: por ejemplo, completar formularios web, pedir víveres, programar reuniones: todo se realiza a través de interfaces web estándar comúnmente utilizadas por los humanos.

▲ AI agente organiza reuniones como un asistente profesional: verifica el calendario, busca franjas horarias disponibles, crea eventos, envía confirmaciones y genera un archivo .ics para ti.

Anthropic – Claude de "Uso de la Computadora":

A finales de 2024, Anthropic introdujo una nueva función llamada "Computer Use" para Claude 3.5, que le otorga la capacidad de operar computadoras y navegadores como un humano. Claude puede ver la pantalla, mover el cursor, hacer clic en botones e ingresar texto. Esta es la primera herramienta de agente de modelo grande de su tipo en entrar en versión beta pública, permitiendo a los desarrolladores hacer que Claude navegue automáticamente por sitios web y aplicaciones. Anthropic lo posiciona como una función experimental, cuyo objetivo principal es automatizar flujos de trabajo de múltiples pasos en la web.

Perplejidad – Cometa

La startup de IA Perplexity (famosa por su motor de preguntas y respuestas) lanzó el navegador Comet a mediados de 2025, como una alternativa impulsada por IA a Chrome. El núcleo de Comet es un motor de búsqueda conversacional integrado en la barra de direcciones (omnibox), que puede ofrecer respuestas instantáneas y resúmenes, en lugar de enlaces de búsqueda tradicionales.

Además, Comet también incluye Comet Assistant, un agente que reside en la barra lateral y puede ejecutar automáticamente tareas diarias a través de sitios web. Por ejemplo, puede resumir los correos electrónicos que tienes abiertos, programar reuniones, gestionar las pestañas del navegador o navegar y extraer información de páginas web en tu nombre.

A través de la interfaz de la barra lateral, los agentes pueden percibir el contenido actual de la página web; Comet tiene como objetivo integrar sin problemas la navegación con asistentes de IA.

Escenarios de aplicación reales de un proxy de navegador

En el texto anterior, ya hemos revisado cómo las principales empresas de tecnología (OpenAI, Anthropic, Perplexity, etc.) inyectan funcionalidades en los agentes de navegador a través de diferentes formas de productos. Para entender mejor su valor, podemos observar más de cerca cómo estas capacidades se aplican en la vida cotidiana y en los flujos de trabajo empresariales en escenarios reales.

Automatización diaria de páginas web

Comercio electrónico y compras personales

Un escenario muy práctico es delegar las tareas de compra y reserva a un agente. El agente puede llenar automáticamente tu carrito de compras en línea y realizar el pedido según una lista fija, o puede buscar el precio más bajo entre varios minoristas y completar el proceso de pago en tu nombre.

Para viajar, puedes hacer que la IA realice tareas como: "Ayúdame a reservar un vuelo a Tokio el próximo mes (con un precio inferior a 800 dólares), y reserva un hotel que tenga Wi-Fi gratis." El agente manejará todo el proceso: buscar vuelos, comparar opciones, completar la información del pasajero y finalizar la reserva del hotel, todo a través de sitios web de aerolíneas y hoteles. Este nivel de automatización supera con creces a los robots de viaje existentes: no solo recomienda, sino que ejecuta directamente la compra.

Mejorar la eficiencia en la oficina

Los agentes pueden automatizar muchas de las operaciones comerciales repetitivas que las personas realizan en los navegadores. Por ejemplo, organizar correos electrónicos y extraer tareas pendientes, o verificar espacios libres en múltiples calendarios y programar reuniones automáticamente. El asistente Comet de Perplexity ya puede resumir el contenido de tu bandeja de entrada a través de una interfaz web, o añadir eventos a tu agenda. Los agentes también pueden, con tu autorización, iniciar sesión en herramientas SaaS para generar informes regulares, actualizar hojas de cálculo o enviar formularios. Imagina un agente de recursos humanos que puede iniciar sesión automáticamente en diferentes sitios de reclutamiento para publicar ofertas de trabajo; o un agente de ventas que puede actualizar los datos de clientes potenciales en el sistema CRM. Estas tareas diarias podrían consumir mucho tiempo del personal, pero la IA puede completarlas mediante la automatización de formularios y operaciones en páginas web.

Además de tareas individuales, el agente puede conectar un flujo de trabajo completo que abarca múltiples sistemas de red. Todos estos pasos requieren operar en diferentes interfaces web, y esa es la fortaleza del agente de navegador. El agente puede iniciar sesión en varios paneles para solucionar problemas, e incluso orquestar procesos, como completar el proceso de incorporación de nuevos empleados (creando cuentas en varios sitios web de SaaS). En esencia, cualquier operación de múltiples pasos que actualmente requiera abrir múltiples sitios web puede ser realizada por el agente.

Los desafíos y limitaciones actuales

A pesar de su gran potencial, los proxies de navegador de hoy todavía están lejos de ser perfectos. Las implementaciones actuales revelan algunos problemas técnicos y de infraestructura que han existido durante mucho tiempo:

Arquitectura no coincidente

Las redes modernas están diseñadas para navegadores operados por humanos y, a lo largo del tiempo, han evolucionado para resistir activamente la automatización. Los datos a menudo están enterrados en HTML/CSS optimizados para la visualización, limitados por gestos de interacción (como el desplazamiento o el hover del mouse), o solo se pueden acceder mediante API no públicas.

Sobre esta base, los sistemas de anti-bots y anti-fraude han añadido barreras adicionales de manera artificial. Estas herramientas combinan la reputación de IP, huellas dactilares del navegador, desafíos de JavaScript y análisis de comportamiento (por ejemplo, la aleatoriedad del movimiento del ratón, el ritmo de tecleo, el tiempo de permanencia). Paradoja, cuanto más "perfectos" y eficientes se comportan los agentes de IA: como llenar formularios instantáneamente, sin cometer errores, más fácil es que sean identificados como automatización maliciosa. Esto puede llevar a fallos duros: por ejemplo, los agentes de OpenAI o Google pueden completar todos los pasos previos al pago sin problemas, pero finalmente pueden ser detenidos por un CAPTCHA o un filtro de seguridad secundario.

La interfaz optimizada por humanos y la capa de defensa poco amigable para los robots se superponen, obligando a los agentes a adoptar una vulnerable estrategia de "imitación humano-máquina". Este enfoque es muy propenso a fallar, con una baja tasa de éxito (si no hay intervención humana, la tasa de finalización de transacciones completas sigue siendo inferior a un tercio).

Preocupaciones sobre la confianza y la seguridad

Para que un agente obtenga el control total, generalmente necesita acceder a información sensible: credenciales de inicio de sesión, Cookies, tokens de autenticación de dos factores e incluso información de pago. Esto genera preocupaciones que tanto los usuarios como las empresas pueden entender:

¿Qué hacer si el agente comete un error o es engañado por un sitio web malicioso?

Si el agente acepta algún término de servicio o lleva a cabo una transacción, ¿quién es el responsable?

Basado en estos riesgos, los sistemas actuales generalmente adoptan una actitud cautelosa:

Google Mariner no ingresará información de la tarjeta de crédito ni aceptará los términos del servicio, sino que los devolverá al usuario.

El operador de OpenAI le pedirá al usuario que asuma el control del inicio de sesión o del desafío CAPTCHA.

El agente impulsado por Claude de Anthropic puede rechazar directamente el inicio de sesión por razones de seguridad.

El resultado es: las frecuentes pausas y transiciones entre la IA y los humanos debilitan la experiencia de automatización sin fisuras.

A pesar de estos obstáculos, los avances siguen avanzando rápidamente. Empresas como OpenAI, Google, Anthropic, etc., aprenden de las experiencias fallidas en cada iteración. Con el aumento de la demanda, es probable que surja una "co-evolución": los sitios web se vuelven más amigables para los agentes en escenarios favorables, y los agentes también mejoran continuamente su capacidad para imitar el comportamiento humano, para sortear las barreras existentes.

Métodos y oportunidades

Los proxies de navegador actuales se enfrentan a dos realidades completamente diferentes: por un lado, un entorno hostil de Web2, donde la prevención de scraping y la defensa de seguridad están por todas partes; por otro lado, un entorno abierto de Web3, donde la automatización a menudo es fomentada. Esta diferencia determina la dirección de las diversas soluciones.

Las soluciones a continuación se dividen en dos categorías: una ayuda a los agentes a sortear el entorno hostil de Web2, mientras que la otra es nativa de Web3.

Aunque los desafíos que enfrenta el proxy del navegador siguen siendo significativos, nuevos proyectos están surgiendo constantemente, tratando de abordar estos problemas directamente. Las criptomonedas y el ecosistema de finanzas descentralizadas (DeFi) se están convirtiendo en un campo de pruebas natural, ya que es abierto, programable y menos hostil a la automatización. Las API abiertas, los contratos inteligentes y la transparencia en la cadena eliminan muchos de los puntos de fricción comunes en el mundo Web2.

A continuación se presentan cuatro tipos de soluciones, cada una de las cuales aborda una o más limitaciones centrales actuales:

Navegador nativo de tipo proxy orientado a operaciones en cadena

Estos navegadores fueron diseñados desde cero para ser impulsados por proxies autónomos y están profundamente integrados con protocolos blockchain. A diferencia del navegador Chrome tradicional, que requiere depender adicionalmente de Selenium, Playwright o complementos de billetera para automatizar operaciones en la cadena; el navegador nativo basado en proxies proporciona directamente API y rutas de ejecución confiables para las llamadas del proxy.

En las finanzas descentralizadas, la efectividad de las transacciones depende de las firmas criptográficas, no de si los usuarios "son humanos". Por lo tanto, en un entorno de cadena, los agentes pueden eludir los CAPTCHA comunes del mundo Web2, las puntuaciones de detección de fraudes y las verificaciones de huellas de dispositivos. Sin embargo, si estos navegadores apuntan a sitios web Web2 como Amazon, no podrán eludir los mecanismos de defensa relacionados, y en ese escenario aún activarán las medidas normales contra bots.

El valor de un navegador proxy no radica en su capacidad para acceder mágicamente a todos los sitios web, sino en:

Integración de blockchain nativa: soporte para billetera incorporada y firma, sin necesidad de pasar por las ventanas emergentes de MetaMask o analizar el DOM del frontend de dApp.

Diseño priorizado en automatización: proporciona instrucciones de alto nivel estables que se pueden mapear directamente a operaciones de protocolo.

Modelo de seguridad: control de permisos refinado y sandbox, asegurando que las claves privadas estén seguras durante el proceso de automatización.

Optimización del rendimiento: capaz de ejecutar múltiples llamadas en cadena en paralelo, sin necesidad de renderizado en el navegador o retraso en la interfaz de usuario.

Caso: Donut

Donut integra los datos y operaciones de blockchain como ciudadanos de primera clase. Los usuarios (o sus agentes) pueden pasar el cursor para ver los indicadores de riesgo en tiempo real de los tokens, o ingresar directamente comandos en lenguaje natural como “/swap 100 USDC a SOL”. Al evitar los puntos de fricción hostiles de Web2, Donut permite que los agentes operen a toda velocidad en DeFi, mejorando la liquidez, el arbitraje y la eficiencia del mercado.

Ejecución de agentes verificables y confiables

Es muy arriesgado otorgar permisos sensibles a los agentes. Las soluciones relacionadas utilizan entornos de ejecución de confianza (TEEs) o pruebas de conocimiento cero (ZKPs) para cifrar y confirmar el comportamiento esperado del agente antes de la ejecución, permitiendo que el usuario y la parte contraria verifiquen las acciones del agente sin revelar claves privadas o credenciales.

Caso: Phala Network

Phala utiliza TEEs (como Intel SGX) para aislar y proteger el entorno de ejecución, evitando que los operadores de Phala o los atacantes espíen o alteren la lógica y los datos del agente. El TEE es como una "sala de seguridad" respaldada por hardware, que garantiza la confidencialidad (invisible desde el exterior) e integridad (no modificable desde el exterior).

Para los proxies del navegador, esto significa que puede iniciar sesión, mantener tokens de sesión o manejar información de pago, y estos datos sensibles nunca abandonarán la sala de seguridad. Incluso si la máquina del usuario, el sistema operativo o la red son comprometidos, no se pueden filtrar. Esto alivia directamente uno de los mayores obstáculos para la implementación de aplicaciones proxy: el problema de confianza en las credenciales sensibles y las operaciones.

Red de datos estructurados descentralizados

Los sistemas modernos de detección de bots no solo verifican si las solicitudes son "demasiado rápidas" o "automatizadas", sino que también combinan la reputación de IP, las huellas dactilares del navegador, los desafíos de JavaScript y el análisis de comportamiento (como el movimiento del cursor, el ritmo de escritura y el historial de sesiones). Los proxies que provienen de IP de centros de datos o entornos de navegación completamente reproducibles son fácilmente identificables.

Para resolver este problema, este tipo de redes ya no rastrean páginas web optimizadas para humanos, sino que recopilan y proporcionan datos legibles por máquinas, o bien, dirigen el tráfico a través de agentes que simulan un entorno de navegación humano real. Este enfoque elude la vulnerabilidad de los rastreadores tradicionales en las etapas de análisis y anti-rastreo, ofreciendo así entradas más limpias y confiables para los agentes.

A través de la intermediación del tráfico de los agentes hacia estas sesiones del mundo real, la red distribuida permite que los agentes de IA accedan al contenido de la web como lo haría una persona, sin activar bloqueos de inmediato.

Caso

Grass: Red descentralizada de datos/DePIN, los usuarios comparten el ancho de banda residencial no utilizado, proporcionando así un acceso amigable con el proxy y geográficamente diverso para la recolección de datos públicos y el entrenamiento de modelos.

WootzApp: navegador móvil de código abierto que admite pagos en criptomonedas, con proxy en segundo plano e identidad de cero conocimiento; gamifica las tareas de IA/datos para los consumidores.

Sixpence: red de navegadores distribuidos que enruta el tráfico para agentes de IA a través de la navegación de contribuyentes en todo el mundo.

Sin embargo, esta no es una solución completa. La detección de comportamientos (trayectorias del mouse/desplazamiento), las limitaciones a nivel de cuenta (KYC, antigüedad de la cuenta) y las verificaciones de consistencia de huellas digitales aún pueden activar bloqueos. Por lo tanto, las redes distribuidas deben considerarse como una capa básica de ocultamiento, que debe combinarse con estrategias de ejecución que imiten a los humanos para lograr el máximo efecto.

Estándares web orientados a agentes (perspectiva)

Actualmente, cada vez más comunidades y organizaciones tecnológicas están explorando: si en el futuro los usuarios de la red no solo son personas, sino también agentes automatizados, ¿cómo deberían los sitios web interactuar con ellos de manera segura y conforme a la normativa?

Esto ha impulsado la discusión sobre algunos estándares y mecanismos emergentes, con el objetivo de permitir que los sitios web indiquen claramente "permito el acceso a agentes de confianza" y proporcionar un canal seguro para completar la interacción, en lugar de interceptar a los agentes como "ataques de robots" por defecto como se hace hoy en día.

"Agente Permitido" etiqueta: Al igual que el robots.txt que siguen los motores de búsqueda, las futuras páginas web podrían incluir una etiqueta en el código que le indique al agente del navegador "aquí se puede acceder de forma segura". Por ejemplo, si usas un agente para reservar boletos de avión, el sitio web no mostrará un montón de verificaciones (CAPTCHA), sino que proporcionará directamente una interfaz autenticada.

API Gateway para agentes verificados: El sitio web puede abrir una entrada dedicada para agentes verificados, como un "carril rápido". Los agentes no necesitan simular clics humanos o entradas, sino que siguen un camino de API más estable para completar pedidos, pagos o consultas de datos.

Discusión del W3C: El Consorcio World Wide Web (W3C) ya está investigando cómo establecer un canal estandarizado para la "automatización gestionada". Esto significa que, en el futuro, podríamos tener un conjunto de reglas globalmente aplicables que permitan a los agentes de confianza ser reconocidos y aceptados por los sitios web, manteniendo al mismo tiempo la seguridad y la responsabilidad.

Aunque estas exploraciones aún están en una etapa temprana, una vez que se implementen, podrían mejorar enormemente la relación entre humanos ↔ agentes ↔ sitios web. Imagina: ya no será necesario que los agentes intenten imitar desesperadamente los movimientos del ratón humano para "engañar" a los controles de riesgo, sino que podrán completar tareas de manera abierta a través de un canal "oficialmente permitido".

En esta ruta, la infraestructura nativa de criptomonedas podría despegar primero. Esto se debe a que las aplicaciones en cadena dependen naturalmente de APIs abiertas y contratos inteligentes, lo que es amigable con la automatización. En comparación, las plataformas tradicionales de Web2 podrían seguir defendiendo su posición con cautela, especialmente las empresas que dependen de la publicidad o sistemas antifraude. Sin embargo, a medida que los usuarios y las empresas aceptan gradualmente las mejoras de eficiencia que trae la automatización, estos intentos de estandarización podrían convertirse en un catalizador clave para impulsar a toda la internet hacia una "arquitectura prioritaria de agentes".

Conclusión

Los proxies de navegador están evolucionando de ser herramientas de diálogo simples a sistemas autónomos capaces de completar flujos de trabajo en línea complejos. Esta transformación refleja una tendencia más amplia: integrar la automatización directamente en la interfaz central de interacción del usuario con Internet. Aunque el potencial para mejorar la productividad es enorme, los desafíos también son serios, incluyendo cómo superar los mecanismos anti-robot profundamente arraigados, así como garantizar la seguridad, la confianza y un uso responsable.

A corto plazo, la mejora en la capacidad de razonamiento de los agentes, una mayor velocidad, una integración más estrecha con los servicios existentes y los avances en redes distribuidas pueden aumentar gradualmente la confiabilidad. A largo plazo, podríamos ver la implementación gradual de estándares "amigables con los agentes" en aquellos escenarios automatizados que benefician tanto a los proveedores de servicios como a los usuarios. Sin embargo, este cambio no será uniforme: en entornos automatizados como DeFi, la adopción será más rápida; mientras que en plataformas Web2 que dependen en gran medida del control de interacción del usuario, la aceptación será más lenta.

En el futuro, la competencia entre las empresas de tecnología se concentrará cada vez más en los siguientes aspectos: cómo su capacidad de navegación se limita en el mundo real, si se puede integrar de forma segura en flujos de trabajo críticos y si puede entregar resultados de manera estable en entornos en línea diversos. En cuanto a si todo esto finalmente remodelará la "guerra de los navegadores", no depende simplemente de la fuerza técnica, sino de si se puede establecer confianza, alinear incentivos y demostrar un valor tangible en el uso diario.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate July Transparency Report
11k Popularidad
#BTC ETFs Top $153B in Holdings
16k Popularidad
#Fed Ends Novel Activities Supervision
14k Popularidad
#Bit Digital’s Pivot Pays Off
6k Popularidad
#ETH Surge Team Battle is Here
2k Popularidad

Anclado