Trong 12 tháng qua, mối quan hệ giữa trình duyệt web và tự động hóa đã thay đổi mạnh mẽ. Hầu hết các công ty công nghệ lớn đều đang chạy đua để xây dựng các đại lý trình duyệt tự chủ. Xu hướng này càng trở nên rõ ràng hơn bắt đầu từ cuối năm 2024: OpenAI đã ra mắt chế độ Đại lý vào tháng 1, Anthropic đã phát hành tính năng "sử dụng máy tính" cho mô hình Claude, Google DeepMind đã ra mắt Dự án Mariner, Opera đã công bố trình duyệt đại lý Neon, trong khi Perplexity AI đã ra mắt trình duyệt Comet. Tín hiệu rất rõ ràng: Tương lai của AI nằm ở khả năng tự động điều hướng các trang web.
Xu hướng này không chỉ đơn thuần là thêm những chatbot thông minh vào trình duyệt, mà là sự chuyển biến căn bản trong cách mà máy móc tương tác với môi trường số. Trình duyệt đại diện là một loại hệ thống AI có khả năng "nhìn" vào trang web và thực hiện hành động: nhấp vào liên kết, điền vào biểu mẫu, cuộn trang, nhập văn bản: giống như người dùng thực. Mô hình này hứa hẹn sẽ giải phóng năng suất và giá trị kinh tế khổng lồ, vì nó có thể tự động hóa những nhiệm vụ mà hiện tại vẫn cần thao tác thủ công, hoặc mà các kịch bản truyền thống quá phức tạp để thực hiện.
▲ GIF trình diễn: Hoạt động thực tế của trình duyệt AI proxy: Theo hướng dẫn, điều hướng đến trang dữ liệu mục tiêu, tự động chụp màn hình và trích xuất dữ liệu cần thiết.
Ai sẽ giành chiến thắng trong cuộc chiến trình duyệt AI?
Hầu hết các công ty công nghệ lớn (cùng với một số công ty khởi nghiệp) đều đang phát triển các giải pháp đại lý AI trình duyệt của riêng họ. Dưới đây là một số dự án tiêu biểu nhất:
OpenAI – Chế độ Agent
Chế độ Agent của OpenAI (trước đây có tên là Operator, ra mắt vào tháng 1 năm 2025) là một AI đại lý tích hợp trình duyệt. Operator có khả năng xử lý nhiều nhiệm vụ trực tuyến lặp đi lặp lại: chẳng hạn như điền vào các biểu mẫu trên web, đặt hàng tạp hóa, sắp xếp cuộc họp: tất cả đều được thực hiện thông qua giao diện web tiêu chuẩn mà con người thường sử dụng.
▲ AI đại lý sắp xếp cuộc họp như một trợ lý chuyên nghiệp: kiểm tra lịch, tìm khoảng thời gian trống, tạo sự kiện, gửi xác nhận và tạo cho bạn tệp .ics.
Anthropic – Claude của "Sử Dụng Máy Tính":
Vào cuối năm 2024, Anthropic đã giới thiệu tính năng hoàn toàn mới "Computer Use (Sử dụng máy tính)" cho Claude 3.5, cho phép nó hoạt động trên máy tính và trình duyệt giống như con người. Claude có thể nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút, nhập văn bản. Đây là công cụ đại diện mô hình lớn đầu tiên trong loại này bước vào phiên bản thử nghiệm công khai, các nhà phát triển có thể khiến Claude tự động điều hướng các trang web và ứng dụng. Anthropic định vị đây là một tính năng thử nghiệm, với mục tiêu chính là tự động hóa quy trình làm việc nhiều bước trên web.
Perplexity – Comet
Công ty khởi nghiệp AI Perplexity (nổi tiếng với công cụ hỏi đáp) đã ra mắt trình duyệt Comet vào giữa năm 2025, như một sự thay thế được hỗ trợ bởi AI cho Chrome. Trung tâm của Comet là một công cụ tìm kiếm AI hội thoại được tích hợp trong thanh địa chỉ (omnibox), có khả năng cung cấp câu trả lời và tóm tắt ngay lập tức, thay vì các liên kết tìm kiếm truyền thống.
Ngoài ra, Comet còn tích hợp Comet Assistant, đây là một tác vụ nằm ở thanh bên có thể tự động thực hiện các nhiệm vụ hàng ngày trên nhiều trang web. Ví dụ, nó có thể tóm tắt các email bạn đã mở, sắp xếp các cuộc họp, quản lý các tab trình duyệt hoặc đại diện cho bạn duyệt và thu thập thông tin từ các trang web.
Thông qua giao diện thanh bên, cho phép đại lý nhận biết nội dung trang web hiện tại, Comet nhằm mục đích tích hợp liền mạch việc duyệt web với trợ lý AI.
Ứng dụng thực tế của proxy trình duyệt
Trong phần trước, chúng ta đã xem xét cách các công ty công nghệ lớn (OpenAI, Anthropic, Perplexity, v.v.) đã tiêm chức năng vào các tác nhân trình duyệt (browser agents) thông qua các hình thức sản phẩm khác nhau. Để hiểu rõ hơn về giá trị của chúng, chúng ta có thể xem xét thêm cách những khả năng này được áp dụng vào cuộc sống hàng ngày và quy trình làm việc của doanh nghiệp trong các tình huống thực tế.
Tự động hóa trang web hàng ngày
Thương mại điện tử và mua sắm cá nhân
Một kịch bản rất thực tế là ủy thác việc mua sắm và đặt hàng cho các đại lý. Đại lý có thể tự động điền giỏ hàng trực tuyến của bạn và đặt hàng theo danh sách cố định, hoặc tìm kiếm giá thấp nhất giữa nhiều nhà bán lẻ và hoàn thành quy trình thanh toán thay cho bạn.
Đối với việc du lịch, bạn có thể yêu cầu AI thực hiện các nhiệm vụ như: "Giúp tôi đặt vé máy bay đến Tokyo vào tháng tới (giá dưới 800 đô la), sau đó đặt một khách sạn có Wi-Fi miễn phí." Đại lý sẽ xử lý toàn bộ quy trình: tìm kiếm chuyến bay, so sánh các tùy chọn, điền thông tin hành khách, hoàn tất việc đặt phòng khách sạn, tất cả đều được thực hiện thông qua các trang web của hãng hàng không và khách sạn. Mức độ tự động hóa này vượt xa những robot du lịch hiện có: nó không chỉ đơn thuần là gợi ý mà còn thực hiện việc mua sắm trực tiếp.
Nâng cao hiệu quả làm việc
Đại lý có thể tự động hóa nhiều thao tác kinh doanh lặp đi lặp lại mà mọi người thực hiện trong trình duyệt. Ví dụ, sắp xếp email và trích xuất danh sách việc cần làm, hoặc kiểm tra các khoảng trống trong nhiều lịch và tự động lên lịch họp. Trợ lý Comet của Perplexity hiện có thể tóm tắt nội dung hộp thư đến của bạn qua giao diện web, hoặc thêm lịch cho bạn. Đại lý cũng có thể đăng nhập vào các công cụ SaaS để tạo báo cáo định kỳ, cập nhật bảng tính, hoặc gửi biểu mẫu khi có sự cho phép của bạn. Hãy tưởng tượng một đại lý nhân sự có thể tự động đăng nhập vào các trang web tuyển dụng khác nhau để đăng tin tuyển dụng; hoặc một đại lý bán hàng có thể cập nhật dữ liệu khách hàng tiềm năng trong hệ thống CRM. Những công việc vặt vãnh hàng ngày này lẽ ra sẽ tiêu tốn một lượng lớn thời gian của nhân viên, nhưng AI có thể hoàn thành thông qua việc tự động hóa các biểu mẫu và thao tác trên trang web.
Ngoài nhiệm vụ đơn lẻ, đại lý còn có thể kết nối các quy trình làm việc hoàn chỉnh trên nhiều hệ thống mạng khác nhau. Tất cả các bước này đều cần thao tác trên các giao diện web khác nhau, và đây chính là điểm mạnh của trình duyệt đại lý. Đại lý có thể đăng nhập vào nhiều bảng điều khiển để khắc phục sự cố, thậm chí lập trình quy trình, chẳng hạn như hoàn tất quy trình tuyển dụng cho nhân viên mới (tạo tài khoản trên nhiều trang web SaaS). Về bản chất, bất kỳ thao tác đa bước nào hiện tại cần mở nhiều trang web để hoàn thành đều có thể được giao cho đại lý thực hiện.
Những thách thức và hạn chế hiện tại
Mặc dù tiềm năng rất lớn, nhưng các trình duyệt proxy hiện nay vẫn còn cách hoàn hảo một khoảng cách khá xa. Các triển khai hiện tại đã cho thấy một số vấn đề kỹ thuật và hạ tầng tồn tại từ lâu:
Kiến trúc không phù hợp
Mạng hiện đại được thiết kế cho trình duyệt do con người vận hành và theo thời gian đã dần phát triển thành một hệ thống chủ động chống lại tự động hóa. Dữ liệu thường bị ẩn giấu trong HTML/CSS được tối ưu hóa cho việc trình bày trực quan, bị giới hạn bởi các cử chỉ tương tác (di chuột qua, trượt) hoặc chỉ có thể truy cập thông qua các API không công khai.
Trên cơ sở đó, hệ thống chống thu thập dữ liệu và chống gian lận đã nhân tạo thêm các rào cản bổ sung. Những công cụ này kết hợp danh tiếng IP, dấu vân tay trình duyệt, phản hồi thử thách JavaScript và phân tích hành vi (chẳng hạn như tính ngẫu nhiên trong di chuyển chuột, nhịp gõ phím, thời gian dừng lại). Mâu thuẫn là, các đại lý AI càng thể hiện "hoàn hảo", hiệu suất càng cao: chẳng hạn như điền biểu mẫu ngay lập tức, không bao giờ mắc lỗi, thì càng dễ bị nhận diện là tự động hóa độc hại. Điều này có thể dẫn đến thất bại cứng nhắc: chẳng hạn như đại lý của OpenAI hoặc Google có thể hoàn thành tất cả các bước trước khi thanh toán một cách trơn tru, nhưng cuối cùng lại bị chặn bởi CAPTCHA hoặc bộ lọc bảo mật thứ hai.
Giao diện được tối ưu hóa cho con người và lớp phòng thủ không thân thiện với robot chồng chéo lên nhau, buộc các đại lý phải áp dụng chiến lược "mô phỏng con người" yếu ớt. Phương pháp này rất dễ thất bại, tỷ lệ thành công thấp (nếu không có sự can thiệp của con người, tỷ lệ hoàn thành giao dịch đầy đủ vẫn chưa đến một phần ba).
Lo ngại về niềm tin và an toàn
Để cho phép đại lý có quyền kiểm soát hoàn toàn, thường cần truy cập vào thông tin nhạy cảm: thông tin đăng nhập, Cookies, mã xác thực hai yếu tố, thậm chí thông tin thanh toán. Điều này gây ra những lo ngại mà cả người dùng và doanh nghiệp đều có thể hiểu:
Nếu đại lý gặp lỗi hoặc bị lừa đảo bởi trang web độc hại thì phải làm sao?
Nếu đại lý đồng ý với điều khoản dịch vụ nào đó hoặc thực hiện một giao dịch, ai sẽ chịu trách nhiệm?
Dựa trên những rủi ro này, hệ thống hiện tại thường áp dụng thái độ thận trọng:
Mariner của Google sẽ không nhập thông tin thẻ tín dụng hoặc đồng ý với các điều khoản dịch vụ, mà sẽ trả lại cho người dùng.
Operator của OpenAI sẽ nhắc nhở người dùng tiếp quản đăng nhập hoặc thử thách CAPTCHA.
Đại lý được điều khiển bởi Claude của Anthropic có thể từ chối đăng nhập trực tiếp với lý do an ninh.
Kết quả là: Sự dừng lại và chuyển giao thường xuyên giữa AI và con người đã làm giảm trải nghiệm tự động hóa liền mạch.
Mặc dù có những rào cản này, tiến triển vẫn đang diễn ra nhanh chóng. Các công ty như OpenAI, Google, Anthropic đều rút ra bài học từ những thất bại trong mỗi vòng lặp lặp lại. Với sự gia tăng nhu cầu, rất có khả năng sẽ xuất hiện một "sự tiến hóa chung": các trang web trở nên thân thiện hơn với các đại lý trong những bối cảnh thuận lợi, trong khi các đại lý cũng sẽ liên tục nâng cao khả năng bắt chước hành vi của con người để vượt qua các rào cản hiện có.
Phương pháp và cơ hội
Các proxy trình duyệt hiện tại đang đối mặt với hai thực tế hoàn toàn khác nhau: một mặt là môi trường thù địch của Web2, với các biện pháp chống thu thập dữ liệu và phòng chống an ninh ở khắp mọi nơi; mặt khác là môi trường mở của Web3, nơi tự động hóa thường được khuyến khích. Sự khác biệt này quyết định hướng đi của các giải pháp khác nhau.
Các giải pháp dưới đây được chia thành hai loại chính: một loại giúp các đại lý vượt qua môi trường thù địch của Web2, loại còn lại là các giải pháp bản địa của Web3.
Mặc dù các thách thức mà trình duyệt proxy phải đối mặt vẫn còn đáng kể, nhưng những dự án mới đang liên tục xuất hiện, cố gắng giải quyết trực tiếp những vấn đề này. Tiền điện tử và hệ sinh thái tài chính phi tập trung (DeFi) đang trở thành những sân chơi tự nhiên cho thử nghiệm, vì chúng mở, có thể lập trình, và ít thù địch hơn với tự động hóa. API mở, hợp đồng thông minh và tính minh bạch trên chuỗi đã loại bỏ nhiều điểm ma sát thường thấy trong thế giới Web2.
Dưới đây là bốn loại giải pháp, mỗi loại đều nhằm giải quyết một hoặc nhiều hạn chế cốt lõi hiện tại:
Trình duyệt gốc kiểu đại lý hướng đến các hoạt động trên chuỗi
Những trình duyệt này được thiết kế từ đầu cho việc điều khiển proxy tự chủ và tích hợp sâu với giao thức blockchain. Khác với trình duyệt Chrome truyền thống, mà để thực hiện tự động hóa các thao tác trên chuỗi cần phải phụ thuộc thêm vào Selenium, Playwright hoặc tiện ích mở rộng ví; trong khi đó, trình duyệt proxy gốc cung cấp ngay API và đường dẫn thực thi đáng tin cậy để cho proxy gọi.
Trong tài chính phi tập trung, hiệu quả của giao dịch phụ thuộc vào chữ ký mã hóa, chứ không phải là người dùng có "giống con người" hay không. Do đó, trong môi trường chuỗi, các đại lý có thể vượt qua CAPTCHA, điểm phát hiện gian lận và kiểm tra dấu vân tay thiết bị thường thấy trong thế giới Web2. Tuy nhiên, nếu những trình duyệt này hướng tới các trang Web2 như Amazon, chúng sẽ không thể vượt qua các cơ chế phòng thủ liên quan, trong trường hợp đó vẫn sẽ kích hoạt các biện pháp chống bot bình thường.
Giá trị của trình duyệt proxy không phải ở chỗ có thể thần kỳ truy cập tất cả các trang web, mà là:
Tích hợp blockchain gốc: ví tích hợp và hỗ trợ ký, không cần phải qua cửa sổ bật lên MetaMask hoặc phân tích DOM front-end của dApp.
Thiết kế ưu tiên tự động hóa: Cung cấp các chỉ thị cấp cao ổn định, có thể trực tiếp ánh xạ thành các thao tác giao thức.
Mô hình bảo mật: Kiểm soát quyền chi tiết và sandbox, đảm bảo rằng khóa riêng được an toàn trong quá trình tự động hóa.
Tối ưu hóa hiệu suất: có thể thực hiện nhiều cuộc gọi trên chuỗi song song mà không cần trình duyệt hiển thị hoặc độ trễ UI.
Ví dụ: Donut
Donut tích hợp dữ liệu và hoạt động blockchain như những công dân hạng nhất. Người dùng (hoặc đại lý của họ) có thể di chuột để xem chỉ số rủi ro theo thời gian thực của token, hoặc nhập trực tiếp các lệnh bằng ngôn ngữ tự nhiên như “/swap 100 USDC to SOL”. Bằng cách bỏ qua các điểm ma sát thù địch của Web2, Donut cho phép các đại lý hoạt động với tốc độ tối đa trong DeFi, nâng cao tính thanh khoản, cơ hội chênh lệch giá và hiệu quả thị trường.
Thực thi đại lý có thể xác minh và đáng tin cậy
Việc cấp quyền nhạy cảm cho đại lý có rủi ro rất lớn. Các giải pháp liên quan sử dụng môi trường thực thi đáng tin cậy (TEEs) hoặc bằng chứng không kiến thức (ZKPs) để mã hóa và xác nhận hành vi mong đợi của đại lý trước khi thực hiện, cho phép người dùng và bên đối tác xác thực hành động của đại lý mà không tiết lộ khóa riêng hoặc chứng từ.
Ví dụ: Phala Network
Phala sử dụng TEE (như Intel SGX) để cô lập và bảo vệ môi trường thực thi, từ đó tránh được việc các nhà vận hành Phala hoặc kẻ tấn công nhìn trộm hoặc sửa đổi logic và dữ liệu đại lý. TEE giống như một "phòng an toàn" được hỗ trợ bởi phần cứng, đảm bảo tính bảo mật (không thể nhìn thấy từ bên ngoài) và tính toàn vẹn (không thể sửa đổi từ bên ngoài).
Đối với trình duyệt proxy, điều này có nghĩa là nó có thể đăng nhập, giữ token phiên, hoặc xử lý thông tin thanh toán, và những dữ liệu nhạy cảm này sẽ không bao giờ rời khỏi phòng an toàn. Ngay cả khi máy tính, hệ điều hành hoặc mạng của người sử dụng bị xâm nhập, cũng không thể rò rỉ. Điều này trực tiếp giảm nhẹ một trong những rào cản lớn nhất đối với việc triển khai ứng dụng proxy: vấn đề lòng tin đối với chứng chỉ nhạy cảm và các thao tác.
Mạng dữ liệu có cấu trúc phi tập trung
Hệ thống phát hiện robot hiện đại không chỉ kiểm tra xem yêu cầu có "quá nhanh" hoặc "tự động hóa" hay không, mà còn kết hợp uy tín IP, dấu vân tay trình duyệt, phản hồi thách thức JavaScript và phân tích hành vi (chẳng hạn như chuyển động con trỏ, nhịp gõ phím, lịch sử phiên). Những proxy đến từ IP trung tâm dữ liệu hoặc môi trường trình duyệt hoàn toàn có thể lặp lại dễ dàng bị nhận diện.
Để giải quyết vấn đề này, các mạng này không còn thu thập các trang web được tối ưu hóa cho con người, mà thay vào đó là thu thập và cung cấp dữ liệu có thể đọc được bởi máy, hoặc thông qua việc sử dụng lưu lượng từ môi trường duyệt web thực của con người. Cách tiếp cận này đã vượt qua được những điểm yếu của các trình thu thập dữ liệu truyền thống trong quá trình phân tích và chống thu thập dữ liệu, và có thể cung cấp đầu vào sạch hơn, đáng tin cậy hơn cho các đại lý.
Thông qua việc chuyển tiếp lưu lượng đại lý đến các phiên thực tế này, mạng lưới phân phối cho phép các đại lý AI truy cập nội dung web như con người mà không bị chặn ngay lập tức.
Ví dụ
Grass: Mạng dữ liệu phi tập trung/DePIN, người dùng chia sẻ băng thông rộng nhà ở không sử dụng, nhằm cung cấp các kênh truy cập thân thiện với proxy và đa dạng địa lý cho việc thu thập dữ liệu trang web công cộng và đào tạo mô hình.
WootzApp: Trình duyệt di động mã nguồn mở hỗ trợ thanh toán bằng tiền điện tử, đi kèm với proxy nền và danh tính không tiết lộ; nó đã "game hóa" nhiệm vụ AI/dữ liệu cho người tiêu dùng.
Sixpence: Mạng trình duyệt phân tán, định tuyến lưu lượng cho các đại lý AI thông qua việc duyệt web của những người đóng góp toàn cầu.
Tuy nhiên, đây không phải là giải pháp hoàn chỉnh. Phát hiện hành vi (đường đi chuột/cuộn), các giới hạn cấp tài khoản (KYC, tuổi tài khoản) và kiểm tra sự nhất quán của dấu vân tay vẫn có thể kích hoạt khóa tài khoản. Do đó, mạng lưới phân tán tốt nhất nên được xem như là lớp ẩn giấu cơ bản, cần kết hợp với các chiến lược thực thi mô phỏng con người để đạt được hiệu quả tối đa.
Tiêu chuẩn web cho đại lý (tương lai)
Hiện nay, ngày càng nhiều cộng đồng và tổ chức công nghệ đang khám phá: Nếu trong tương lai, người dùng mạng không chỉ là con người mà còn là các đại lý tự động (agent), thì các trang web nên xử lý chúng một cách an toàn và tuân thủ như thế nào?
Điều này đã thúc đẩy cuộc thảo luận về một số tiêu chuẩn và cơ chế mới nổi, với mục tiêu là cho phép các trang web rõ ràng thể hiện "Tôi cho phép đại lý đáng tin cậy truy cập" và cung cấp một kênh an toàn để hoàn thành tương tác, thay vì mặc định coi đại lý như "cuộc tấn công của robot" như hiện nay.
"Nhãn Được Cho Phép" : Giống như robots.txt mà các công cụ tìm kiếm tuân theo, trong tương lai, các trang web có thể thêm một nhãn vào mã của chúng, cho biết trình duyệt rằng "đây là nơi có thể truy cập an toàn". Chẳng hạn, nếu bạn sử dụng proxy để đặt vé máy bay, trang web sẽ không hiện ra hàng loạt mã xác nhận (CAPTCHA), mà sẽ cung cấp một giao diện đã được xác thực.
Cổng API của đại lý được chứng nhận: Trang web có thể mở ra lối vào chuyên biệt cho các đại lý đã được xác thực, giống như "lối đi nhanh". Đại lý không cần phải giả lập việc nhấp chuột hay nhập liệu của con người, mà thay vào đó, đi theo một con đường API ổn định hơn để thực hiện đặt hàng, thanh toán hoặc truy vấn dữ liệu.
Thảo luận của W3C: Tổ chức W3C đã nghiên cứu cách để thiết lập các kênh tiêu chuẩn cho "tự động hóa có kiểm soát". Điều này có nghĩa là, trong tương lai, chúng ta có thể có một bộ quy tắc toàn cầu chung, cho phép các đại lý đáng tin cậy được các trang web nhận diện và chấp nhận, đồng thời duy trì tính an toàn và khả năng truy cứu.
Mặc dù những khám phá này vẫn đang ở giai đoạn đầu, nhưng một khi được triển khai, chúng có thể cải thiện rất lớn mối quan hệ giữa con người ↔ đại lý ↔ trang web. Hãy tưởng tượng: không còn cần đại lý phải cố gắng mô phỏng chuyển động chuột của con người để "lừa" hệ thống kiểm soát rủi ro, mà thay vào đó là hoàn thành nhiệm vụ một cách minh bạch thông qua một kênh "được chính thức cho phép".
Trên tuyến đường này, cơ sở hạ tầng gốc của tiền mã hóa có thể khởi đầu trước tiên. Bởi vì các ứng dụng trên chuỗi vốn dĩ phụ thuộc vào API mở và hợp đồng thông minh, chúng thân thiện với tự động hóa. Ngược lại, các nền tảng Web2 truyền thống có thể vẫn tiếp tục phòng thủ một cách thận trọng, đặc biệt là các công ty phụ thuộc vào quảng cáo hoặc hệ thống chống gian lận. Nhưng khi người dùng và doanh nghiệp dần chấp nhận sự nâng cao hiệu suất do tự động hóa mang lại, những nỗ lực tiêu chuẩn hóa này rất có thể trở thành chất xúc tác chính thúc đẩy toàn bộ internet tiến tới “kiến trúc ưu tiên đại lý”.
Kết luận
Trình duyệt proxy đang từ một công cụ trò chuyện đơn giản ban đầu, phát triển thành một hệ thống tự chủ có khả năng hoàn thành các quy trình làm việc trực tuyến phức tạp. Sự chuyển mình này phản ánh một xu hướng rộng hơn: nhúng tự động hóa trực tiếp vào giao diện cốt lõi mà người dùng tương tác với Internet. Mặc dù tiềm năng nâng cao năng suất là rất lớn, nhưng những thách thức cũng rất nghiêm trọng, bao gồm cách vượt qua các cơ chế chống robot đã ăn sâu và cách đảm bảo an ninh, độ tin cậy và cách sử dụng có trách nhiệm.
Trong ngắn hạn, khả năng suy luận của các đại lý sẽ được cải thiện, tốc độ nhanh hơn, tích hợp chặt chẽ hơn với các dịch vụ hiện có, cũng như những tiến bộ của mạng phân tán, có thể dần dần nâng cao độ tin cậy. Về lâu dài, chúng ta có thể sẽ thấy sự triển khai dần dần của tiêu chuẩn "thân thiện với đại lý" trong những kịch bản tự động hóa có lợi cho cả nhà cung cấp dịch vụ và người dùng. Tuy nhiên, sự chuyển biến này sẽ không đồng đều: trong những môi trường thân thiện với tự động hóa như DeFi, tốc độ tiếp nhận sẽ nhanh hơn; trong khi đó, trên các nền tảng Web2 phụ thuộc nhiều vào tương tác của người dùng, mức độ chấp nhận sẽ chậm hơn.
Trong tương lai, sự cạnh tranh giữa các công ty công nghệ sẽ ngày càng tập trung vào một số khía cạnh sau: khả năng điều hướng của chúng trong các giới hạn của thế giới thực, liệu có thể tích hợp an toàn vào các quy trình công việc quan trọng hay không, và liệu có thể ổn định cung cấp kết quả trong các môi trường trực tuyến đa dạng hay không. Còn về việc liệu tất cả điều này có cuối cùng tái định hình "cuộc chiến trình duyệt" hay không, không chỉ phụ thuộc vào sức mạnh công nghệ đơn thuần, mà còn vào khả năng xây dựng lòng tin, đồng bộ hóa động lực, và thể hiện giá trị thực trong việc sử dụng hàng ngày.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Khi trình duyệt của bạn trở thành đại lý
Tác giả: Mario Chow & Figo @IOSG
Giới thiệu
Trong 12 tháng qua, mối quan hệ giữa trình duyệt web và tự động hóa đã thay đổi mạnh mẽ. Hầu hết các công ty công nghệ lớn đều đang chạy đua để xây dựng các đại lý trình duyệt tự chủ. Xu hướng này càng trở nên rõ ràng hơn bắt đầu từ cuối năm 2024: OpenAI đã ra mắt chế độ Đại lý vào tháng 1, Anthropic đã phát hành tính năng "sử dụng máy tính" cho mô hình Claude, Google DeepMind đã ra mắt Dự án Mariner, Opera đã công bố trình duyệt đại lý Neon, trong khi Perplexity AI đã ra mắt trình duyệt Comet. Tín hiệu rất rõ ràng: Tương lai của AI nằm ở khả năng tự động điều hướng các trang web.
Xu hướng này không chỉ đơn thuần là thêm những chatbot thông minh vào trình duyệt, mà là sự chuyển biến căn bản trong cách mà máy móc tương tác với môi trường số. Trình duyệt đại diện là một loại hệ thống AI có khả năng "nhìn" vào trang web và thực hiện hành động: nhấp vào liên kết, điền vào biểu mẫu, cuộn trang, nhập văn bản: giống như người dùng thực. Mô hình này hứa hẹn sẽ giải phóng năng suất và giá trị kinh tế khổng lồ, vì nó có thể tự động hóa những nhiệm vụ mà hiện tại vẫn cần thao tác thủ công, hoặc mà các kịch bản truyền thống quá phức tạp để thực hiện.
▲ GIF trình diễn: Hoạt động thực tế của trình duyệt AI proxy: Theo hướng dẫn, điều hướng đến trang dữ liệu mục tiêu, tự động chụp màn hình và trích xuất dữ liệu cần thiết.
Ai sẽ giành chiến thắng trong cuộc chiến trình duyệt AI?
Hầu hết các công ty công nghệ lớn (cùng với một số công ty khởi nghiệp) đều đang phát triển các giải pháp đại lý AI trình duyệt của riêng họ. Dưới đây là một số dự án tiêu biểu nhất:
OpenAI – Chế độ Agent
Chế độ Agent của OpenAI (trước đây có tên là Operator, ra mắt vào tháng 1 năm 2025) là một AI đại lý tích hợp trình duyệt. Operator có khả năng xử lý nhiều nhiệm vụ trực tuyến lặp đi lặp lại: chẳng hạn như điền vào các biểu mẫu trên web, đặt hàng tạp hóa, sắp xếp cuộc họp: tất cả đều được thực hiện thông qua giao diện web tiêu chuẩn mà con người thường sử dụng.
▲ AI đại lý sắp xếp cuộc họp như một trợ lý chuyên nghiệp: kiểm tra lịch, tìm khoảng thời gian trống, tạo sự kiện, gửi xác nhận và tạo cho bạn tệp .ics.
Anthropic – Claude của "Sử Dụng Máy Tính":
Vào cuối năm 2024, Anthropic đã giới thiệu tính năng hoàn toàn mới "Computer Use (Sử dụng máy tính)" cho Claude 3.5, cho phép nó hoạt động trên máy tính và trình duyệt giống như con người. Claude có thể nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút, nhập văn bản. Đây là công cụ đại diện mô hình lớn đầu tiên trong loại này bước vào phiên bản thử nghiệm công khai, các nhà phát triển có thể khiến Claude tự động điều hướng các trang web và ứng dụng. Anthropic định vị đây là một tính năng thử nghiệm, với mục tiêu chính là tự động hóa quy trình làm việc nhiều bước trên web.
Perplexity – Comet
Công ty khởi nghiệp AI Perplexity (nổi tiếng với công cụ hỏi đáp) đã ra mắt trình duyệt Comet vào giữa năm 2025, như một sự thay thế được hỗ trợ bởi AI cho Chrome. Trung tâm của Comet là một công cụ tìm kiếm AI hội thoại được tích hợp trong thanh địa chỉ (omnibox), có khả năng cung cấp câu trả lời và tóm tắt ngay lập tức, thay vì các liên kết tìm kiếm truyền thống.
Ngoài ra, Comet còn tích hợp Comet Assistant, đây là một tác vụ nằm ở thanh bên có thể tự động thực hiện các nhiệm vụ hàng ngày trên nhiều trang web. Ví dụ, nó có thể tóm tắt các email bạn đã mở, sắp xếp các cuộc họp, quản lý các tab trình duyệt hoặc đại diện cho bạn duyệt và thu thập thông tin từ các trang web.
Thông qua giao diện thanh bên, cho phép đại lý nhận biết nội dung trang web hiện tại, Comet nhằm mục đích tích hợp liền mạch việc duyệt web với trợ lý AI.
Ứng dụng thực tế của proxy trình duyệt
Trong phần trước, chúng ta đã xem xét cách các công ty công nghệ lớn (OpenAI, Anthropic, Perplexity, v.v.) đã tiêm chức năng vào các tác nhân trình duyệt (browser agents) thông qua các hình thức sản phẩm khác nhau. Để hiểu rõ hơn về giá trị của chúng, chúng ta có thể xem xét thêm cách những khả năng này được áp dụng vào cuộc sống hàng ngày và quy trình làm việc của doanh nghiệp trong các tình huống thực tế.
Tự động hóa trang web hàng ngày
Thương mại điện tử và mua sắm cá nhân
Một kịch bản rất thực tế là ủy thác việc mua sắm và đặt hàng cho các đại lý. Đại lý có thể tự động điền giỏ hàng trực tuyến của bạn và đặt hàng theo danh sách cố định, hoặc tìm kiếm giá thấp nhất giữa nhiều nhà bán lẻ và hoàn thành quy trình thanh toán thay cho bạn.
Đối với việc du lịch, bạn có thể yêu cầu AI thực hiện các nhiệm vụ như: "Giúp tôi đặt vé máy bay đến Tokyo vào tháng tới (giá dưới 800 đô la), sau đó đặt một khách sạn có Wi-Fi miễn phí." Đại lý sẽ xử lý toàn bộ quy trình: tìm kiếm chuyến bay, so sánh các tùy chọn, điền thông tin hành khách, hoàn tất việc đặt phòng khách sạn, tất cả đều được thực hiện thông qua các trang web của hãng hàng không và khách sạn. Mức độ tự động hóa này vượt xa những robot du lịch hiện có: nó không chỉ đơn thuần là gợi ý mà còn thực hiện việc mua sắm trực tiếp.
Nâng cao hiệu quả làm việc
Đại lý có thể tự động hóa nhiều thao tác kinh doanh lặp đi lặp lại mà mọi người thực hiện trong trình duyệt. Ví dụ, sắp xếp email và trích xuất danh sách việc cần làm, hoặc kiểm tra các khoảng trống trong nhiều lịch và tự động lên lịch họp. Trợ lý Comet của Perplexity hiện có thể tóm tắt nội dung hộp thư đến của bạn qua giao diện web, hoặc thêm lịch cho bạn. Đại lý cũng có thể đăng nhập vào các công cụ SaaS để tạo báo cáo định kỳ, cập nhật bảng tính, hoặc gửi biểu mẫu khi có sự cho phép của bạn. Hãy tưởng tượng một đại lý nhân sự có thể tự động đăng nhập vào các trang web tuyển dụng khác nhau để đăng tin tuyển dụng; hoặc một đại lý bán hàng có thể cập nhật dữ liệu khách hàng tiềm năng trong hệ thống CRM. Những công việc vặt vãnh hàng ngày này lẽ ra sẽ tiêu tốn một lượng lớn thời gian của nhân viên, nhưng AI có thể hoàn thành thông qua việc tự động hóa các biểu mẫu và thao tác trên trang web.
Ngoài nhiệm vụ đơn lẻ, đại lý còn có thể kết nối các quy trình làm việc hoàn chỉnh trên nhiều hệ thống mạng khác nhau. Tất cả các bước này đều cần thao tác trên các giao diện web khác nhau, và đây chính là điểm mạnh của trình duyệt đại lý. Đại lý có thể đăng nhập vào nhiều bảng điều khiển để khắc phục sự cố, thậm chí lập trình quy trình, chẳng hạn như hoàn tất quy trình tuyển dụng cho nhân viên mới (tạo tài khoản trên nhiều trang web SaaS). Về bản chất, bất kỳ thao tác đa bước nào hiện tại cần mở nhiều trang web để hoàn thành đều có thể được giao cho đại lý thực hiện.
Những thách thức và hạn chế hiện tại
Mặc dù tiềm năng rất lớn, nhưng các trình duyệt proxy hiện nay vẫn còn cách hoàn hảo một khoảng cách khá xa. Các triển khai hiện tại đã cho thấy một số vấn đề kỹ thuật và hạ tầng tồn tại từ lâu:
Kiến trúc không phù hợp
Mạng hiện đại được thiết kế cho trình duyệt do con người vận hành và theo thời gian đã dần phát triển thành một hệ thống chủ động chống lại tự động hóa. Dữ liệu thường bị ẩn giấu trong HTML/CSS được tối ưu hóa cho việc trình bày trực quan, bị giới hạn bởi các cử chỉ tương tác (di chuột qua, trượt) hoặc chỉ có thể truy cập thông qua các API không công khai.
Trên cơ sở đó, hệ thống chống thu thập dữ liệu và chống gian lận đã nhân tạo thêm các rào cản bổ sung. Những công cụ này kết hợp danh tiếng IP, dấu vân tay trình duyệt, phản hồi thử thách JavaScript và phân tích hành vi (chẳng hạn như tính ngẫu nhiên trong di chuyển chuột, nhịp gõ phím, thời gian dừng lại). Mâu thuẫn là, các đại lý AI càng thể hiện "hoàn hảo", hiệu suất càng cao: chẳng hạn như điền biểu mẫu ngay lập tức, không bao giờ mắc lỗi, thì càng dễ bị nhận diện là tự động hóa độc hại. Điều này có thể dẫn đến thất bại cứng nhắc: chẳng hạn như đại lý của OpenAI hoặc Google có thể hoàn thành tất cả các bước trước khi thanh toán một cách trơn tru, nhưng cuối cùng lại bị chặn bởi CAPTCHA hoặc bộ lọc bảo mật thứ hai.
Giao diện được tối ưu hóa cho con người và lớp phòng thủ không thân thiện với robot chồng chéo lên nhau, buộc các đại lý phải áp dụng chiến lược "mô phỏng con người" yếu ớt. Phương pháp này rất dễ thất bại, tỷ lệ thành công thấp (nếu không có sự can thiệp của con người, tỷ lệ hoàn thành giao dịch đầy đủ vẫn chưa đến một phần ba).
Lo ngại về niềm tin và an toàn
Để cho phép đại lý có quyền kiểm soát hoàn toàn, thường cần truy cập vào thông tin nhạy cảm: thông tin đăng nhập, Cookies, mã xác thực hai yếu tố, thậm chí thông tin thanh toán. Điều này gây ra những lo ngại mà cả người dùng và doanh nghiệp đều có thể hiểu:
Nếu đại lý gặp lỗi hoặc bị lừa đảo bởi trang web độc hại thì phải làm sao?
Nếu đại lý đồng ý với điều khoản dịch vụ nào đó hoặc thực hiện một giao dịch, ai sẽ chịu trách nhiệm?
Dựa trên những rủi ro này, hệ thống hiện tại thường áp dụng thái độ thận trọng:
Mariner của Google sẽ không nhập thông tin thẻ tín dụng hoặc đồng ý với các điều khoản dịch vụ, mà sẽ trả lại cho người dùng.
Operator của OpenAI sẽ nhắc nhở người dùng tiếp quản đăng nhập hoặc thử thách CAPTCHA.
Đại lý được điều khiển bởi Claude của Anthropic có thể từ chối đăng nhập trực tiếp với lý do an ninh.
Kết quả là: Sự dừng lại và chuyển giao thường xuyên giữa AI và con người đã làm giảm trải nghiệm tự động hóa liền mạch.
Mặc dù có những rào cản này, tiến triển vẫn đang diễn ra nhanh chóng. Các công ty như OpenAI, Google, Anthropic đều rút ra bài học từ những thất bại trong mỗi vòng lặp lặp lại. Với sự gia tăng nhu cầu, rất có khả năng sẽ xuất hiện một "sự tiến hóa chung": các trang web trở nên thân thiện hơn với các đại lý trong những bối cảnh thuận lợi, trong khi các đại lý cũng sẽ liên tục nâng cao khả năng bắt chước hành vi của con người để vượt qua các rào cản hiện có.
Phương pháp và cơ hội
Các proxy trình duyệt hiện tại đang đối mặt với hai thực tế hoàn toàn khác nhau: một mặt là môi trường thù địch của Web2, với các biện pháp chống thu thập dữ liệu và phòng chống an ninh ở khắp mọi nơi; mặt khác là môi trường mở của Web3, nơi tự động hóa thường được khuyến khích. Sự khác biệt này quyết định hướng đi của các giải pháp khác nhau.
Các giải pháp dưới đây được chia thành hai loại chính: một loại giúp các đại lý vượt qua môi trường thù địch của Web2, loại còn lại là các giải pháp bản địa của Web3.
Mặc dù các thách thức mà trình duyệt proxy phải đối mặt vẫn còn đáng kể, nhưng những dự án mới đang liên tục xuất hiện, cố gắng giải quyết trực tiếp những vấn đề này. Tiền điện tử và hệ sinh thái tài chính phi tập trung (DeFi) đang trở thành những sân chơi tự nhiên cho thử nghiệm, vì chúng mở, có thể lập trình, và ít thù địch hơn với tự động hóa. API mở, hợp đồng thông minh và tính minh bạch trên chuỗi đã loại bỏ nhiều điểm ma sát thường thấy trong thế giới Web2.
Dưới đây là bốn loại giải pháp, mỗi loại đều nhằm giải quyết một hoặc nhiều hạn chế cốt lõi hiện tại:
Trình duyệt gốc kiểu đại lý hướng đến các hoạt động trên chuỗi
Những trình duyệt này được thiết kế từ đầu cho việc điều khiển proxy tự chủ và tích hợp sâu với giao thức blockchain. Khác với trình duyệt Chrome truyền thống, mà để thực hiện tự động hóa các thao tác trên chuỗi cần phải phụ thuộc thêm vào Selenium, Playwright hoặc tiện ích mở rộng ví; trong khi đó, trình duyệt proxy gốc cung cấp ngay API và đường dẫn thực thi đáng tin cậy để cho proxy gọi.
Trong tài chính phi tập trung, hiệu quả của giao dịch phụ thuộc vào chữ ký mã hóa, chứ không phải là người dùng có "giống con người" hay không. Do đó, trong môi trường chuỗi, các đại lý có thể vượt qua CAPTCHA, điểm phát hiện gian lận và kiểm tra dấu vân tay thiết bị thường thấy trong thế giới Web2. Tuy nhiên, nếu những trình duyệt này hướng tới các trang Web2 như Amazon, chúng sẽ không thể vượt qua các cơ chế phòng thủ liên quan, trong trường hợp đó vẫn sẽ kích hoạt các biện pháp chống bot bình thường.
Giá trị của trình duyệt proxy không phải ở chỗ có thể thần kỳ truy cập tất cả các trang web, mà là:
Tích hợp blockchain gốc: ví tích hợp và hỗ trợ ký, không cần phải qua cửa sổ bật lên MetaMask hoặc phân tích DOM front-end của dApp.
Thiết kế ưu tiên tự động hóa: Cung cấp các chỉ thị cấp cao ổn định, có thể trực tiếp ánh xạ thành các thao tác giao thức.
Mô hình bảo mật: Kiểm soát quyền chi tiết và sandbox, đảm bảo rằng khóa riêng được an toàn trong quá trình tự động hóa.
Tối ưu hóa hiệu suất: có thể thực hiện nhiều cuộc gọi trên chuỗi song song mà không cần trình duyệt hiển thị hoặc độ trễ UI.
Ví dụ: Donut
Donut tích hợp dữ liệu và hoạt động blockchain như những công dân hạng nhất. Người dùng (hoặc đại lý của họ) có thể di chuột để xem chỉ số rủi ro theo thời gian thực của token, hoặc nhập trực tiếp các lệnh bằng ngôn ngữ tự nhiên như “/swap 100 USDC to SOL”. Bằng cách bỏ qua các điểm ma sát thù địch của Web2, Donut cho phép các đại lý hoạt động với tốc độ tối đa trong DeFi, nâng cao tính thanh khoản, cơ hội chênh lệch giá và hiệu quả thị trường.
Thực thi đại lý có thể xác minh và đáng tin cậy
Việc cấp quyền nhạy cảm cho đại lý có rủi ro rất lớn. Các giải pháp liên quan sử dụng môi trường thực thi đáng tin cậy (TEEs) hoặc bằng chứng không kiến thức (ZKPs) để mã hóa và xác nhận hành vi mong đợi của đại lý trước khi thực hiện, cho phép người dùng và bên đối tác xác thực hành động của đại lý mà không tiết lộ khóa riêng hoặc chứng từ.
Ví dụ: Phala Network
Phala sử dụng TEE (như Intel SGX) để cô lập và bảo vệ môi trường thực thi, từ đó tránh được việc các nhà vận hành Phala hoặc kẻ tấn công nhìn trộm hoặc sửa đổi logic và dữ liệu đại lý. TEE giống như một "phòng an toàn" được hỗ trợ bởi phần cứng, đảm bảo tính bảo mật (không thể nhìn thấy từ bên ngoài) và tính toàn vẹn (không thể sửa đổi từ bên ngoài).
Đối với trình duyệt proxy, điều này có nghĩa là nó có thể đăng nhập, giữ token phiên, hoặc xử lý thông tin thanh toán, và những dữ liệu nhạy cảm này sẽ không bao giờ rời khỏi phòng an toàn. Ngay cả khi máy tính, hệ điều hành hoặc mạng của người sử dụng bị xâm nhập, cũng không thể rò rỉ. Điều này trực tiếp giảm nhẹ một trong những rào cản lớn nhất đối với việc triển khai ứng dụng proxy: vấn đề lòng tin đối với chứng chỉ nhạy cảm và các thao tác.
Mạng dữ liệu có cấu trúc phi tập trung
Hệ thống phát hiện robot hiện đại không chỉ kiểm tra xem yêu cầu có "quá nhanh" hoặc "tự động hóa" hay không, mà còn kết hợp uy tín IP, dấu vân tay trình duyệt, phản hồi thách thức JavaScript và phân tích hành vi (chẳng hạn như chuyển động con trỏ, nhịp gõ phím, lịch sử phiên). Những proxy đến từ IP trung tâm dữ liệu hoặc môi trường trình duyệt hoàn toàn có thể lặp lại dễ dàng bị nhận diện.
Để giải quyết vấn đề này, các mạng này không còn thu thập các trang web được tối ưu hóa cho con người, mà thay vào đó là thu thập và cung cấp dữ liệu có thể đọc được bởi máy, hoặc thông qua việc sử dụng lưu lượng từ môi trường duyệt web thực của con người. Cách tiếp cận này đã vượt qua được những điểm yếu của các trình thu thập dữ liệu truyền thống trong quá trình phân tích và chống thu thập dữ liệu, và có thể cung cấp đầu vào sạch hơn, đáng tin cậy hơn cho các đại lý.
Thông qua việc chuyển tiếp lưu lượng đại lý đến các phiên thực tế này, mạng lưới phân phối cho phép các đại lý AI truy cập nội dung web như con người mà không bị chặn ngay lập tức.
Ví dụ
Grass: Mạng dữ liệu phi tập trung/DePIN, người dùng chia sẻ băng thông rộng nhà ở không sử dụng, nhằm cung cấp các kênh truy cập thân thiện với proxy và đa dạng địa lý cho việc thu thập dữ liệu trang web công cộng và đào tạo mô hình.
WootzApp: Trình duyệt di động mã nguồn mở hỗ trợ thanh toán bằng tiền điện tử, đi kèm với proxy nền và danh tính không tiết lộ; nó đã "game hóa" nhiệm vụ AI/dữ liệu cho người tiêu dùng.
Sixpence: Mạng trình duyệt phân tán, định tuyến lưu lượng cho các đại lý AI thông qua việc duyệt web của những người đóng góp toàn cầu.
Tuy nhiên, đây không phải là giải pháp hoàn chỉnh. Phát hiện hành vi (đường đi chuột/cuộn), các giới hạn cấp tài khoản (KYC, tuổi tài khoản) và kiểm tra sự nhất quán của dấu vân tay vẫn có thể kích hoạt khóa tài khoản. Do đó, mạng lưới phân tán tốt nhất nên được xem như là lớp ẩn giấu cơ bản, cần kết hợp với các chiến lược thực thi mô phỏng con người để đạt được hiệu quả tối đa.
Tiêu chuẩn web cho đại lý (tương lai)
Hiện nay, ngày càng nhiều cộng đồng và tổ chức công nghệ đang khám phá: Nếu trong tương lai, người dùng mạng không chỉ là con người mà còn là các đại lý tự động (agent), thì các trang web nên xử lý chúng một cách an toàn và tuân thủ như thế nào?
Điều này đã thúc đẩy cuộc thảo luận về một số tiêu chuẩn và cơ chế mới nổi, với mục tiêu là cho phép các trang web rõ ràng thể hiện "Tôi cho phép đại lý đáng tin cậy truy cập" và cung cấp một kênh an toàn để hoàn thành tương tác, thay vì mặc định coi đại lý như "cuộc tấn công của robot" như hiện nay.
"Nhãn Được Cho Phép" : Giống như robots.txt mà các công cụ tìm kiếm tuân theo, trong tương lai, các trang web có thể thêm một nhãn vào mã của chúng, cho biết trình duyệt rằng "đây là nơi có thể truy cập an toàn". Chẳng hạn, nếu bạn sử dụng proxy để đặt vé máy bay, trang web sẽ không hiện ra hàng loạt mã xác nhận (CAPTCHA), mà sẽ cung cấp một giao diện đã được xác thực.
Cổng API của đại lý được chứng nhận: Trang web có thể mở ra lối vào chuyên biệt cho các đại lý đã được xác thực, giống như "lối đi nhanh". Đại lý không cần phải giả lập việc nhấp chuột hay nhập liệu của con người, mà thay vào đó, đi theo một con đường API ổn định hơn để thực hiện đặt hàng, thanh toán hoặc truy vấn dữ liệu.
Thảo luận của W3C: Tổ chức W3C đã nghiên cứu cách để thiết lập các kênh tiêu chuẩn cho "tự động hóa có kiểm soát". Điều này có nghĩa là, trong tương lai, chúng ta có thể có một bộ quy tắc toàn cầu chung, cho phép các đại lý đáng tin cậy được các trang web nhận diện và chấp nhận, đồng thời duy trì tính an toàn và khả năng truy cứu.
Mặc dù những khám phá này vẫn đang ở giai đoạn đầu, nhưng một khi được triển khai, chúng có thể cải thiện rất lớn mối quan hệ giữa con người ↔ đại lý ↔ trang web. Hãy tưởng tượng: không còn cần đại lý phải cố gắng mô phỏng chuyển động chuột của con người để "lừa" hệ thống kiểm soát rủi ro, mà thay vào đó là hoàn thành nhiệm vụ một cách minh bạch thông qua một kênh "được chính thức cho phép".
Trên tuyến đường này, cơ sở hạ tầng gốc của tiền mã hóa có thể khởi đầu trước tiên. Bởi vì các ứng dụng trên chuỗi vốn dĩ phụ thuộc vào API mở và hợp đồng thông minh, chúng thân thiện với tự động hóa. Ngược lại, các nền tảng Web2 truyền thống có thể vẫn tiếp tục phòng thủ một cách thận trọng, đặc biệt là các công ty phụ thuộc vào quảng cáo hoặc hệ thống chống gian lận. Nhưng khi người dùng và doanh nghiệp dần chấp nhận sự nâng cao hiệu suất do tự động hóa mang lại, những nỗ lực tiêu chuẩn hóa này rất có thể trở thành chất xúc tác chính thúc đẩy toàn bộ internet tiến tới “kiến trúc ưu tiên đại lý”.
Kết luận
Trình duyệt proxy đang từ một công cụ trò chuyện đơn giản ban đầu, phát triển thành một hệ thống tự chủ có khả năng hoàn thành các quy trình làm việc trực tuyến phức tạp. Sự chuyển mình này phản ánh một xu hướng rộng hơn: nhúng tự động hóa trực tiếp vào giao diện cốt lõi mà người dùng tương tác với Internet. Mặc dù tiềm năng nâng cao năng suất là rất lớn, nhưng những thách thức cũng rất nghiêm trọng, bao gồm cách vượt qua các cơ chế chống robot đã ăn sâu và cách đảm bảo an ninh, độ tin cậy và cách sử dụng có trách nhiệm.
Trong ngắn hạn, khả năng suy luận của các đại lý sẽ được cải thiện, tốc độ nhanh hơn, tích hợp chặt chẽ hơn với các dịch vụ hiện có, cũng như những tiến bộ của mạng phân tán, có thể dần dần nâng cao độ tin cậy. Về lâu dài, chúng ta có thể sẽ thấy sự triển khai dần dần của tiêu chuẩn "thân thiện với đại lý" trong những kịch bản tự động hóa có lợi cho cả nhà cung cấp dịch vụ và người dùng. Tuy nhiên, sự chuyển biến này sẽ không đồng đều: trong những môi trường thân thiện với tự động hóa như DeFi, tốc độ tiếp nhận sẽ nhanh hơn; trong khi đó, trên các nền tảng Web2 phụ thuộc nhiều vào tương tác của người dùng, mức độ chấp nhận sẽ chậm hơn.
Trong tương lai, sự cạnh tranh giữa các công ty công nghệ sẽ ngày càng tập trung vào một số khía cạnh sau: khả năng điều hướng của chúng trong các giới hạn của thế giới thực, liệu có thể tích hợp an toàn vào các quy trình công việc quan trọng hay không, và liệu có thể ổn định cung cấp kết quả trong các môi trường trực tuyến đa dạng hay không. Còn về việc liệu tất cả điều này có cuối cùng tái định hình "cuộc chiến trình duyệt" hay không, không chỉ phụ thuộc vào sức mạnh công nghệ đơn thuần, mà còn vào khả năng xây dựng lòng tin, đồng bộ hóa động lực, và thể hiện giá trị thực trong việc sử dụng hàng ngày.