Google tăng cường loạt chính sách mới giúp tăng cường bảo mật AI trong trình duyệt Chrome
Một trong những tính năng mới quan trọng nhất là mô hình đánh giá độc lập mang tên User Alignment Critic. Đây là một mô hình AI thứ hai, hoạt động độc lập với tác nhân chính (agent), có nhiệm vụ kiểm tra từng hành động được đề xuất bởi AI trước khi thực hiện. Mục tiêu là đảm bảo mọi hành động đều phục vụ đúng mục đích mà người dùng đã nêu, không bị ảnh hưởng bởi nội dung độc hại trên trang web.
User Alignment Critic không truy cập trực tiếp vào nội dung web, mà chỉ đánh giá metadata liên quan đến hành động. Nếu phát hiện hành vi sai lệch, hệ thống có thể từ chối hành động đó, yêu cầu AI lập kế hoạch lại hoặc trả quyền điều khiển cho người dùng nếu sai lệch lặp lại nhiều lần. Đây là lớp bảo vệ giúp ngăn AI bị thao túng theo hướng gây hại.
Song song đó, Google tiếp tục duy trì kỹ thuật spotlighting - hướng dẫn mô hình chỉ tuân theo chỉ thị của người dùng và hệ thống, không bị chi phối bởi nội dung trong trang web đang mở. Sự kết hợp giữa mô hình chính, mô hình kiểm tra độc lập và kỹ thuật điều hướng hành vi giúp xây dựng hệ thống AI an toàn hơn khi hoạt động trong môi trường mở.
Một rủi ro khác xuất hiện khi AI hoạt động trong trình duyệt là việc truy cập không kiểm soát đến nhiều nguồn dữ liệu khác nhau, từ các trang công khai đến các ứng dụng nội bộ. Điều này có thể dẫn đến rò rỉ dữ liệu giữa các phiên, đặc biệt nếu AI tự động tương tác với các trang mà người dùng không chủ động chia sẻ.
Để khắc phục, Google đã triển khai một cơ chế bảo vệ mới có tên Agent Origin Sets. Hệ thống này phân loại các trang web mà AI được phép truy cập theo hai nhóm: nhóm chỉ đọc và nhóm được phép đọc, gõ nội dung hoặc nhấp chuột. Phân loại rõ ràng này giúp hạn chế nguy cơ dữ liệu bị rò rỉ từ trang này sang trang khác mà không có sự đồng ý của người dùng.
Trước khi mở rộng quyền truy cập tới một trang web mới, AI phải được một hàm kiểm soát (gating function) xác nhận rằng trang đó phù hợp với mục tiêu tác vụ và được người dùng chia sẻ rõ ràng trong phiên làm việc. Gating function cũng được bảo vệ khỏi nội dung web không đáng tin, tránh nguy cơ bị thao túng.
Nhờ các giới hạn này, AI chỉ có thể sử dụng dữ liệu từ các nguồn có liên quan và có thể được chia sẻ đến các nguồn đã được phân quyền rõ ràng. Điều này thu hẹp đáng kể bề mặt tấn công thông qua trình duyệt và giảm nguy cơ rò rỉ thông tin giữa các nền tảng.
Ngoài các biện pháp kỹ thuật, Google cũng bổ sung các tính năng giúp tăng cường tính minh bạch và trao quyền kiểm soát cho người dùng. Khi AI thực hiện một tác vụ có độ nhạy cảm cao như truy cập trang ngân hàng, cổng thông tin y tế, đăng nhập tài khoản hoặc thực hiện thanh toán, hệ thống sẽ yêu cầu người dùng xác nhận rõ ràng trước khi tiếp tục.
AI cũng tạo nhật ký hoạt động (work log) giúp người dùng quan sát được từng hành vi mà mô hình đang thực hiện, từ đó phát hiện các hành động bất thường nếu có. Đây là bước đi quan trọng trong việc xây dựng lòng tin và giúp người dùng nắm quyền kiểm soát trong các tác vụ tự động.
Bên cạnh đó, Google triển khai thêm một bộ phân tích nội dung độc lập, hoạt động song song với mô hình AI chính để phát hiện prompt injection gián tiếp. Nếu bộ lọc phát hiện rằng một đoạn nội dung đang cố tình hướng AI thực hiện hành động sai lệch, nó có thể chặn ngay hành động đó trước khi được thực thi.
Tất cả các biện pháp này đều nhằm mục tiêu chung: đảm bảo AI hoạt động đúng với mục tiêu của người dùng, không bị lôi kéo hoặc thao túng bởi các nội dung tiềm ẩn rủi ro trên web.
Bên cạnh đó, Google triển khai thêm một bộ phân tích nội dung độc lập, hoạt động song song với mô hình AI chính để phát hiện prompt injection gián tiếp. Nếu bộ lọc phát hiện rằng một đoạn nội dung đang cố tình hướng AI thực hiện hành động sai lệch, nó có thể chặn ngay hành động đó trước khi được thực thi.
Tất cả các biện pháp này đều nhằm mục tiêu chung: đảm bảo AI hoạt động đúng với mục tiêu của người dùng, không bị lôi kéo hoặc thao túng bởi các nội dung tiềm ẩn rủi ro trên web.
TH
TIN LIÊN QUAN
Tin khác
- đặt backlink pr cao ClickOn Digital