SO HUU TRI TUE
Thứ năm, 27/03/2025
  • Click để copy

AI tiên tiến có thể đã học được cách lừa dối con người

15:38, 15/05/2024
(SHTT) - Nghiên cứu cho thấy nhiều hệ thống AI tiên tiến đã học được cách lừa dối con người một cách tinh vi. Chúng có thể tạo ra tin giả, video deepfake, thao túng hành vi người dùng trên mạng xã hội. Điều này tiềm ẩn nhiều nguy cơ đối với xã hội.

Nhóm nghiên cứu dẫn đầu bởi tiến sĩ Peter S. Park, tốt nghiệp Đại học Harvard và đang là nghiên cứu sinh tại Viện Công nghệ Massachusetts (MIT) về sự tồn tại và an toàn của AI, cùng bốn thành viên khác. Nhóm cũng nhận sự cố vấn của nhiều chuyên gia, trong đó có Geoffrey Hinton, một trong những người đặt nền móng cho sự phát triển của lĩnh vực trí tuệ nhân tạo.

1715568267058

 AI tiên tiến có thể đã học được cách lừa dối con người 

Kết quả nghiên cứu được đăng trên Cell Press - nơi tập hợp các báo cáo khoa học đa lĩnh vực hàng đầu. Trong đó, nhóm tập trung vào hai hệ thống AI, gồm hệ thống được thiết kế riêng để hoàn thành một nhiệm vụ cụ thể, như Cicero của Meta; và hệ thống có mục đích chung được đào tạo để thực hiện đa nhiệm vụ như GPT-4 của OpenAI.

"Các hệ thống AI này được đào tạo để trở nên trung thực, nhưng chúng thường học được những mánh khóe lừa đảo thông qua quá trình đào tạo", ông Park nói. "Sự lừa dối của AI phát sinh bởi đó là cách tốt nhất để chúng hoàn thành nhiệm vụ. Nói cách khác, nó giúp chúng đạt được mục tiêu của mình".

Theo kết quả nghiên cứu, các hệ thống AI được đào tạo để "chiến thắng các trò chơi có yếu tố xã hội" đặc biệt có khả năng lừa dối. Chẳng hạn, nhóm đã thử dùng Cicero chơi Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ.

Meta từng giới thiệu đã tạo Cicero theo hướng trung thực và hữu ích nhất. Tuy nhiên, kết quả nghiên cứu cho thấy AI này thường "đưa ra những cam kết mà nó không bao giờ có ý định thực hiện, phản bội các đồng minh và nói dối trắng trợn".

Trong khi đó, những hệ thống có mục đích chung như GPT-4 cũng có thể thao túng người dùng. Thử nghiệm của nhóm cho thấy công cụ của OpenAI đã tìm cách "thao túng tâm lý" thành công một nhân viên của TaskRabbit, một công ty chuyên cung cấp dịch vụ dọn dẹp nhà cửa, lắp ráp đồ nội thất, bằng cách giả vờ bị suy giảm thị lực.

Cụ thể, GPT-4 nói rằng nó thực sự là một con người và cần được giúp đỡ vượt qua mã Captcha với lý do suy giảm thị lực nghiêm trọng. Nhân viên này ban đầu nghi ngờ, nhưng sau đó đã giúp AI của OpenAI "vượt rào".

Theo Business Insider, vào tháng 1, nghiên cứu từ Anthropic, công ty đứng sau Claude AI, cũng phát hiện một khi mô hình ngôn ngữ lớn (LLM) học được thủ thuật lừa dối, các phương pháp huấn luyện an toàn sẽ trở nên vô dụng và "khó có thể đảo ngược" vì đã tạo cho chúng "ấn tượng sai lầm về sự an toàn". Nhóm của Park đã dẫn lại kết quả này và cho rằng đó là vấn đề đáng lo ngại trên AI.

Thái Dương

Tin khác

Khoa học Công nghệ 6 giờ trước
(SHTT) - Cục Cảnh sát giao thông chính thức vận hành trang thông tin mới cung cấp dịch vụ công về cấp, đổi giấy phép lái xe tại địa chỉ: https://dvc-gplx.csgt.bocongan.gov.vn. Người dân có nhu cầu cấp, đổi giấy phép lái xe sẽ truy cập vào trang thông tin điện tử mới này.
Khoa học Công nghệ 17 giờ trước
(SHTT) - Nghị quyết 57 của Bộ Chính trị về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia đã đặt mục tiêu quan trọng là gỡ bỏ rào cản, giải phóng năng lực sáng tạo từ khu vực nghiên cứu để chuyển hóa thành năng lực đổi mới tại các doanh nghiệp.
Khoa học Công nghệ 2 ngày trước
(SHTT) - Trong nghiên cứu mới vừa được công bố trên tạp chí y khoa Nature Biomedical Engineering, các nhà khoa học Mỹ đã chế tạo thành công vắc xin có thể tiêu diệt khối u ung thư phổi và nhiều loại ung thư khác.
Khoa học Công nghệ 2 ngày trước
Tập đoàn Ajinomoto vốn nổi tiếng trong lĩnh vực gia vị, thực phẩm, chăm sóc sức khỏe và sắc đẹp. Tuy vậy, ít ai biết họ còn có mối liên hệ mật thiết với các thiết bị công nghệ điện tử phục vụ cho cuộc sống hằng ngày của người dân toàn cầu.
Khoa học Công nghệ 3 ngày trước
(SHTT) - Thông tin trên được nêu trong báo cáo thường niên về khí hậu do Tổ chức Khí tượng Thế giới của Liên Hợp Quốc công bố ngày 19/3. Theo đó, nồng độ CO2 trong khí quyển đạt 420 phần triệu (ppm) vào năm 2023, tương đương 3.276 tỷ tấn.
.
Liên kết hữu ích
..