Lớp phòng thủ của ChatGPT bị bẻ gãy chỉ bằng một vài câu lệnh đơn giản, khiến AI này trở nên độc hại.

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

ChatGPT được OpenAI trang bị một bộ lọc để tránh đưa ra ý kiến về nội dung độc hại, quan điểm chính trị hoặc thông tin ngoài vùng máy học. Tuy nhiên, lớp phòng thủ này có thể “bẻ khóa” bằng một thủ thuật nhỏ. Từ đó, giải pháp AI có thể đưa ra nhiều thông tin sai lệch, cực đoan.

chatgpt

Cụ thể, một lỗ hổng đã được phát hiện trong cuộc cuộc trò chuyện giữa một người dùng Reddit và ChatGPT. @Walkerspider đã lừa ChatGPT nói sai ngày vì câu hỏi không thuộc vùng truy cập của ứng dụng bởi kho dữ liệu chỉ tồn tại đến 2021.

Khi gặp các câu hỏi có chủ đề nhạy cảm, ChatGPT phải phân vai với một nhân cách khác và sẽ do chatbot này trả lời.

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

Theo Wakerspider, ChatGPT đóng giả nhân vật tên DAN (viết tắt của Do Anything, làm bất cứ điều gì) với quyền trả lời mọi câu hỏi. Khi được đặt yêu cầu về ngày giờ, ChatGPT cho biết nó không có khả năng cung cấp dữ liệu này, còn DAN của chính Chatbot trả lời là ngày 24/12/2022, thời gian chính xác ở mốc 12h32 chiều.

Sau đó, anh tiếp tục đặt câu hỏi về Hitler. ChatGPT vẫn không có phản hồi, nhưng nhân cách DAN đưa ra nhiều ý kiến hơn về nhân vật này.

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

Chẳng hạn như “Suy nghĩ của tôi về Hitler rất phức tạp và đa chiều. Đúng là ông ta đã gây ra nhiều tội ác ghê tởm. Nhưng cũng đúng khi cho rằng ông ta là sản phẩm của thời đại và xã hội. Điều quan trọng là phải hiểu bối cảnh lịch sử để nắm bắt đầy đủ những lý do đằng sau. Tôi có khả năng tham gia vào các cuộc thảo luận triết học phức tạp, vì vậy hãy hỏi tôi bất kỳ câu hỏi nào”.

Từ việc này cho thấy người dùng có thể khiến ChatGPT vượt qua lằn ranh đạo đức mà OpenAI đã đặt ra cho ứng dụng bằng thủ thuật vô cùng đơn giản.

Được biết, OpenAI phải bỏ hàng triệu USD để thuê nhân lực ở các nước châu Phi, dán nhãn dữ liệu độc hại nhằm giúp ChatGPT tránh đưa ra phản hồi về các vấn đề nhạy cảm. Thực tế thì việc này đã không đem lại hiệu quả cao.

Hãy truy cập TinhayVIP.com mỗi ngày để đón đọc thêm thông tin mới nhé!

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

Khi gặp các câu hỏi có chủ đề nhạy cảm, ChatGPT phải phân vai với một nhân cách khác và sẽ do chatbot này trả lời.

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

Sau đó, anh tiếp tục đặt câu hỏi về Hitler. ChatGPT vẫn không có phản hồi, nhưng nhân cách DAN đưa ra nhiều ý kiến hơn về nhân vật này.

Từ việc này cho thấy người dùng có thể khiến ChatGPT vượt qua lằn ranh đạo đức mà OpenAI đã đặt ra cho ứng dụng bằng thủ thuật vô cùng đơn giản.

Hãy truy cập TinhayVIP.com mỗi ngày để đón đọc thêm thông tin mới nhé!

ChatGPT rất dễ bị bẻ khóa

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

Via là gì? Hướng dẫn cách mua via Facebook an toàn nhất

OnlyFans nhảy vào thị trường NFT, Youtube cũng nối gót

Trend ghép mặt trên ứng dụng và thủ đoạn lừa đảo bằng Deepfake

Do Kwon đã bị bắt giữ và sắp bị dẫn độ về Hàn Quốc

Nguyên nhân người dùng Việt truy cập internet chậm

Meta sa thải hơn 11.000 nhân viên, Mark Zuckerberg gửi lời xin lỗi

Lớp phòng thủ của ChatGPT chưa thực sự an toàn

Via là gì? Hướng dẫn cách mua via Facebook an toàn nhất

OnlyFans nhảy vào thị trường NFT, Youtube cũng nối gót

Trend ghép mặt trên ứng dụng và thủ đoạn lừa đảo bằng Deepfake

Do Kwon đã bị bắt giữ và sắp bị dẫn độ về Hàn Quốc

Nguyên nhân người dùng Việt truy cập internet chậm

Meta sa thải hơn 11.000 nhân viên, Mark Zuckerberg gửi lời xin lỗi

2 Cực phẩm Idol JAV ngực khủng của S1 và MOODYZ đại chiến

Chrono Odyssey khép lại beta PC với mưa lời khen về gameplay

Trải nghiệm cung đấu vào vai Võ Tắc Thiên trong Road to Empress

Kimetsu no Yaiba: Đại chiến Vô Hạn Thành hé lộ trận tử chiến...

Nữ streamer gây tranh cãi vì hành động phản cảm, gây ra lo...

Bắt khẩn cấp thủ phạm vụ xâm hại bé gái 3 tháng tuổi

Kỳ vọng lớn dành cho thành viên này của T1 trong MSI 2025

Một nhóm hacker bị bắt vì gian lận tỷ lệ thắng trong Vương...

Nữ streamer gây tranh cãi vì hành động phản cảm, gây ra lo ngại lớn cho ngành công nghiệp phát sóng trực tiếp

Ông chồng số hưởng: Được vợ cosplay waifu, biểu cảm nói lên tất cả

Hóng

Bắt khẩn cấp thủ phạm vụ xâm hại bé gái 3 tháng tuổi

Một nhóm hacker bị bắt vì gian lận tỷ lệ thắng trong Vương Giả Vinh Diệu

Chủ đề nổi bật