ChatGPT bị phát hiện sử dụng dữ liệu từ nội dung do AI khác tạo ra

ChatGPT được cho là đã sử dụng nội dung từ Grokipedia hay còn được biết đến như “Wikipedia của AI”…

Mô hình mới nhất của ChatGPT GPT-5.2 vừa bị phát hiện sử dụng nội dung từ Grokipedia, một bách khoa toàn thư do xAI phát triển, đáng chú ý, tất cả nội dung đều được xây dựng hoàn toàn bằng AI. Vì thế, Grokipedia thường được xem như “Wikipedia của AI”.

Theo The Guardian, trong một số chủ đề ít người quan tâm, chẳng hạn như tình hình chính trị Iran hay thông tin về nhà sử học người Anh Sir Richard Evans, ChatGPT đã tham chiếu hoặc sử dụng thông tin từ nền tảng này.

Phát hiện trên đã gợi lại mối lo ngại đã được giới nghiên cứu AI cảnh báo từ nhiều năm trước: Điều gì sẽ xảy ra khi AI sử dụng chính nội dung do AI khác tạo ra?

Theo các chuyên gia, việc “nuôi” AI bằng dữ liệu do AI tạo ra sẽ không giúp chất lượng thông tin tốt hơn, mà còn có nguy cơ suy giảm nghiêm trọng chất lượng mô hình theo thời gian. Kịch bản xấu nhất có thể khiến mô hình sụp đổ khi AI ngày càng nghèo nàn về thông tin, dễ sai lệch và dần tách khỏi thực tế. Hệ quả cuối cùng vẫn là rủi ro gia tăng cho những người dùng AI như một công cụ nghiên cứu hoặc tham khảo tri thức.

Căn nguyên của vấn đề nằm ở điểm yếu cố hữu: AI có xu hướng “ảo giác”, nghĩa là bịa ra những thông tin có vẻ hợp lý nhưng hoàn toàn sai. Ông Jensen Huang, Giám đốc điều hành Nvidia, từng nhận định vào năm 2024 rằng việc xử lý triệt để vấn đề này vẫn còn cần “nhiều năm nữa” và đòi hỏi năng lực tính toán lớn hơn rất nhiều so với hiện tại.

Dù vậy, phần lớn người dùng vẫn có xu hướng tin rằng ChatGPT và các LLM khác đưa ra thông tin chính xác. Chỉ một số rất nhỏ người dùng kiểm tra lại nguồn gốc dữ liệu mà AI đã sử dụng để tạo ra câu trả lời.

Chính vì thế, việc ChatGPT lặp lại nội dung từ Grok trở nên đặc biệt đáng lo ngại, nhất là khi Grokipedia không có đội ngũ biên tập viên con người. Toàn bộ nội dung của nền tảng này được AI tạo ra, con người chỉ có thể đề xuất chỉnh sửa, chứ không trực tiếp viết hay kiểm soát bài viết.

Khi một AI sử dụng một AI khác làm nguồn tham chiếu, theo thời gian, các LLM có thể bắt đầu trích dẫn lẫn nhau những thông tin chưa từng được kiểm chứng độc lập. Hiện tượng này không khác mấy so với cách tin đồn lan truyền, và rồi thông tin ấy dần được chấp nhận như một sự thật.

Đáng lo hơn, một số tổ chức và thế lực đã chủ động khai thác điểm yếu này. The Guardian cho biết đã xuất hiện hiện tượng “chải chuốt LLM” (LLM grooming), trong đó các mạng lưới tuyên truyền cố tình bơm một lượng lớn thông tin sai lệch lên Internet nhằm “gieo mầm” những nội dung đó vào các mô hình AI.

Nếu trong tương lai, các mô hình ngôn ngữ lớn ngày càng dựa vào những nguồn thông tin do AI khác tạo ra – những nguồn tin chưa được kiểm chứng và thiếu cơ chế kiểm tra thực tế thì đây sẽ là rủi ro cực kỳ đáng lo ngại. Không chỉ là rủi ro công nghệ, mà còn tác động trực tiếp đến cách con người tiếp cận, đánh giá và tin vào tri thức trong kỷ nguyên trí tuệ nhân tạo.

-Hạ Chi

(Nguồn tin)