Lợi dụng hình ảnh bị giảm kích cỡ để đánh cắp thông tin người dùng
Mới đây, các nhà nghiên cứu an ninh mạng thuộc Trail of Bits đã công bố một chiến thuật tấn công mới nhắm vào các hệ thống AI. Bằng cách lợi dụng hình ảnh bị giảm kích thước (downscaled image), chiến thuật này dễ dàng đánh cắp thông tin người dùng thông qua các lệnh độc hại (malicious prompts) ẩn trong những ảnh gửi tới mô hình LLM (Large language model).
Cách thức hoạt động của cuộc tấn công
Khi người dùng tải hình ảnh lên các hệ thống AI, các hình ảnh này thường được tự động giảm chất lượng xuống nhằm tối ưu hiệu suất và chi phí xử lý. Tùy thuộc vào hệ thống, các thuật toán lấy mẫu lại hình ảnh có thể bao gồm: nearest neighbor, bilinear, hoặc bicubic interpolation.
Tất cả các phương pháp này đều tạo ra hiện tượng aliasing (nhiễu mẫu), cho phép các mẫu ẩn (hidden patterns) xuất hiện trên hình ảnh đã bị giảm chất lượng nếu hình ảnh gốc được tạo ra một cách có chủ đích.
Trong thử nghiệm của các nhà nghiên cứu bảo mật thuộc Trail of Bits, một số vùng tối nhất định trong hình ảnh độc hại sẽ chuyển sang màu đỏ, cho phép văn bản ẩn hiện ra bằng màu đen khi hình ảnh được xử lý bằng phương pháp giảm chất lượng bicubic. Điều này dẫn tới việc các mô hình AI sẽ hiểu đoạn văn bản ẩn trên như một phần trong chỉ dẫn của người dùng và tự động kết hợp nó với nội dung đầu vào hợp lệ.
Từ góc nhìn của người dùng, mọi thứ có vẻ bình thường, nhưng trên thực tế, mô hình đã thực thi các chỉ dẫn ẩn, điều này có thể dẫn đến rò rỉ dữ liệu hoặc thực hiện các hành động nguy hiểm khác.
Trong một ví dụ liên quan đến Gemini CLI, các nhà nghiên cứu đã có thể trích xuất dữ liệu từ Google Calendar và gửi đến một địa chỉ email tùy ý, bằng cách sử dụng Zapier MCP với tùy chọn trust=True, cho phép gọi các công cụ mà không cần xác nhận từ người dùng.
Báo cáo cũng giải thích rằng cuộc tấn công này cần được điều chỉnh tùy theo từng mô hình AI, dựa vào thuật toán giảm chất lượng hình ảnh mà hệ thống đó sử dụng. Tuy nhiên, các nhà nghiên cứu xác nhận rằng phương pháp này có thể áp dụng đối với các hệ thống AI sau:
- Google Gemini CLI
- Vertex AI Studio (sử dụng nền tảng Gemini)
- Giao diện web của Gemini
- API của Gemini qua công cụ dòng lệnh
llm - Trợ lý Google (Google Assistant) trên điện thoại Android
- Genspark
Các nhà nghiên cứu bảo mật cũng cảnh báo số lượng các công cụ cũng bị lợi dụng bởi chiến thuật tấn công này có thể mở rộng hơn rất nhiều so với danh sách các công cụ kể trên.
Các khuyến nghị và biện pháp phòng ngừa:
Các nhà nghiên cứu từ Trail of Bits đề xuất rằng các hệ thống AI nên giới hạn kích thước hình ảnh khi người dùng tải lên. Nếu việc giảm chất lượng là bắt buộc, nên hiển thị trước bản xem trước của hình ảnh sau khi xử lý để người dùng thấy rõ nội dung sẽ được gửi đến mô hình ngôn ngữ lớn (LLM).
Họ cũng nhấn mạnh rằng nên yêu cầu xác nhận rõ ràng từ người dùng trước khi thực hiện bất kỳ lệnh gọi công cụ nào có liên quan đến thông tin nhạy cảm – đặc biệt khi hệ thống phát hiện có văn bản trong hình ảnh.
Tham khảo
| Bài viết độc quyền của chuyên gia FPT IS
Nam Anh Mai D. – Trung tâm An toàn, bảo mật thông tin FPT |
