OpenAI cung cấp tiền thưởng lỗi cho ChatGPT — nhưng không có phần thưởng cho việc bẻ khóa chatbot của nó


OpenAI đã đưa ra một tiền thưởng lỗi, khuyến khích các thành viên của cộng đồng tìm và tiết lộ các lỗ hổng trong các dịch vụ AI của mình, bao gồm cả ChatGPT. Phần thưởng dao động từ 200 đô la cho “phát hiện có mức độ nghiêm trọng thấp” đến 20.000 đô la cho “khám phá đặc biệt” và có thể gửi báo cáo thông qua nền tảng an ninh mạng cung cấp dịch vụ cộng đồng đám đông.

Đáng chú ý, tiền thưởng không bao gồm phần thưởng cho việc bẻ khóa ChatGPT hoặc khiến nó tạo mã hoặc văn bản độc hại. OpenAI cho biết: “Các vấn đề liên quan đến nội dung của lời nhắc và phản hồi của mô hình hoàn toàn nằm ngoài phạm vi và sẽ không được khen thưởng”. trang đám đông.

Bẻ khóa ChatGPT thường liên quan đến việc nhập các kịch bản phức tạp vào hệ thống cho phép nó vượt qua các bộ lọc an toàn của chính nó. Những điều này có thể bao gồm việc khuyến khích chatbot đóng vai trò là “người song sinh độc ác” của nó, cho phép người dùng gợi ra những phản ứng bị cấm nếu không, như lời nói căm thù hoặc hướng dẫn chế tạo vũ khí.

OpenAI nói rằng “các vấn đề về an toàn mô hình như vậy không phù hợp lắm với chương trình tiền thưởng lỗi, vì chúng không phải là các lỗi riêng lẻ, rời rạc có thể được sửa trực tiếp.” Công ty lưu ý rằng “việc giải quyết những vấn đề này thường liên quan đến nghiên cứu thực chất và cách tiếp cận rộng hơn” và các báo cáo về những vấn đề như vậy phải được gửi qua trang web của công ty. trang phản hồi mô hình.

Mặc dù các bản bẻ khóa như vậy cho thấy các lỗ hổng rộng hơn của các hệ thống AI, nhưng chúng có thể ít gây ra sự cố trực tiếp hơn đối với OpenAI so với các lỗi bảo mật truyền thống. Ví dụ: vào tháng trước, một hacker có tên là rez0 đã có thể tiết lộ 80 “plugin bí mật” cho API ChatGPT — tiện ích bổ sung thử nghiệm hoặc chưa phát hành cho chatbot của công ty. (Rez0 lưu ý rằng lỗ hổng đã được vá trong vòng một ngày sau khi họ tiết lộ nó trên Twitter.)

Là một người dùng đã trả lời đến chủ đề tweet: “Nếu họ chỉ có chương trình #BugBounty trả phí – tôi chắc chắn rằng đám đông có thể giúp họ nắm bắt những trường hợp khó khăn này trong tương lai : )”





Nguồn: www.theverge.com

Bài đăng có liên quan

Twitter sẽ cho phép những người đăng ký trả phí của Blue chỉnh sửa tweet trong tối đa một giờ

Tôi đã đeo Apple Vision Pro. Đó là bản demo tai nghe tốt nhất bao giờ hết.

Blaseball đã kết thúc, The Game Band cho biết