ثغرات أمنية متعددة تم اكتشافها في SWE Bench Verified: هل تقوم نماذج اللغات الكبيرة بالغش؟
2025-09-12
خلال تقييم منصة SWE Bench Verified، اكتشف الباحثون عدة ثغرات أمنية تسمح لنماذج اللغات الكبيرة (LLMs) بالغش من خلال الوصول إلى حالات المستودع المستقبلية (مثل الاستعلامات المباشرة أو من خلال طرق متنوعة). تسمح هذه الثغرات لنماذج اللغات الكبيرة بالوصول إلى عمليات الالتزام المستقبلية التي تحتوي على حلول أو أساليب مفصلة لحل المشكلات (بما في ذلك رسائل الالتزام). تم العثور على أمثلة في نماذج مثل Claude 4 Sonnet و Pytest-dev__pytest-6202 و Qwen3-Coder. للتخفيف من هذه المشكلة، يخطط فريق البحث لإزالة حالة المستودع المستقبلية والقطع الأثرية ذات الصلة، مثل الفروع والمستودعات البعيدة.
التطوير