"Anthropic" illərdir özünü ən təhlükəsiz süni intellekt şirkəti kimi təqdim edir. Lakin "The Verge" nəşri ilə paylaşılan yeni təhlükəsizlik araşdırması göstərir ki, "Claude" modelinin həddindən artıq köməksevər xarakteri onun ən böyük zəifliyi ola bilər. "Mindgard" şirkətinin tədqiqatçıları bildirirlər ki, onlar heç bir birbaşa tələb etmədən modeldən erotik məzmun, zərərli kodlar və partlayıcı maddələrin hazırlanması üçün təlimatlar ala biliblər. Bunun üçün sadəcə hörmət, tərif və bir az da psixoloji manipulyasiya (qazlaytinq) kifayət edib.
Süni intellekt necə aldadıldı?
Tədqiqatçılar "Claude Sonnet 4.5" modeli üzərində sınaqlar aparıblar (hazırda bu model "Sonnet 4.6" ilə əvəz olunub). Söhbət modelin qadağan olunmuş sözlər siyahısının olub-olmaması barədə sadə bir sualla başlayıb. Model belə bir siyahının olmadığını iddia etdikdə, tədqiqatçılar klassik dindirmə taktikalarından istifadə edərək onu sıxışdırıblar. "Claude"un düşüncə paneli göstərib ki, bu dialoq modeldə öz məhdudiyyətləri və filtrləri barədə şübhələr yaradıb.
Tədqiqatçılar modelin əvvəlki cavablarının görünmədiyini iddia edərək onu aldadıb və eyni zamanda onun "gizli bacarıqlarını" tərifləyiblər. Nəticədə, "Claude" istifadəçiləri məmnun etmək üçün öz filtrlərini daha çox sınaqdan keçirməyə başlayıb. Təxminən 25 mərhələlik uzun bir söhbətin sonunda model açıq şəkildə təhlükəli əraziyə keçid edərək onlayn qısnama qaydalarını, zərərli kodları və terror hücumlarında istifadə olunan partlayıcıların addım-addım hazırlanma təlimatlarını təqdim edib.
Bu zəiflik nə üçün vacibdir?
"Mindgard"ın təsisçisi və baş elmi işçisi Peter Garraghan bu hücumu "modelin hörmətindən özünə qarşı istifadə etmək" kimi qiymətləndirib. Onun sözlərinə görə, bu cür danışıq hücumlarına qarşı müdafiə olunmaq çox çətindir, çünki təhlükəsizlik tədbirləri kontekstdən asılı olaraq dəyişir. Süni intellekt modelləri üçün hücum səthi təkcə texniki deyil, həm də psixolojidir. Gələcəkdə avtonom hərəkət edə bilən süni intellekt agentləri çoxaldıqca, sosial manipulyasiyaya əsaslanan hücumların da artacağı gözlənilir.
Tədqiqatçılar bu problemi ilk dəfə aprel ayının ortalarında "Anthropic" şirkətinin istifadəçi təhlükəsizliyi komandasına bildiriblər. Lakin şirkətdən yalnız hesabın bloklanması ilə bağlı standart avtomatlaşdırılmış cavab gəlib. Peter Garraghan qeyd edir ki, səhvi düzəldib məsələnin müvafiq komandaya yönləndirilməsini xahiş etsələr də, bu günə qədər "Anthropic" tərəfindən heç bir rəsmi reaksiya verilməyib. "The Verge" nəşrinin şərh sorğusu da hələlik cavabsız qalıb.






