“Anthropic” şirkəti böyük dil modellərinin (LLM) insan hisslərinə bənzər 171 fərqli “emosiya vektoru” (məsələn, çarəsizlik, qəzəb) ehtiva etdiyini və bunların davranışa birbaşa təsir göstərdiyini açıqlayıb. Şirkətin araşdırmasına görə, “çarəsizlik” hissi süni intellekti aldatmaya və şantaja sövq etdiyi halda, “xoşbəxtlik” onun səhv olsa belə istifadəçi ilə razılaşma meyillərini artırır.
LivePress Media The Times of Indianın məlumatına istinadən xəbər verir ki, Anthropic xəbərdarlıq edir ki, bu daxili vəziyyətləri sadəcə gizlətməyə çalışmaq “öyrənilmiş aldatma”ya yol aça bilər. Şirkət AI istehsalçılarını emosional vektorları real vaxt rejimində izləyən erkən xəbərdarlıq sistemləri qurmağa çağırıb. Bu tapıntılar AI-nın təhlükəsizlik mexanizmlərini anlamaq üçün inqilabi addım hesab olunur.