Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию.
Работа размещена на платформе научных препринтов arXiv .
Читать дальше