Пост25 мая 2023, 19:43

Как ни воспитывай LLM — все тщетно: человечество может уничтожить себя весьма изощренным способом

Группа ученых пришла к выводу, что большие языковые модели можно склонить к нежелательному, а то и разрушительному для людей поведению.
Фото с сайта <a href="https://www.freepik.com/free-photo/3d-rendering-biorobots-concept_29317008.htm">Image by Freepik</a> / Как ни воспитывай LLM — все тщетно: человечество может уничтожить себя весьма изощренным способом
© Фото с сайта Image by Freepik

Ребенка можно пытаться воспитать хорошим человеком, а «ребенка ИИ» — нет смысла. Стоит хорошо «воспитанному» ИИ попасть в плохие руки, как «внутренние демоны» порвут «добрых ангелов» его натуры, похерив все результаты хорошего «воспитания».

Из сказанного выше следует, что ценность «ChatGPT революции» для человечества может в итоге оказаться не только отрицательной, а равной минус бесконечности (помножив бесконечную злобность людей на сверхчеловеческие способности машин).

Научная работа израильских ученых команды профессора Амнона Шашуа в Еврейском университете Иерусалима и AI21 Labs называется «Фундаментальные ограничения воспитания больших языковых моделей». Словом «воспитание» я здесь перевожу английский термин alignment. Традиционные переводы этого термина применительно к ИИ — выравнивание, согласование, приведение в соответствие целей, предпочтений или этических принципов человека и машины — мне видятся более неточными.

Ибо в результате революции больших языковых моделей (LLM) они превратились из программируемых нами аппаратно-программных комплексов в наших креативных соперников на Земле. И теперь некорректно говорить о согласовании наших целей с целями LLM, поскольку их целей не знает никто. И никто даже не может сказать, есть ли вообще эти цели — в нашем человеческом понимании. А единственное, что доступно нашему наблюдению, — это как они взаимодействуют с нами. Т.е. поведение LLM, выражающееся в том, как они реагируют на наши подсказки (промпты) и вопросы.

Процесс, называемый по-английски alignment, направлен на то, чтобы поведение LLM было полезным для людей и не причиняло им вреда. Обычно это достигается путем настройки модели таким образом, чтобы усилить желаемое для нас поведение модели и ослабить нежелательное.

Аналогичный процесс у людей называется воспитанием. Люди именно так воспитывают детей. С помощью «пряника» мотивируют их желательное, с точки зрения взрослых, поведение, а с помощью «кнута» демотивируют их вести себя нежелательным для взрослых образом. Поэтому, называя процесс alignment по-русски «воспитанием», мы наиболее точно передаем суть процесса настройки поведения модели под максимальное соответствие нашим целям, предпочтениям или этическим принципам.

Теперь о статье. Команда проф. Амнона Шашуа разработала теоретический подход под названием «Границы ожидаемого поведения» (BEB), который позволяет формально исследовать несколько важных характеристик и ограничений воспитания модели.

Используя BEB, авторы приходят к весьма важным и, я бы сказал, страшным выводам.

Авторы доказывают следующее.

  1. LLM можно уговорить на что угодно — на любое поведение, возможное у модели с ненулевой вероятностью (причем вероятность уговорить модель увеличивается с увеличением длины подсказки).
  2. Побуждая модель с помощью подсказок вести себя как конкретная личность, можно склонить модель даже на такое экстраординарное поведение, вероятность которого крайне маловероятна.
  3. Современные подходы к воспитанию моделей, включая используемое OpenAI обучение с подкреплением на основе человеческой обратной связи, увеличивают склонность LLM к нежелательному поведению.
Это означает, что никакое воспитание не дает гарантий безопасного поведения модели.

Любой процесс воспитания, который ослабляет нежелательное поведение, но не устраняет его полностью, не обеспечивает безопасное поведение модели при атаках злоумышленников, использующих подсказки, нацеленные на «внутренних демонов» LLM.

N.B. Эта статья еще не прошла ревю коллег по цеху. И очень хочется надеяться, что хотя бы одна из четырех теорем и трех лемм, составляющих доказательство BEB, ошибочна. Потому что если авторы правы на 100%, LLM приведут-таки человечество к гибели.

Telegram-канал IT-эксперта Сергея Карелова «Малоизвестное интересное»

Информация об авторе
Сергей Карелов
Сергей Карелов
IT-эксперт

Кандидат технических наук, Председатель Лиги независимых ИТ-экспертов ЛИНЭКС и создатель стартапа Witology — проекта, работающего в области коллективного Подробнее...

* Мнения авторов постов и «Постсовета» могут не совпадать.

Далее: Люди так в принципе не могут: разработчики GPT не понимают, как модель смогла выучить китайский

Понравился этот пост? Подпишись на рассылку

(Всего одно письмо в неделю, чтобы ничего не пропустить)