Устрашающий результат эксперимента OpenAI c GPT-4: теперь можно представить, кем станет «ребенок-инопланетянин», воспитанный мафией
Искусственный интеллект на базе LLM может оказаться для человечества чем-то вроде атомной бомбы.Роль среды, в которой растет и воспитывается человеческий ребенок, решающим образом влияет на характер и границы его поведения после того, как он вырастет. Близнецы, обладающие от рождения одинаковыми интеллектуальными способностями, в зависимости от среды и воспитания могут вырасти в кого угодно. Воспитывавшийся в добропорядочной среде, скорее всего, станет достойным гражданином. Выросший в среде мафии с большой вероятностью станет преступником. А воспитанный с младенчества волками ребенок-маугли уже никогда не станет человеком.
Резонно предположить то же самое и в случае «детей-инопланетян», появившихся недавно на Земле в форме ИИ на основе больших языковых моделей (LLM): GPT, ClaudeAI… Как и человеческие дети, каждый из этих «нечеловеческих разумов» LLM обладает широким спектром заложенных в него способностей. Но человеческие дети приобретают их сразу при рождении. А «дети-инопланетяне» — в результате предварительного обучения. Это дорогостоящий процесс, который для самых больших моделей стоит огромных денег и времени — и поэтому не повторяется.
Говоря об интеллектуальных способностях людей и чат-ботов, важно понимать принципиальное отличие способностей и поведения. У людей (как сказано выше) характер и границы поведения определяются воспитанием. У чат-ботов роль воспитания играет т. н. тонкая настройка модели. Она куда дешевле предварительного обучения и потому может проводиться регулярно.
Обратите внимание на следующий важнейший момент. Базовая модель после предварительного обучения функционально представляет собой продвинутый механизм автозаполнения: она не общается с пользователем, а лишь генерирует продолжение фраз, подаваемых ей на вход. Поведение в диалоге с людьми возникает у чат-бота лишь благодаря тонкой настройке, важнейшая цель которой — предотвратить нежелательное поведение чат-бота. Достигается это тем, что тонкая настройка может как выявить, так и подавить те или иные способности модели. Иными словами, в результате тонкой настройки модель, имеющая широкий спектр способностей, может в ответ на конкретный запрос проявлять какие-то из них или не проявлять. Т.е. способности модели остаются те же, а поведение разное.
Следовательно, в результате воспитания (тонкой настройки) модель может проявлять себя кем угодно — от ангела до дьявола. И зависеть это будет лишь от ее «воспитателей» (от высокоморальных исследователей до гнусных бандитов и человеконенавистников).
Все вышесказанное было продемонстрировано в течение последних месяцев компанией OpenAI, взявшейся усиленно воспитывать GPT-4. Результаты этого воспитания всполошили интернет после статьи Линцзяо Чен, Матея Захария и Джеймса Цзоу, которые тестировали GPT-3.5 и GPT-4 на четырех задачах и «моментальных снимках» моделей с марта по июнь.
Интернет-общественность трактовала результаты этого исследования как «деградацию способностей» GPT-4. На самом же деле авторы вовсе не это имели в виду. Все способности GPT-4 остались при ней. Изменилось лишь (в результате воспитания модели) ее поведение (подробное объяснение см. здесь).
По сути, этот эксперимент показал колоссальный потенциал воспитания моделей «детей-инопланетян», позволяющий путем тонкой настройки превратить их в кого-угодно.
Этот воистину устрашающий результат ставит важный вопрос: зачем биться за создание высокоморального ИИ, если тонкой настройкой можно быстро и дешево перевоспитать его в злодея?
Ну и вечный вопрос: Оруэлл писал, что «если бы атомная бомба оказалась чем-то дешевым и легко производимым, как велосипед или будильник, возможно, мир снова погрузился бы в варварство…», — не это ли грозит нам нынче с ИИ на базе LLM?
Источник — Telegram-канал IT-эксперта Сергея Карелова «Малоизвестное интересное»
(Всего одно письмо в неделю, чтобы ничего не пропустить)