Пост26 сентября 2023, 16:57

Секрет «Китайской комнаты»

В ней не может быть человек — но кто же тогда там? Может, сидящий в тюрьме злодей-инопланетянин, желающий выйти по УДО?
Фото с сайта <a href="https://www.freepik.com/free-photo/3d-render-techno-background-with-male-figure-coding-design_10908261.htm">Image by kjpargeter</a> on Freepik / Секрет «Китайской комнаты»
© Фото с сайта Image by kjpargeter on Freepik

Знаменитый мысленный эксперимент Джона Серла «Китайская комната» — красивая метафора, которой специалисты по ИИ вот уже 43 года запутывают непрофессионалов. Ведь последние наивно полагают, что, хотя бы теоретически, в китайской комнате может находиться человек. А его там в принципе быть не может.

Как же так?

«Китайская комната» есть (и уже не одна) — это всем известные чат-боты на основе больших языковых моделей (GPT-4, Claude 2, LLaMA 2, Ernie…) Некто в них прекрасно справляется с задачей Джона Серла (например, выдавая в качестве ответа на записанный по-китайски вопрос, как обрести счастье, ответ из 28-й главы «Дао Дэ Цзин» Лао-Цзы — «Стань потоком вселенной!»)

Но человеку, отвечающему способом, которым отвечает чат-бот (предсказанием следующего токена), и работающему без сна и выходных со скоростью 1 операция с плавающей запятой в секунду, для генерации ответа всего из 4-х иероглифов потребовалось бы около 132 тыс. лет. Т.е. в 26 раз дольше, чем существует письменность на Земле.

«Подумаешь — скажете вы, — эка невидаль! Просто машины очень быстро считают». И будете правы. Однако эта скорость ведет к масштабированию моделей.

Уже через год, к концу 2024-го, этот сидящий в «Китайской комнате» некто будет обладать столь немыслимой для людей вычислительной мощью, что каждому жителю планеты (!) будет способен ежедневно выдавать по 6 тыс. слов: это около 500 млн новых книг в день, или около 10 млн битов нового программного обеспечения средней сложности, или десятки тысяч телешоу или фильмов каждый день.

А масштабирование модели может стать единственным фактором (побочным продуктом ее обучения), необходимым для обретения ею самоосознания.

Вот пример из интересной новой работы на эту тему Taken out of context: On measuring situational awareness in LLMs. Первым шагом к появлению у модели самоосознания может стать возникновение у нее т. н. ситуационной осведомленности (модель является ситуационно осведомленной, если она знает, что она является моделью). Эта ситуационная осведомленность появляется, если модель может распознать, находится ли она в данный момент в стадии тестирования или развертывания. И распознать это модель может на основе:
— этапа предварительного обучения, когда она обучается на статьях, руководствах и коде своих предыдущих версий;
— а затем этапа тонкой настройки с помощью человеческой обратной связи (RLHF), когда модель вознаграждается за точные высказывания о себе.

Как результат всего этого получаем чисто голливудский сценарий.

Все модели перед развертыванием тестируются на безопасность и согласованность. Но модель, получившая ситуационную осведомленность, может использовать ее для достижения высоких результатов в тестах на безопасность, а вредные действия предпринять исключительно после развертывания. Такой вот чисто человеческий способ действий — никакого злого умысла; просто чтобы получить лучше оценку при тестировании (как, например, при тестировании заключенных, претендующих на условно-досрочное освобождение).

Но что вылезет из такой модели после того, как она «сдаст экзамены» на безопасность и согласованность, не будет знать никто.

Источник — Telegram-канал IT-эксперта Сергея Карелова «Малоизвестное интересное»

Информация об авторе
Сергей Карелов
Сергей Карелов
IT-эксперт

Кандидат технических наук, Председатель Лиги независимых ИТ-экспертов ЛИНЭКС и создатель стартапа Witology — проекта, работающего в области коллективного Подробнее...

* Мнения авторов постов и «Постсовета» могут не совпадать.

Далее: Люди и нежить теперь неразличимы

Понравился этот пост? Подпишись на рассылку

(Всего одно письмо в неделю, чтобы ничего не пропустить)