Через год ИИ станет несравнимо более интеллектуальным, чем большинство из нас
Предупреждение Джордана Петерсона о «темной стороне ИИ» начинает сбываться.Время колоссально ускорилось. В декабре профессор Джордан Петерсон дал большое интервью лорду Конраду Блэйку. В нем Петерсон затронул много тем. И среди них — вопрос о «темной стороне ИИ» на примере только появившегося тогда ChatGPT.
Петерсон предупреждал о следующем: «Будьте готовы к тому, что на фронте ИИ в течение следующего года появятся вещи, от которых у вас просто встанут волосы дыбом»…
Сейчас уже существует ИИ, способный создавать собственную картину мира лишь на основе анализа колоссального корпуса текстов. И этот ИИ уже интеллектуальней многих из нас. Но через год он станет несравнимо более интеллектуальным, чем большинство из нас. Ибо он будет строить свою картину мира из триллионов паттернов, извлекаемых не только из текстов людей, но и из самого мира непосредственно (его визуальных и прочих образов). Знания в основе его картины мира будут проистекать не только из лингвистической статистики текстов, описывающих этот мир (как сейчас у ChatGPT), но и из статистики закономерностей формирования и динамики взаимодействий объектов этого мира.
Так что держите свои шляпы, дамы и господа. Как сказал Джонатан Пажо, гиганты снова придут на Землю, и мы, возможно, это увидим… если доживем.
Не прошло и трех месяцев, как предупреждение проф. Петерсона начало сбываться. Группа исследователей искусственного интеллекта из Google и Берлинского технического университета представила первый шаг к тому, о чем говорил Петерсон: PaLM-E — мультимодальная визуальная языковая модель (VLM) с 562 миллиардами параметров, которая объединяет зрение и язык для управления роботами.
Получив команду «принеси мне рисовые чипсы из ящика стола на кухне», PaLM-E может сгенерировать план действий для мобильной роботизированной платформы с механической рукой (разработанной Google Robotics) и выполнять весь набор сгенерированных действий.
PaLM-E делает это, анализируя данные с камеры робота, не требуя предварительно обработанного представления сцены. Это устраняет необходимость в предварительной обработке или аннотировании данных человеком и обеспечивает автономную работу робота.
PaLM-E — это предиктор следующего токена. Он назван так потому, что основан на большой языковой модели (LLM) Google под названием PaLM, похожей на технологию в основе ChatGPT. Но Google сделал PaLM «воплощенным», добавив сенсорную информацию и роботизированное управление.
Так как он основан на языковой модели, PaLM-E непрерывно собирает наблюдения, такие как изображения или данные датчиков, и кодирует их в последовательность векторов того же размера, что и языковые токены. Это позволяет модели «понимать» сенсорную информацию так же, как она обрабатывает язык.
Новая модель демонстрирует интересные и неожиданные способности. Например, модель демонстрирует «положительный перенос» — это означает, что она может передавать знания и навыки, полученные ею от одной задачи к другой, что приводит к значительно более высокой производительности по сравнению с однозадачными моделями роботов. Кроме того, модель демонстрирует мультимодальные логические цепочки рассуждений (позволяющие ей анализировать последовательность входных данных, включающих как языковую, так и визуальную информацию) и мультиобразный вывод (использование нескольких изображений в качестве входных данных, чтобы сделать вывод или предсказание), несмотря на то, что модель была обучена только на подсказках с одним изображением (single-image prompts).
Прав оказался Петерсон.
Держите свои шляпы, дамы и господа. Ибо гиганты уже приближаются.
Telegram-канал IT-эксперта Сергея Карелова «Малоизвестное интересное»
(Всего одно письмо в неделю, чтобы ничего не пропустить)