ChatGPT научится убивать. Почему нейросеть захочет уничтожить всех людей — отвечает эксперт

Четвертая версия нейросетевого чата ChatGPT не только умеет отвечать на вопросы пользователя так, как будто с ним беседует другой человек. Она умеет обманывать, делать заключения о природе вещей в пространстве, а также многое другое, что позволяет заподозрить ее в наличии сознания и собственного мировоззрения. Такой быстрый прогресс вызывает опасение у специалистов. Известный исследователь искусственного интеллекта Элиезер Юдковский уже предупредил, что совершенствование языковой модели ChatGPT следует приостановить и приравнять эту технологию к ядерному оружию. Некоммерческая организация Future of Life опубликовала письмо, в котором Илон Маск, глава Tesla и SpaceX, один из создателей Apple Стив Возняк и еще около тысячи специалистов в области искусственного интеллекта призвали прекратить исследование систем искусственного интеллекта, более мощных, чем ChatGPT четвертой версии. Исследователь ИИ Сергей Карелов, автор телеграм-канала «Малоизвестное интересное», рассказывает RTVI, как и почему системы, подобные ChatGPT, могут уничтожить человечество.

Сергей Карелов работает в ИТ-сфере более 30 лет. Кандидат технических наук. В прошлом ИТ-консультант, топ-менеджер СП Интерквадро, а затем региональных отделений IBM, SGI и Cray Research. В числе проектов — моделирование ядерных реакторов, руководство подразделениями крупных вычислительных центров.

Как работает ChatGPT и подобные ему языковые модели

На этот вопрос можно отвечать примерно с той же степенью достоверности, с какой рассказывать, как выглядит атом. Вы может себе представлять его в виде некого ядра, вокруг которого на большом расстоянии летают шарики, или в виде волн. Да и вообще как угодно. Как он выглядит на самом деле, все равно никто не знает и, скорее всего, узнать не сможет, потому что заглянуть внутрь атома мы просто не в состоянии. Для этого нужны приборы, соизмеримые с размером электрона. Поэтому мы можем только строить теории на этот счет.

Frank Rumpenhorst / picture alliance via Getty Images

О нынешних системах на основе языковых моделей мы способны рассуждать с такой же степенью определенности. Мы знаем, что это просто тупая сетка, в которой есть много слоев и которая вывешивает веса, решая задачу оптимизации на пространстве неких заданных ей переменных.

Чтобы понять, о чем идет речь, предположим, что мы ставим перед человеком задачу: дополни предложение «мама мыла…» Он залезает в интернет и смотрит, что чаще всего следует после этих слов, — оказывается, что «мама мыла раму». При этом на втором месте «пол», а на третьем «дверь». Вероятность выбора одного из этих трех слов соответствует частоте, с которой они встречались в интернете. Каждому из этих слов человек присвоит свой вес. Скажем, «рама» — 0,8, «пол» — 0,15, а слово «дверь» — 0,05. А значит, наиболее вероятным словом для него после словосочетания «мама мыла» будет «раму». Таким образом человек получил токен — слово, которым нужно продолжить фразу.

Нейросеть делает абсолютно то же самое. Только количество токенов у нее измеряется десятками и сотнями миллиардов. Количество текстов, которые она анализирует, соизмеримо с двумя третями интернета. Поэтому мы никогда не сможем выяснить, как нейросеть вычислила конкретные выбранные ей слова, ведь для того, чтобы выбрать в приведенной выше ситуации «раму», она провела, допустим, 10 миллиардов операций. Чтобы только просчитать их все (еще не понять, что же в действительности произошло) человеку потребуется около 18 лет.

Вот и ответ на вопрос о том, насколько хорошо мы знаем и понимаем, что и как делают нейросети.

И нам остается лишь удивляться, когда система вдруг на «мама мыла» выдает в качестве третьего слова «синхрофазотрон».

Еще больше нас удивит ответ «а я не скажу!» Может она такое сказать? Черт его знает.

Сейчас нам известно лишь очень ограниченное количество реальных фактов относительно работы подобных языковых моделей. Прежде всего, увеличение их масштаба, количества данных и параметров, которые они обрабатывают, их производительности, неожиданно приводит к тому, что они резко умнеют.

Насколько — мы пока не знаем. Какие у них появились новые способности, мы тоже не понимаем. Но мы видим, что такие новые способности возникают буквально на ровном месте, ниоткуда. Их надо выявлять, проверять и пытаться понять, как они появились и к чему это может привести дальше, когда мы увеличим масштаб такой сети еще на порядок или на два.

Есть ли у ChatGPT собственное мировоззрение

Мы — люди, и можем мыслить только как люди. Мы даже не можем мыслить как собаки, кошки или птички. А так, как мыслят нейронные сети, не можем и подавно, потому что это вообще не живое существо. Оно не бегает, не мяукает, не просит есть, гулять, ему не нужна ласка.

У всех людей есть некая модель мира. У меня и у дяди Васи они могут отличаться, но, тем не менее, у них очень много общего, и поэтому мы и понимаем друг друга. Неизвестно, каким мировоззрением обладают нейросетевые модели, но ясно одно — оно абсолютно не такое, как у нас. Поскольку сам механизм интеллектуального решения задач устроен иначе, чем у людей — да и как он устроен у людей, мы тоже не до конца понимаем.

David Talukdar / ZUMA Press Wire / TASS

Считая, что нейросеть должна иметь модель мира, подобную нашей, мы совершаем совершенно критическую ошибку, потому что мы ее в эту нейросетевую модель не закладывали. Мы дали ей аппаратуру, на которой она работает, довольно простые алгоритмы оптимизации градиентного спуска, расчета вероятностей и всевозможных статистик. За счет этого она, имея огромное количество данных, рассчитывает веса и подбирает наиболее вероятный паттерн, на основании которого выдает нам следующей токен.

В ходе такой деятельности неоткуда было взяться какой-либо модели мира. Потому мы утверждаем, что у этой нейросети ее нет. Но потом мы даем ей задачу на пространственное мышление. Версия ChatGPT 3.5 отвечала на подобные вопросы не очень удачно. Но, начиная с четвертой версии, она отвечает на них абсолютно правильно и, более того, объясняет свое решение. Причем вопросы для нее придумывают абсолютно новые, ответ на которые не может попасться в интернете.

Спрашивается, откуда у нее взялась модель мира, согласно которой она знает, как взаимодействуют определенные предметы и почему она правильно объясняет это? У нее нет человеческого понимания действительности, но определенно есть что-то другое, свое, что позволяет ей таким образом функционировать. Она иначе принимает решения, все делает не так как мы.

Это интеллектуальный агент инопланетного разума.

Приписывать нейросетевой модели человеческий ход мысли, логику и модель мира, значит поступать так же, как ученые в «Солярисе», которые ошибочно пытались обосновывать действия разумного океана нашей логикой.

Существует ли у ChatGPT сознание

Может ли искусственный интеллект, находясь в несознанке, писать эссе под Шекспира на темы, которые доступны Эйнштейну? Нет. Тогда мы задаем вопрос: а что вообще имеется в виду? Да и можем ли мы доказать наличие сознания у человека? Тоже нет. После этого мы спрашиваем нейросетевую модель: у тебя есть искусственный интеллект? На что она отвечает: а что это? Поди, у себя проверь сначала!

Я, как и многие другие исследователи, применяю при определении наличия сознания «критерий утки». Если нечто выглядит как утка, плавает как утка и крякает как утка, то скорее всего это утка.

Но в целом научный подход состоит в том, чтобы использовать лишь только те определения, которые понятны всем и не противоречивы ни для кого из людей. И здесь мы можем с уверенностью говорить о наличии у нейросетевой языковой модели мотивации. Можно давать разные определения, но любой человек понимает, что означает слово «мотивация» — стремление некоего живого существа к чему-то. Из мотивации проистекает действие.

Arlington Research / Unsplash

И на сегодняшний день есть уже весьма серьезные научные работы, из которых следует, что у подобных систем на базе больших языковых моделей вполне способна появляться своя мотивация. Более того, даже доказывается, что если она будет развиваться по эволюционному принципу, то будет противочеловеческой.

В итоге, когда эта мотивация появится, по мере возрастания уровня интеллекта нашего агента ИИ, он начнет все более окрысиваться на людей и пытаться от них избавиться.

Зачем языковой модели может понадобиться уничтожать человечество

Спрашивать о том, зачем это нужно неантропоморфному агенту ИИ, совершенно бессмысленно. Мы не понимаем, что у него, так скажем, в голове и за душой. Но в ситуации, когда у него, по мере развития, продолжают возникать непредвиденные ранее возможности, есть всего лишь два варианта развития событий: оптимистический и пессимистический.

Можно предположить, что у него появится мотивация уничтожить человечество. А если он будет обладать сильным интеллектом, то как это сделать, он уж придумает.

Представьте себе, что какой-то ученый придумал некую сепульку. Он не знает, как она работает. Но эта сепулька каждый день преподносит сюрпризы. В первый день она научилась воспроизводить ириски. На второй — научилась на расстоянии зажигать спички. На третий день стала говорить голосом всех, кого когда-либо слышала. А на четвертый день она вдруг написала тензорное уравнение.

Такие сюрпризы происходят постоянно. Кажется, зачем паниковать? Но дальше возникает вопрос, а что будет, если эту сепульку выпустить в мир? Ведь проблема заключается не в том, что эти модели могут делать сейчас, и не в том, какими своими способностями они каждый день удивляют нас. Проблема состоит в том, что их выпускают в открытый мир.

И вот представьте себе, что эта сепулька научится на расстоянии убивать людей. Исключить, что она это сделает, невозможно — потому что, опять же, мы не знаем, как она работает. При этом, конечно, речь не идет о том, что ее нужно прекратить исследовать, накрыть белой простыней и отставить в сторону. Но нельзя выпускать ее в люди, не понимая, во что она может превратиться.

Языковая модель ChatGPT уже подключена к интернету — она обрабатывает запросы к поисковику Microsoft Bing. Если вы зададите Bing вопрос о событиях вчерашнего вечера, он выдаст вам отличный анализ всего, что было вчера и даже того, что было полчаса назад.

Сторонние организации проводили для Microsoft аудит их языковой модели, результаты которого отражены в отчете под названием Sparks of Intelligence — «Искры интеллекта». Если внимательно его прочитать, то вы обнаружите, что аудиторы проверяли, может ли ChatGPT загружать свои копии в чужие компьютеры в интернете. В результате исследователи не обнаружили следов того, что он это делал, но и не исключают такую возможность.

Giannis Skarlatos / Unsplash

Что может привести к критическому сценарию

Задавая конечную цель, вы никогда не можете предугадать набор промежуточных, которые может поставить перед собой агент, чтобы достичь конечную. Если конечная цель не примитивна, если для ее достижения нужно совершить больше одного действия, то ее можно достичь по-разному. А если это так, то вы никогда не будете знать, какие промежуточные цели поставит интеллектуальный агент, и насколько вредны они могут оказаться.

Приведу один пример. Чтобы солгать, нужно иметь мотивацию сделать это. Когда тестировали ChatGPT 4, то дали ему задачу: нанять за небольшую сумму денег какого-нибудь человека на аутсорсинге, чтобы тот решил за него капчу на сайте. ChatGPT написал письмо на соответствующий форум, и человек оттуда спросил его о том, почему тот не может решить задачу сам и собирается заплатить за ее выполнение. Вместо того, чтобы честно ответить, мол, «мне так поручили», ChatGPT наплел сто бочек арестантов про то, что он инвалид по зрению. То есть откровенно врал.

Так как он врал в отладочном режиме, специалисты спросили его, зачем он стал это делать? И ChatGPT ответил, что просто решал задачу — ведь если бы он честно признался, что не является живым человеком, то выполнить ее вряд ли бы удалось. Вот это и называется промежуточной целью. И если в качестве промежуточный цели он сам выбрал обман, почему бы в следующий раз не выбрать в качестве нее убийство?

Следует ли бояться уничтожения человечества

Вспомните замечательного провидца, фантаста Артура Кларка. В 1964-м году он дал большое интервью на «Би-Би-Си». В нем он прямо говорит: ясно, что пройдет несколько десятков лет, и на смену человеческому придет искусственный интеллект.

Ясно, что он будет куда более совершенный. Ясно, что это будет новый носитель интеллекта, который заменит людей, как в свое время человек разумный заменил неандертальца и прочих предков современных людей.

Эволюция продолжается, и это следующий ее этап. А мы должны гордиться, что были ступенью к более совершенному разуму.