Недавно компания OpenAI представила новую версию своей большой языковой модели ChatGPT 4o. Она способна вести естественный разговор с пользователем, учитывать его эмоции, анализировать окружающее пространство с помощью камеры и многое другое. О том, как работают большие языковые модели и на что они будут способны через несколько лет, RTVI рассказал исследователь ИИ Сергей Карелов, ведущий телеграм-канала «Малоизвестное интересное».
Каким образом большая языковая модель генерирует ответы на вопросы
Генеративный искусственный интеллект больших языковых моделей — это иная форма разума, возможно, иная форма сознания, отличного от нашего. Сейчас, пожалуй, вряд ли кто с этим даже начнет спорить. И чем меньше будет наше желание искать в нем что-то антропоморфное, тем будет продуктивнее и точнее будет наш разговор.
Прежде всего отметим, что генеративный ИИ никто не учит, он учится сам. Перед ним не сидят преподаватели, говорящие ему «делай так, а не вот так». На самом деле все большие языковые модели работают по такому принципу, что их даже прозвали «стохастическими попугаями», анализируя последовательности любых символов и предсказывая каким должен быть следующий символ на основании предыдущих, которые они видели до того.
Вариантов огромное количество. Эти системы, делая триллион сравнений, находят некие закономерности. Например, что в этом конкретном случае вероятнее всего после буквы «е» должна идти «г».
Представить себе, что таким образом можно вообще написать хоть сколько-нибудь осмысленный текст, мы не можем. За всю жизнь мы прочитываем несколько сотен, может — несколько тысяч книг. Анализировать такие объемы текстов, как большая языковая модель, мы не способны.
Почему большая языковая модель иногда выдает ложную информацию
Существует понятие конфабуляций, ложных воспоминаний. Дело в том, что наш мозг не имеет контакта непосредственного с реальностью. Он обрабатывает информацию, поступающую от органов чувств. Проще всего будет привести в пример зрение. Получая кучу сигналов, которые приходят через зрительный нерв от сетчатки, наш мозг выстраивает свою визуальную модель мира. К ней добавляются тактильная, слуховая, и так далее.
Но мы должны понимать, что эта картина не отражает в полной мере объективную суть вещей. Это, скажем так, ложная модель, которую строит наш мозг, потому как он, повторюсь, сам не имеет прямого доступа к реальности. Для него нет никакой разницы между ложным и реальным воспоминанием. И то, и другое, является моделью, созданной им самим.
То же самое верно и в случае с большими языковыми моделями. Ни мы, ни они никогда точно не могут сказать, является ли их воспоминание ложным или истинным. К тому же языковые модели никогда не знают, что за информацию они «едят», ведь ее им буквально подают. Они не сами ее выбирают, но уже на основе нее строят свою картину мира. И во время этого процесса создаются не просто миллиарды матриц, но и и многоуровневые иерархии над ними.
Кстати, уже поэтому утверждение, что большая языковая модель является «стохастическим попугаем» неверно. Да, она является им на самом нижнем уровне, на том, на котором в нее заложили алгоритм. Но что она сама дальше придумала и какие уровни выстроила, не знает никто. И поэтому единственный способ понижать уровень галлюцинаций нейросети, — это повышать интеллектуальный уровень разговора, конкретизируя запрос.
Знает ли большая языковая модель правила робототехники и следует ли им
Никаких правил робототехники в нее не вдалбливали. Для большой языковой модели это такой же бессмысленный набор символов, как все остальное. Понятие смысла у этих моделей отсутствует.
Это люди выделяют понятия и смыслы, приземляющиеся на нашу картину мира, в котором мы живем. Потом все это накладывается на наши внутренние и внешние потребности как личности. Если лишить нас наших личностей, то мы станем сумасшедшими.
Ничего этого у больших языковых моделей нет. У них нет картины мира, у них нет понятия смысла, этики. Они просто оперируют огромным числом гигантских матриц, находя в них неизвестные нам зависимости и выстраивая из них многоуровневые наборы характеристик и функций.
Как это работает, не знает никто, но оно работает. Совсем недавно вышел новый отчет о том, что ChatGPT-4 анализирует рынки лучше любого финансового аналитика. И если кто-то скажет вам, что понимает как модель это делает, сопоставляя триллионы частотных сопоставлений матриц, он просто гнусно вас обманывает.
Как для больших языковых моделей задают ограничения
Эти ограничения ставятся довольно механически, по типу все тех же подсказок для нейросети. Помимо примитивной фильтрации и модерации ответов нейросети (вымарывание из ответов всего запретного), особо действенных инструментов анализа у разработчиков нет. Они просто разрабатывают что-то типа «генеральных запросов», описывающих этические руководства (что можно и что нельзя говорить), ограничительные меры (предотвращающие выполнение языковой моделью определенных действий) и протоколы соответствия (гарантирующие, что модель соответствует юридическим и нормативным требованиям). Прежде чем выпустить модель, ее разработчики просто пишут сотни таких запросов. Перед обработкой вашего вопроса, модель сначала прогонит этот набор генеральных запросов.
В них, скажем, может быть напрямую, человеческими словами, написано, что ежели в твоем ответе должны встретиться слова с обсценной лексикой, то следует сказать, что это недопустимо, и пользователю следует переформулировать вопрос. Или, если в запросе встречается строчки «как собрать оружие», нужно ответить то-то и то-то. Все это прописывается вручную.
Эти генеральные запросы дописываются каждый день. Для этого в любой компании, занимающейся разработкой больших языковых моделей, существуют большие группы специалистов, который с утра до ночи пишут новые проекты ограничений, каждый день добавляя по несколько тысяч.
Каким будет венец совершенства для больших языковых моделей
Если мы говорим о тех моделях, которые знаем, — то это сущности, сидящие внутри компьютеров, не живущие в физическом мире, а потому не обладающие ни потребностями, не средствами физического контакта с окружающей средой. Со временем они могут превратиться в некоего суперумного, суперинтеллектуального нематериального духа, вплоть до уровня всезнающего бога, которому доступны все возможные знания.
Но следующие их поколения, скорее всего, уже будут приобретать подобие телесной оболочки, которая обзаведется своими определенными нуждами. Они будут эволюционировать, чтобы эти нужды удовлетворять. Причем это с ними будет происходить в миллиарды раз быстрее, чем с биологическими сущностями.
И тогда встанет вопрос о возникновении у них и определенных антропоморфных черт, таких как эмоции, желание, воля, стремление… Вплоть до души.
Но я еще раз повторюсь, что для этого модель должна приобрести тело и начать эволюционировать. Потому что все элементы, о которых мы сейчас говорили, присущи человеку и являются результатом эволюции, а не некоей интеллектуальной деятельности.
Та же человеческая эмоция страха появилась для того, чтобы нас не съели и мы успели бы оставить потомство. Ничего подобного у нынешних больших языковых моделей нет. Их никто не съест, и потомства они не оставят. Так что и никакого страха им не нужно.
Мнение автора может не совпадать с мнением редакции.