Оказалось, что нейросеть GPT-3 решает логические задачи и рассуждает лучше старшекурсников американского университета. При этом она спотыкается на простейших детских задачах, говорится в статье, опубликованной в журнале Nature Human Behaviour.
Сталкиваясь с новой задачей, люди часто находят решение без предварительной тренировки, сравнивая решения уже знакомых аналогичных задач, и распространяя их логику на новую проблему. Этот способ умозаключений лежит в основе человеческого сознания и креативности, считается, что в животном мире он присущ только людям.
Ученые из Калифорнийского университета в Лос-Анжелесе (UCLA) под руководством Тейлора Вебба решили оценить способность к умозаключениям по аналогии нейросети GPT-3 от компании OpenAI.
Они заставили нейросеть решать логические задачи наподобие тех, что составляет так называемая Шкала прогрессивных матриц Рейвена, использующаяся для диагностики интеллектуальных способностей человека. Ее уникальность состоит в том, что матрицы с заданиями интерпретируются людьми одинаково, независимо от уровня образования — например, испытуемому надо предположить, какая фигура должна стоять в пустой клетке, на основе того, какие фигуры стоят в предыдущих.
Чтобы GPT-3 мог «видеть» графические задания, ученые перевели их в текстовый формат, это же помогало гарантировать чистоту эксперимента на случай, если нейросеть могла видеть эти картинки ранее. После того, как нейросеть ответила на задания, их попросили решить 40 старшекурсников UCLA.
«Удивительно, но GPT-3 показал себя не хуже людей, но и совершал такие же ошибки», — рассказали ученые. GPT-3 решил верно 80% заданий, значительно больше, чем студенты, давшие верные ответы в 60% задач. Кроме того, ученые заставили нейросеть решить несколько задач теста SAT — стандартизированного теста для приема в высшие учебные заведения США. Сравнение результатов показало, что нейросеть справляется с заданиями лучше, чем выпускники в среднем.
Однако бот не смог выполнить простые логические задания, требующие понимания свойств физического пространства. Так, в одной детской задаче перед испытуемым была чашка с шариками, и вторая пустая чашка, до которой не дотянуться. Предлагалось, используя различные предметы, такие как длинная труба, картон и ножницы, переместить шарики из ближней чашки в дальнюю — нейросеть, по словам авторов, генерировала абсурдные ответы.
«Не важно, насколько впечатляют наши результаты, важно подчеркнуть, что эта система имеет серьезные ограничения, — считает Вебб. — Она может производить умозаключения по аналогии, но не может делать вещи, весьма простые для людей, такие, как использование инструментов для решения физической задачи. Когда ей дают такие задачи, которые могут быстро решить дети, она предлагает абсурдные решения».