Российские специалисты по нейросетям и лингвисты создали искусственный интеллект, помогающий прочитать зачеркнутые в рукописях Александра Пушкина слова, способные вызывать разночтения. Как рассказал RTVI Дмитрий Николаев, завотделом «Зрительные системы» ФИЦ ИУ РАН, нейросеть сначала обучили на “Болдинской рукописи” зачеркивать незачеркнутые слова, а затем — «расчеркивать» зачеркнутые. Николай Перцов, ведущий сотрудник Института русского языка РАН, пояснил, какие перспективы открывает новый метод чтения рукописей Пушкина для литературы и науки.
Вопросы Дмитрию Николаеву
Как родилась идея привлечь искусственный интеллект для анализа зачеркнутых слов в рукописях Пушкина?
Эта история началась с Национального корпуса русского языка (НКРЯ), когда выяснилось, что системные программисты, специалисты по поисковым системам и архитекторы программного обеспечения способны помочь лингвистам в создании новой платформы для статистического исследования русского языка. Современная лингвистика имеет дело с колоссальными объемами данных, взаимодействовать с которыми без специализированных технологий практически невозможно. Мы попытались решить эту задачу и достигли впечатляющего результата: специалисты из совершенно разных областей науки получили в равной степени положительный опыт.
Проект по созданию новой платформы НКРЯ организовал Андрей Соболевский, в то время — директор Института проблем передачи информации (ИППИ РАН). Вместе с академиком Владимиром Плунгяном они свели несколько команд лингвистов — из ВШЭ, Института русского языка им. Виноградова и ИППИ РАН — с программистами, ядро которых сформировалось довольно неожиданно в моей Лаборатории зрительных систем.
Проект завершился великолепно, и мы с Владимиром Александровичем стали думать, нельзя ли нам повторить успех такого широкого сотрудничества, но уже в области зрительного интеллекта. Он свел меня с доктором филологических наук Николаем Викторовичем Перцовым, замечательным лингвистом, который занимается последние годы пушкинистикой. А именно — выявлением в известных академических изданиях текстуальных отличий от того, что в реальности написано в авторских рукописях или, как говорят, “автографах” поэта. Обнаружение каждого такого несоответствия — это маленькое открытие, а иногда и не маленькое.
Для меня стало неожиданностью, что даже в чистовых рукописях Пушкина присутствует множество зачеркнутых слов. Александр Сергеевич вносил правки неостановимо, все время что-то улучшал. Кроме того, есть и документы со сторонней редакторской правкой, вплоть до Николая I. Потому этот вопрос представляет интерес и с исторической точки зрения: где-то рукописи правил сам поэт, а где-то — цензура.
Поиск этих несоответствий — действительно важная для пушкинистов проблема?
Результаты исследований творчества Пушкина показывают, что ряд мест в рукописях поэта установлены неточно. В свою очередь, это дает ученым основание для ревизии уже существующих знаний, и нередко она приносит удивительные результаты — например, выясняется, что автор написал другое слово или использовал совершенно иную метафору. К примеру, в одном из предложений знаменитой статьи “О народности в литературе” упоминаются трагедии из “итальянских новелл”, в то время как в оригинальной рукописи, как замечает Николай Перцов, автор писал об итальянских повестях.
Можно обсуждать художественные достоинства пушкинской поэзии, но когда изменяются строки, знакомые каждому со школьной скамьи, — это действительно открытие на грани сенсации. Кроме того, есть потрясающие случаи, когда в том или ином месте рукописи вообще нет незачеркнутого варианта.
То есть?
Когда в рукописи стоит слово, которое вошло в академическое издание, но в оригинале оно зачеркнуто, а над ним стоит альтернативное слово, которое довольно сильно меняет поэтику, и оно тоже зачеркнуто. Существует масса таких пограничных случаев, когда даже окончательный с точки зрения специалистов ответ не является единственно возможным. Например, такое место встречается в черновой рукописи стихотворения “Кипренскому”, написанной в 1827 году. В строчке “Но это зеркало мне льстит” слово “это” зачеркнуто, и над ним написано “чудо:”, тоже зачеркнутое.
И что в таком случае входит в официальную редакцию?
Во всех изданиях “Кипренскому” сегодня печатается со словом “это”, однако анализ рабочей тетради Пушкина показывает, что, скорее, поэт остановил свой выбор на другом варианте — “Но чудо: зеркало мне льстит”. Об этом свидетельствует поставленная чернилами возле “чудо:” точка. Первый вариант стихотворения писался карандашом, а правки чернилами поэт вносил позднее.
Другой любопытный случай, на который обращает внимание Перцов, — стихотворение “В рощах карийских”, сегодня публикуемое под заголовком “В роще карийской”. Помимо первой строки разночтение присутствует и в последней: “Вдаль по роще густой” и “Тихо по роще густой”. Наречие “тихо” было добавлено позднее и, видимо, тоже не удовлетворило Пушкина, поскольку в рукописи оно зачеркнуто. Николай Викторович предлагает печатать это стихотворение в соответствии с последней волей автора и добавляя соответствующее указание.
Безусловно, любой поэт использует определенные приемы, характерные именно для него, а некоторых наоборот избегает. На основании того же анализа рукописей специалистам известно, что Александру Сергеевичу не нравилось, и чего он, видимо, избегал в поэзии. Соответственно, если возникает какое-то прочтение, которое противоречит используемым Пушкиным фонетическим или стилистическим паттернам, вероятность такого варианта снижается.
Создать искусственный интеллект, который владел бы всем исследовательским контекстом и был бы способен исходя из других текстов поэта авторитетно заявлять, что Пушкин мог написать в каком-то конкретном месте рукописи, сегодня едва ли возможно. Делать машину судьей в таких вопросах было бы профанацией. Гораздо более ценно использовать искусственный интеллект как инструмент исследователя, позволяющий увидеть больше возможных вариантов прочтения и предложить для анализа новый, не изученный ранее вариант.
На что же тогда способен ИИ?
Мы работали над снятием зачеркиваний в рукописях Пушкина. На основании обучающих данных нейросеть должна запоминать, какие движения пера в незачеркнутых словах свойственны почерку Пушкина, и восстанавливать утраченные места, пользуясь моделью движений руки поэта.
Строго говоря, эта задача — научить алгоритм моделировать, что было в рукописи до зачеркивания, — не очень корректна с математической точки зрения, потому что часть информации просто отсутствует. Для тех слов, с которых нужно в конце концов снять зачеркивание, мы не знаем верного ответа. Поэтому перед тем, как использовать искусственный интеллект для снятия зачеркиваний в рукописях, было необходимо сперва добиться, чтобы нейросеть понимала, как именно Пушкин зачеркивал слова в своих текстах. Например, не путала две перечеркнутые вертикальные линии с буквой “Н”.
На каком объеме рукописей нейросеть обучилась?
Мы использовали “Болдинские рукописи”, и уже их оказалось достаточно для того, чтобы полученный результат заинтересовал специалистов. Сейчас мы планируем обратиться в Пушкинский дом ИРЛИ РАН, чтобы получить возможность обучить нейросеть на всем материале, который есть у пушкинистов. Кроме того, немалый научный интерес вызывает и возможность исследовать изменение почерка поэта во времени, а здесь уже требуется весь корпус текстов.
Какие нейросети вы использовали в работе?
Нашей первостепенной задачей было обучить нейросеть убедительно зачеркивать незачеркнутые слова в рукописи — так, как это делал Пушкин. Таким образом мы получили набор данных для обучения нашей основной нейросети, которая снимает зачеркивания. При этом правильный ответ был бы известен, что позволило бы оценить работу алгоритма.
На первом этапе мы использовали так называемую генеративно-состязательную сеть (GAN, Generative Adversarial Network — прим. авт.), представляющую собой комплекс из двух нейросетей, одна из которых синтезирует тот или иной образ — в данном случае зачеркнутое слово из рукописи, а вторая пытается отличить сгенерированный образ от реального. Иными словами, задача первой сети — генерировать зачеркивания на основе исходного набора реальных изображений, а задача второй — различить, сгенерировано ли полученное зачеркивание нейросетью или же поступило из подлинника. Фактически эти сети соревнуются между собой. И если вторая сеть работает достаточно эффективно, первая — генерирующая — со временем учится создавать весьма правдоподобные изображения. Настолько убедительные, что вторая сеть не справляется с задачей отличения. В этом и состоит основной принцип GAN.
Безусловно, такой подход сопряжен с определенными рисками — задача ставится чрезвычайно общо, итоговый результат непредсказуем и в целом неясно, какие именно признаки удается воспроизвести первой нейросетевой модели, а какие нет. Однако в данном случае мы использовали GAN для того, чтобы зачеркивать слова. Это показалось мне довольно уместным решением, поскольку не составляет труда проверить, справился ли алгоритм или нет.
На втором этапе мы использовали полученные изображения с “убедительно” сгенерированными зачеркиваниями для обучения нашей основной нейросети, чтобы та могла снимать зачеркивания, и можно было бы оценить эффективность ее работы, зная верный ответ. Снять зачеркивания удалось благодаря нейросетевой архитектуре “Да Винчи”, созданной в нашей компании Smart Engines. Мы взяли ее за основу, поскольку она была разработана в том числе для решения задачи удаления линий разграфки, затрудняющих распознавание рукописных данных в официальных документах.
Что стало результатом работы?
В итоге после обучения и тестирования нейросетей у нас получилась программа, которая обрабатывает рукопись с зачеркиваниями и позволяет посмотреть, как зачеркнутые слова выглядели до зачеркивания.
С какой-то вероятностью?
Про вероятность тут говорить опасно. Нейросеть формирует гипотезу, которую текстологам, хорошо знакомым с почерком Пушкина, нетрудно проверить и принять окончательное решение — похоже или нет.
Многие не задумываются, что с искусственным интеллектом приходится идти на компромисс. Чем больше знает нейросеть, тем чаще она дает правильный ответ. Но вместе с этим растет и правдоподобность ошибок ИИ — обнаружить их становится значительно труднее.
То есть, с одной стороны, она более редко ошибается, но уж если ошибается, то сложнее на этом поймать?
Да, и это фундаментальная вещь. Именно поэтому я старался ограничить цель, которую мы ставим перед нейросетью. Ни в коем случае не учить алгоритмы языку Пушкина. Напротив — обучать нейросеть исключительно движению пера.
А может ли ИИ в принципе понять, кто зачеркивал? Вы вот царя упоминали…
Можно предположить, что стиль зачеркивания у разных людей разный. Если это так, то задача определить, кому принадлежит зачеркивание, вполне по плечу искусственному интеллекту. Но это уже совершенно другая, не менее сложная и интересная с научной точки зрения задача.
Что вы планируете дальше? Будет ли научная публикация?
Мы готовим серию научных публикаций. Кроме того, мы планируем дальше совершенствовать саму технологию. Остается масса других сценариев, которые обязательно надо автоматизировать. Например, коллеги из Института русского языка запускают информационную систему, которая позволит осуществлять поиск по уже расшифрованным автографам Пушкина. Там будут показаны и незачеркнутые, и зачеркнутые слова, их геометрическое расположение.
Для создания этой системы необходимо вручную разметить все слова в рукописях — в том числе те, которые находятся на конце строки и нередко загибаются по краю листа. Есть вставки, переносы, слова, написанные в другом направлении, если лист был повернут. Все эти места надо соответствующим образом пометить, чтобы дать пользователям возможность изучать и взаимодействовать с ними при помощи уже известных технологических инструментов. Наши системы распознавания бизнес-документов легко адаптируются под задачу сегментации рукописи.
Кроме того, Пушкин — далеко не единственный автор, от которого остался большой архив. И чем большим архивом мы располагаем, тем точнее можно изучать динамику написания тех или иных известных произведений, наблюдать, как шел творческий процесс. А это всегда нечто новое в истории литературы.
Вопросы Николаю Перцову
Почему до сих пор интересно расшифровывать автографы Пушкина?
Автографы писателя -— его черновые рукописи, заметки, наброски, вычисления, дневниковые записи — дают возможность приблизиться к психологии его творчества, к его внутреннему состоянию в моменты поиска точного слова, то есть к тому, что практически невозможно понять при обозрении печатного текста. Начертания букв, расположение текста на рукописной странице, характер зачеркиваний, возвращения к отвергнутым вариантам, переходы автора от одного замысла к другому, пометы на полях, рисунки, вычисления, заметки для памяти, списки творческие и житейские, даты, указания места написания черновика — все это бесценный творческий, житейский, биографический материал — как для исследователей, так и для более широкой аудитории.
Что касается рукописей Пушкина, многие страницы производят неотразимое эстетическое впечатление по многим характеристикам: черновые страницы — стремительностью и напряженностью почерка, врисовыванием портретов, пейзажей, цветов, копий, стрел, орудий, житейскими сценами, иллюстративными вставками, росчерками, виньетками; беловые же рукописи — изяществом и красотой начертаний букв… Необычайно интересно следить за «тесными» поправками, умещающимися на ограниченном пространстве рукописной страницы — становится ясно, что автору нужно было видеть именно рядом друг с другом возможные варианты, связанные с тем или иным фрагментом текста. Интересно также пытаться гипотетически воспроизводить возможную последовательность зачеркиваний и замен на ограниченном пространстве страницы и находить их возможные мотивировки.
Наконец, при медленном чтении рукописей с использованием современных компьютерных технологий иногда обнаруживаются неверно прочтенные фрагменты, что требует их нового представления.
Какие новые прочтения ранее вас поразили больше всего и почему?
Одним из наиболее ярких является прочтение строки в черновике стихотворения «Храни меня, мой талисман…»: «Мятежный сладостный обманъ«. Вместо того, что мы видим в изданиях: «Священный сладостный обман«. Здесь первое прилагательное никак не соответствует биографически житейскому фону написания данного черновика — отношениям Пушкина с княгиней Е. К. Воронцовой.
Неправильных буквенных прочтений относительно немного, менее двух десятков. В большем числе случаев мы наблюдаем неопределенность при возможном соединении в черновиках Пушкина отдельных дистантно расположенных фрагментов, которые подчас слишком уверенно соединялись публикаторами в окончательные варианты. Здесь требуется большая осторожность и указание гипотетичности предлагаемых прочтений.
Удалось ли с помощью ИИ прочесть что-то ранее неясное или по-новому?
Компьютер позволяет достигать более четкого представления тесных соединений чернового текста, его увеличения, позволяющего увидеть бледные остатки чернил и карандаша; можно использовать всплывающие «подсказки» вариантов при наведении курсора на проблемные места.
Говоря о результатах применения искусственного интеллекта для распознавания сложных черновиков Пушкина, можно упомянуть несколько особо ценных примеров, когда снятие зачеркивания действительно позволило добиться отчетливости. Например, значительно отчетливее стали видны слова “булочникъ» и «гробовщикъ«.
Какие новые приложения этой технологии вы видите?
Во-первых, развитие технологии синхронного представления факсимиле и транскрипции рукописи: позиция курсора на факсимиле отображается каким-либо образом в транскрипции — в виде отдельной точки или рамки. Или наоборот — позиция курсора на транскрипции отображается на факсимиле. Предварительная версия такой программы, разработанной Л. И. Эрлихом, в Институте русского языка имеется.
Во-вторых, развитие технологии транскрибирования черновика. Наконец, создание технологий создания «текстологических сценариев» гипотетического заполнения рукописной страницы.