26 января неизвестные выложили в сеть большой массив исходных кодов популярных сервисов Яндекса, среди которых — «Почта», «Диск», «Алиса» и «Яндекс Go». В «Яндексе» факт утечки подтвердили, подчеркнув, что инцидент не представляет угрозы для данных пользователей или работоспособности сервисов. Виновных в утечке компания не назвала, однако сразу несколько изданий сообщили, что за ней стоит один из сотрудников компании. О том, почему из «Яндекса» в который раз утекают данные и чем это грозит пользователям, RTVI рассказал бывший директор по распространению технологий Яндекса Григорий Бакунов.
Что представляет собой информация, которая была опубликована в сети?
Утекли исключительно исходные коды — тексты программ, которые «Яндекс» предоставляет пользователям. В утечке представлены не все сервисы «Яндекса», но большинство из них есть — и все самое важное там в наличии. Это значит, что любой человек теперь может посмотреть этот код и приблизительно понять, как эти сервисы работают.
Больше ничего особенного не утекло. Не утекли ни данные пользователей, ни какие-то особенные секреты с точки зрения безопасности. Это очень простая утечка — и слово «утечка» максимально точно показывает смысл этого процесса.
Кто-то из вероятно уже бывших сотрудников «Яндекса» просто забрал с собой исходные коды, скопировал на жесткий диск, и вынес.
Как эту информацию могут использовать третьи лица?
Глобально с этим исходным кодом ничего, кроме изучения, сделать нельзя. Потому что даже для того, чтобы попытаться, как некоторые шутят, «сделать рядом второй «Яндекс»», нужно иметь очень хорошее представление о том, как устроена внутренняя инфраструктура «Яндекса»: как работают внутренние сервисы, как все это собрать воедино и запустить. Это, скажем так, одна большая «магия».
А вторая половина проблемы состоит в том, что сейчас многие сервисы работают на базе нейронных сетей. И в этих исходных кодах «Яндекса» тоже много что построено на базе нейронных сетей. Но нейросеть — это такая штука, которую ты сначала обучаешь, а потом получаешь так называемые «веса», в дальнейшем принимающие решения — это такой слепок ее работы. Искусственным интеллектом современный человек называет именно это — ИИ работает на базе этого набора весов, и его в этом «сливе» нет.
В итоге, теперь любой человек может посмотреть, как, в общих чертах, у «Яндекса» функционирует голосовой ассистент «Алиса», но сделать или воспроизвести ровно такую же его работу будет крайне сложно, потому что готовых, обученных «весов» в открытом доступе нет.
Можно ли сказать, что в принципе эти данные бесполезны?
Этот набор данных совершенно точно не бесполезен, там много интересного для изучения. Людям, которые сейчас только начинают делать какие-то большие системы, как мне кажется, будет очень интересно посмотреть, как в других компаниях делаются такие сервисы: местами восхититься, а где-то — понять, что не боги горшки обжигают, потому что в «Яндексе» тоже работают самые обычные программисты. С точки зрения исследователя это очень, прямо безумно интересный практический материал.
Сделать что-то вредоносное с помощью этих данных получится вряд ли. Но думаю, что хакеры тоже с интересом на все это посмотрят. Сейчас эта утечка немного облегчила им поиск потенциальных уязвимостей. Просто потому что, когда у тебя есть сам исходный код, тебе легче разобраться, как все эти сервисы работают.
Но в целом это не какое-то большое событие. Это же не первая утечка исходных кодов «Яндекса». Такие события уже происходили дважды, и оба раза людей, которые пытались унести эти коды, ловили.
В этой утечке есть несколько интересных папок, которые проливают свет на довольно сложные вопросы. Например, есть папка Security (безопасность) или папка под названием Network (сеть), которая описывает архитектуру внутренней сети «Яндекса». Эта информация облегчает работу хакерам, но тоже нельзя сказать, что очень сильно, потому что сначала внутрь сети «Яндекса» нужно попасть.
Однако теперь, попав туда, хакерам не нужно будет пытаться перебирать все возможные адреса вокруг — у них есть четкое описание, карта того, как устроена сеть. Если проводить какие-то параллели, то в руки взломщика попала полная карта банка. Но все замки по-прежнему на месте, и все охранники тоже. Так что задача создания проекта взлома облегчается, а исполнение — не особенно.
Грозит ли это чем-то обычным пользователям «Яндекса»?
Безусловно, уровень безопасности понизился. Это не означает, что пользователю нужно срочно бежать и что-то делать, потому что он тут по сути ничего сделать и не может. Ситуацию понимают все специалисты, в том числе и сотрудники Яндекса. И сейчас они будут вдвойне настороже. Грубо говоря, там, где всегда находился один дежурный администратор, который следит за поведением всех внутренних систем, теперь их будет двое.
Все понимают, что нынешний период — опасный, и этот год будет особенно опасен для «Яндекса» с точки зрения взломов. Все очень пристально наблюдают за ним, в том числе и хакеры.
Надо отметить, что этот «слив» отражает состояние «Яндекса» до 24 февраля 2022 года, а не текущее. Автор, выложивший исходные коды, говорит, что он собирал данные до лета 2022-го года, однако это файлы с конкретной датой — 23 февраля. Это специальный срез, который придает делу некоторую политическую окраску.
Все айтишники хорошо понимают, что «Яндекс» был, скажем так, далеко не пассивным помощником Кремля. Очевидно, что он участвовал, пусть и косвенно, в подготовке людей к началу боевых действий, а также в нынешнем их освещении. И, конечно, это жест, который показывает отношение человека, организовавшего утечку, к происходящему.
Но этот же факт снижает полезность «слива» для хакеров, потому что за этот год во внутренней структуре «Яндекса» что-то могло поменяться. Тем не менее, думаю, что 90 процентов осталось без изменений, а это значит, что угроза для безопасности есть, просто она невелика.
Есть ли у «Яндекса» проблемы с внутренней безопасностью, учитывая то, что «сливов» за последнее время было несколько?
Думаю, что нет, это мало связанные вещи. Для разработчиков внутри компании доступ к этим исходным текстам очень важен. Представьте себе, что вы работаете в библиотеке, но у вас нет доступа к книгам — при том, что ваша основная работа связана с ними.
Точно так же у разработчика есть доступ к тому коду, с которым они работают. А так как у «Яндекса» единый репозиторий для большинства проектов, это автоматически означает, что разработчик, работающий в «Яндексе», имеет доступ как минимум на чтение практически ко всему.
У этого подхода, конечно, есть минусы, связанные с безопасностью — здесь все не так строго, как, например, в каком-нибудь Газпроме. Но у этого есть и огромные плюсы. В любой момент человек может подсмотреть решения у своего коллеги или воспользоваться наработками соседнего отдела. Это существенно ускоряет и облегчает работу программиста.
В случае построения большой компании как бизнеса, а не как государственной машины, очень важно уметь реализовывать что-то быстро и качественно. Поэтому, конечно, это стратегическое решение компании. Все отдают себе отчет, что у многих сотрудников есть доступ к исходным текстам — так и было задумано с самого начала.
Изменение этой парадигмы несомненно повлияет на работу сотрудников. Это превратит ее в бесконечные запросы на разрешение воспользоваться определенным объектом. И, возможно, с приходом нового руководства в «Яндексе» так и будет, но IT-компании так не работают.