Общество, 17 фев 2015, 07:08

Численное преимущество

«Яндекс» пытается заработать на Больших данных
Читать в полной версии
Фото: Николай Зверков для «Яндекса»

Из-за проливных дождей на 691-м километре федеральной трассы «Вилюй» (Якутия) застряла фура. Рабочие ООО «Строймост», пытавшиеся восстановить движение, перекрыли одну полосу, и водитель джипа не смог проехать по своим делам так быстро, как ему хотелось бы. Он поругался, а через час вернулся с дробовиком и изрешетил бытовку.

Человеческий фактор

В инциденте никто из рабочих серьезно не пострадал. Заместитель директора Ситуационного центра Федерального дорожного агентства (Росавтодор) Александр Яхнюк узнал об этой истории «из прессы», подчиненные ему не позвонили.

Ситуационный центр отвечает за то, чтобы 50 тыс. км федеральных трасс были открыты для движения. «В России это довольно нервное занятие с большим человеческим фактором, который хотелось бы свести к минимуму», – говорит Яхнюк журналу «РБК». Он вспоминает прочитанную в интернете историю, как дорожный мастер подведомственного подрядчика нашел на обочине бомбу времен Второй мировой войны, положил в багажник и привез в офис похвастаться. За положением на федеральных дорогах следит в лучшем случае пара сотен диспетчеров без специального образования – «этому никто не учит».

Когда в ноябре 2012 года на Ленинградском шоссе образовалась 200-километровая пробка, Ситуационный центр Росавтодора справился с работой плохо: многие водители не знали, что дорога фактически закрыта, и продолжали увеличивать размер пробки. Центр решили срочно модернизировать. Сейчас компания IBS разрабатывает для Росавтодора геоинформационную систему, которая позволит диспетчерам в режиме реального времени следить за состоянием движения и перемещением дорожной техники, а центру – предупреждать водителей о заторах.

Возможно, система даже научится строить прогнозы и предсказывать, где случатся неприятности. За разработку этой ее части отвечает стартап Yandex Data Factory (YDF).

Закон бутерброда

Весной 2014-го, выступая на презентации факультета компьютерных наук, который через полгода «Яндекс» открыл в Высшей школе экономики, гендиректор компании Аркадий Волож рассказывал абитуриентам, чему их будут учить. Каждые 10% повышения эффективности – прорыв в экономике. Сначала появились ручные инструменты – и мир изменился в первый раз. Затем изобрели паровой двигатель – и произошла промышленная революция. Потом люди придумали науки о материалах и электронику. Следующая революция будет связана с анализом больших массивов данных. Идите к нам учиться, говорил Волож, и вы никогда не останетесь без куска хлеба с маслом.

Умение извлекать осмысленную информацию из Big Data (Больших данных) – технологическая основа «Яндекса». Программа MatrixNet определяет, какие ссылки показать человеку в поисковом окне. Другая рекомендует, что послушать на «Яндекс.Музыке». Третья и четвертая распознают голос и изображения. Еще одна предсказывает, какие диски в дата-центре выйдут из строя. Все эти инструменты были созданы для конкретных целей, но могут найти применение и в иных отраслях. MatrixNet, например, уже несколько лет используется для обработки данных Большого адронного коллайдера. Попробовав себя в науке, «Яндекс» пытается коммерциализировать свои технологии.

Фабрику данных «Яндекса» – Yandex Data Factory – запустили в феврале 2014-го. Первый год она работала в экспериментальном режиме: сотрудники ходили по дружественным компаниям (обошли 200 офисов) и предлагали свою экспертизу. Задача состояла в том, чтобы понять, где технологии «Яндекса» могут пригодиться, дать измеримый результат и принести прибыль, поэтому с самого начала YDF была готова браться за все. «Мы целенаправленно продавали проекты исходя из того, что должны быстро собрать много опыта», – объясняет глава проектного офиса YDF Александр Хайтин.

Масштаб не ограничен

За первый год удалось закончить полдюжины успешных экспериментов в разных отраслях. Для «крупного розничного банка» (большинство клиентов пока анонимны) аналитики YDF повышали эффективность рекламных рассылок, то есть решали задачу, с которой каждый день сталкиваются собственные сайты «Яндекса». Для африканского оператора связи анализировали поведение анонимных покупателей предоплаченных сим-карт.

В YDF гордятся тем, что смогли получить осмысленные результаты, обработав данные только за один день, хотя обычно предпочитают работать с историей транзакций минимум за полгода. Помог опыт предоставления мобильных сервисов: «Яндекс» не имеет права пользоваться данными клиентов, но работает с накопленной за много лет собственной информацией о поведении людей.

Есть и более приземленные проекты. Вместе с компанией Accenture YDF занимается мониторингом неавторизованного доступа к нефтепроводам: партнеры предоставляют инфраструктуру и беспилотники, снимающие трубу в реальном времени, а технология распознавания образов, созданная «Яндексом», ищет на видео автомобили. Для Росавтодора компания учится предсказывать, где в ближайшие четыре часа произойдут ДТП, основываясь на данных о дорожном покрытии, трафике и погодной информации. По словам Александра Хайтина, им удалось поднять точность прогнозов в 30 раз – с 0,3 до 10%. Александр Яхнюк, впрочем, полагает, что эксперимент только начинается, и цифры предпочитает не обсуждать.

Евгения Завалишина, возглавившая YDF после того, как сдала дела в проданной Сбербанку платежной системе «Яндекс.Деньги», говорит, что рынок Больших данных напоминает ей интернет начала 2000-х: «Всем уже ясно, что происходит что-то интересное, куча умных людей, но никто не еще знает, какая модель сработает». По оценкам аналитической компании IDC, к 2020 году отрасль вырастет до $60 млрд. «Есть разные оценки масштабов этого рынка, – замечает Хайтин, – но важно, что для нас он фактически не ограничен».

Выручка большого «Яндекса» пока не перевалила за $1 млрд, а его внутренний стартап полон амбиций. «Мы не хотим быть маленьким самоокупаемым ларьком», – категоричен Хайтин.

Слесарное училище

Для «Яндекса», сделавшего имя на потребительском рынке, YDF – первая большая вылазка на корпоративный рынок, и она будет непростой. Один из важнейших конкурентов – Microsoft, продающая алгоритмы машинного обучения внутри своей облачной платформы Azure.

Главного аналитика YDF Михаила Левина, который перешел в компанию из Google, конкуренция не пугает. Людей, профессионально разбирающихся в Больших данных, не слишком много, считает он, и опыт работы в потребительском интернете трудно переоценить. Никому не приходилось в ежедневном режиме обрабатывать такие массивы информации до появления крупных поисковиков, поэтому у них есть определенное преимущество. Собственно, и Microsoft обладает необходимыми технологиями не потому, что действует на корпоративном рынке, а благодаря потребительскому бизнесу – поисковику Bing и игровой приставке Xbox.

Кроме того, добавляет Левин, преимущество «Яндекса» заключается не только в наличии технологий для решения предпринимательских задач, но и в людях, способных ими пользоваться. «У нас есть не только космолеты, – говорит он, – но и квалифицированные пилоты». В 2007-м «Яндекс» открыл собственную Школу анализа данных, которая выпускает по 80 человек в год (она расположена в том же здании, что и YDF). В 2014-м появился совместный факультет в Высшей школе экономики проектной мощностью 200 специалистов. В своей презентации Аркадий Волож сравнивал образовательные мощности «Яндекса» со Стэнфордским университетом.

Работа аналитиков, которых учит «Яндекс», – найти измеримые показатели эффективности алгоритма, сформировать выборки и провести корректный эксперимент. По сути, Левин применяет научный метод, опробованный на Большом адронном коллайдере, для решения предпринимательских задач. Внутри YDF его команду предпочитают называть не аналитиками, а data scientists, то есть учеными.

Главное преимущество YDF в том, что компания берется за те задачи, в которых может достичь измеримого результата. Это продиктовано не только логикой бизнеса (так проще продать услуги), но и принципом работы машинного обучения, лежащего в основе всех технологий «Яндекса». Робот может добиваться успеха лишь тогда, когда сравнивает уже достигнутый успех с заранее определенными метриками. Это и благословение, и большая проблема: многие потенциальные клиенты не пользуются даже обычным A/B-тестированием, на котором построен весь интернет, и не привыкли собирать достаточно качественных данных. YDF предстоит не только заработать первую выручку, но и убедить крупный бизнес и государственных заказчиков в своей полезности.

Александра Яхнюка убеждать не надо: он хорошо знает «Яндекс», особенно «Яндекс.Пробки», и верит, что сотрудничество окажется успешным. Но разговор с репортером на всякий случай начинает с вопроса: «Расскажите, что это за фабрика данных?»

Pro
Продавать на маркетплейсах станет дороже. Причина — налоговая реформа
Pro
Капитал новой администрации Трампа — $450 млрд. Вот кто в нее войдет
Pro
Как составить план профессионального развития на 2025 год за семь шагов
Pro
Карьера после 40: как собрать свой экспертный портфель и уйти из найма
Pro
Болезнь или благо: что мы знаем и не знаем о жире
Pro
Почему взрослые по всему миру глупеют — The Economist
Pro
4 проблемы, которые могут отбить желание торговать на маркетплейсах
Pro
Как сдавать и снимать жилье на длительный срок в 2025 году