Аватары: как обладатель «Оскара» создает цифровые копии людей
«Моя страсть — это создание сгенерированных на компьютере лиц, по сути — набора единиц и нулей, которые дают ощущение, будто они сознательные, живые существа со своими эмоциями» — примерно так описывал свою работу новозеландец Марк Сагар, выступая на церемонии вручения специальной премии «Оскар» за научные и технические достижения в 2011 году.
Тогда Сагар получил награду за технологии точного переноса мимики человека на лица анимированных героев (facial motion retargeting). Для инженера это был уже второй «Оскар»: годом ранее вместе с коллегами он получил приз за технологию захвата движения Light Stage. Изобретения Сагара, который в то время работал в компании-разработчике спецэффектов для кино Weta Digital, использовались в таких фильмах, как «Аватар» и «Кинг-Конг».
«Наука и искусство связаны гораздо сильнее, чем кажется», — говорил Сагар все в той же речи. Получив второй «Оскар», он уволился из Weta и вернулся в родной Оклендский университет, который окончил за 20 лет до этого. В январе 2012 года инженер создал там лабораторию анимационных технологий и вместе с другими учеными и студентами стал разрабатывать так называемых цифровых андроидов — нарисованных на компьютере моделей человека с искусственным интеллектом, которые могут общаться с людьми, считывая их реакции через веб-камеру и микрофон. А через четыре года для коммерциализации разработок Сагар основал стартап Soul Machines, который в ноябре 2016-го привлек $7,5 млн от инвесторов мирового уровня.
Цифровой первенец
Лицо ребенка двух-трех лет на черном фоне компьютерного монитора в лаборатории Марка Сагара кажется живым — ощущение, что на ученого смотрит реальный человек. Девочка улыбается, хмурится, взглядом следит за движениями собеседника по эту сторону экрана. Аватар BabyX — первый прототип цифрового человека, созданный Сагаром и его командой, рассказал в интервью журналу РБК директор по развитию бизнеса Soul Machines Грег Кросс.
На разработку и совершенствование BabyX ушло четыре года. Как и следующие андроиды Soul Machines, он основан на точной модели человеческого лица, построенной программистами и нейрофизиологами. Модель состоит из «слоев»: повторяет строение черепа, расположение мышц на лице и механизмы их сокращения. Лицо робот «позаимствовал» у реального ребенка, которого фотографировали в разное время и с разными эмоциями.
Ключевой разработкой Soul Machines Кросс называет эмоциональный интеллект, который с помощью технологий машинного обучения учится выражать настроение мимикой и голосом, а через веб-камеру и микрофон распознавать интонации и движения лица человека и копировать их. «Они эмоционально отзывчивы: могут не только понимать, но и выражать чувства, подобно человеку», — говорит Кросс. Виртуальный ребенок также умеет отвечать на вопросы и играть. BabyX узнает картинки с животными и предметами, которые ему показывают люди: может, например, опознать яблоко или щенка. Теперь Soul Machines разрабатывает новую версию андроида — ребенок будет представлен в полный рост, программисты даже продумали наличие у него «легких», ведь «дыхание — важный компонент симуляции речи», объяснял Сагар в интервью для сайта IBM. Новый цифровой ребенок сможет рисовать на экране компьютера и играть с виртуальными объектами.
Создатели BabyX демонстрировали его инвесторам, которые приезжали в Оклендский университет. Проектом заинтересовался фонд Horizons Ventures, основанный Ли Кашином, самым богатым, по оценке Forbes, миллиардером Гонконга. В ноябре 2016-го недавно зарегистрированный стартап Soul Machines привлек первые инвестиции в $7,5 млн — самая крупная сумма для выросших в стенах Оклендского университета проектов.
Horizons Ventures выступил лид-инвестором, в сделке также участвовала инвесткомпания ICONIQ Capital — по данным американского журнала Forbes, она управляет деньгами основателя Facebook Марка Цукерберга. Инвесторы получили в Soul Machines долю 35%, писало издание NBR, примерно 37% осталось у Сагара. Еще около 17% досталось компании UniServices, которая помогает ученым университета коммерциализировать разработки и находить инвесторов. Кто владеет оставшейся долей, Кросс раскрыть отказался. Интеллектуальные права на созданные командой Сагара в стенах университета технологии получила Soul Machines.
Работник без зарплаты
После первого раунда инвестиций выстраивать бизнес-процессы стартапа позвали опытного управленца Грега Кросса, который к тому времени успел поработать главой нескольких технологических компаний, например производителя систем энергопитания PowerbyProxi, бизнес-инкубатора Icehouse и разработчика решений для e-commerce SLI Systems. С инвестициями и новым топ-менеджером разработчики Soul Machines ускорились: за неполный год создали шесть новых цифровых персонажей, рассказывает Кросс.
В отличие от BabyX новые разработки — коммерческие. В феврале 2017-го Soul Machines выпустила первую виртуальную помощницу по имени Надя (Nadia). Она создана по заказу австралийского правительства для помощи людям с ограниченными возможностями. Надя стала первой цифровой сотрудницей австралийского правительства, говорит Кросс: она умеет устно и письменно в онлайн-режиме отвечать на вопросы о системе страхования для инвалидов, полезных сервисах и средствах поддержки. Цифровая помощница разговаривает голосом актрисы Кейт Бланшетт, которая согласилась озвучить Надю.
На создание ушел год, еще около года она будет работать в пилотном режиме. В «голове» Нади — система искусственного интеллекта IBM Watson для распознавания речи и ответов на вопросы. Новозеландская компания FaceMe отвечала за техническую часть — передачу изображения в онлайн-режиме и совместимость системы с любыми пользовательскими устройствами.
Весной Soul Machines выпустила новую цифровую сотрудницу — робота Рейчел, созданную для консультирования клиентов банков. А в июле компания объявила еще о двух новых продуктах — аватарах Шушилле и Романе, первом мужчине в коллекции Soul Machines. Характерные черты робота — например, его внешность, возраст и пол — выбирают заказчики.
Технологии IBM используются не в каждом продукте, но на этом тоже может настоять покупатель — например, если он применяет их для других нужд и уже является клиентом IBM Watson. Soul Machines также может использовать другие платформы искусственного интеллекта — Google Brain, Microsoft Cortana, Amazon Lex. Сейчас на создание одного аватара уходит шесть-восемь недель, еще три-шесть месяцев отводится на тестирование и обучение робота в пилотном режиме. В компании работают около 40 человек, большинство из них — инженеры, нейрофизиологи, программисты и лингвисты.
По словам Кросса, Soul Machines разрабатывает цифровых сотрудников для крупных международных компаний, но имена заказчиков и стоимость контрактов он не называет. Кросс лишь уточнил, что нынешние клиенты стартапа — компании из банковской, автомобильной отраслей и IT из Новой Зеландии, Австралии, Японии, США и Европы. Помощники обычно предназначены для работы с клиентами, продаж и маркетинга.
Улучшенная версия себя
Коммуникация между людьми на 70–90% состоит из невербальных средств, и цифровые роботы должны уметь использовать в общении мимику и жесты, говорит Джаред Петерс, представитель запущенного в июле в США стартапа Expressive.AI. Компания тоже разрабатывает виртуальных помощников — как анимационных, так и реалистичных — для заказчиков из сферы цифровой медицины и образования.
Похожими технологиями с 2014 года занимается и американский стартап ObEN, который разрабатывает, в частности, виртуальные копии знаменитостей для общения с поклонниками. В ноябре 2016-го практически одновременно с Soul Machines проект привлек $7,7 млн от пула из десяти инвесторов (позже — еще $5 млн). ObEN создает 3D-модель человека по фотографии и записывает его голос, которым будет разговаривать и даже петь аватар, рассказал журналу РБК сооснователь и гендиректор компании Никхил Джайн. Роботы будут использоваться в приложениях виртуальной и дополненной реальности, мобильных приложениях и играх.
Кроме знаменитостей среди заказчиков ObEN — компании из сферы здравоохранения, образования и игр (конкретных названий в стартап-проекте также не раскрывают). Вскоре ObEN планирует принимать заказы на создание виртуальных копий человека от всех желающих. Аватар будет «выглядеть, звучать и думать», как его «хозяин», и сможет от его имени выполнять дела, на которые у человека нет времени. Ни ObEN, ни Expressive не раскрывают финансовые показатели.
Рынок виртуальных цифровых помощников к 2021 году
$15,8 млрд суммарной выручки
1,8 млрд частных пользователей
843 млн корпоративных пользователей
Источник: прогноз Research and Markets
Кросс также не стал озвучивать конкретных цифр по Soul Machines, уточнив лишь, что у компании есть выручка и она «быстро растет». В 2018 году стартап планирует привлечь новый раунд инвестиций, в котором должны принять участие как нынешние, так и новые инвесторы, говорит топ-менеджер.
Soul Machines, как и ObEN, в ближайшем будущем собирается создавать цифровые копии знаменитостей, чтобы фанаты могли с ними разговаривать, рассказал Кросс. Кроме того, стартап работает с компанией — производителем игрушек, чтобы «оживить» героев для общения с детьми в виртуальной среде. В ближайший год разработчики новозеландской компании планируют сократить время создания одного цифрового робота до пары недель, а в конечном счете аватар должен создаваться за один день, делится планами Кросс. В следующем году клиенты Soul Machines смогут самостоятельно конструировать нужных им цифровых работников в специальной программе.
Для нынешних заказчиков человекоподобные роботы — первые цифровые сотрудники, но в будущем, уверен Кросс, у компаний их будет множество. Их клиенты смогут выбрать, с каким именно представителем они хотят говорить — мужчиной или женщиной, китайцем или испанцем, на каком языке они будут общаться.
Потенциал использования человекоподобных аватаров огромен, единодушны собеседники журнала РБК. Вскоре появятся и цифровые учителя, особенно в тех районах, где не хватает реальных педагогов и школ. Также аватары смогут помогать работать с беженцами во время миграционных кризисов, перечисляет Кросс.
Джайн из ObEN считает, что скоро у каждого человека в мире будет собственный аватар, основанный на искусственном интеллекте. Кросс согласен, что не пройдет и десяти лет, как на рабочие встречи за людей будут «ходить» их цифровые копии. «Это многомиллиардный рынок», — уверен он.