×

Machine Learning Innovation Summit 2017

Этим летом я ездил в Сан-Франциско на Machine Learning Innovation Summit 2017. Это практическая конференция, на которой рассказывают о применении существующих алгоритмов в реальных продакшн системах.

Конференция проходила в два потока: Machine Learning Innovations и Chief Data Officers. Для меня более интересным был поток Innovations. Докладчики представляли крупные стартапы и лидеров инновационных технологий, каждый из них делился своим опытом в применении Machine Learning. Я кратко пройдусь по описаниям разработок компаний, которые мне наиболее понравились и запомнились.

Amazon

Amazon представила несколько докладов, один из них про умную колонку Amazon Echo. Это цилиндрический динамик со встроенным микрофоном, управлять им можно голосом. Этот девайс способен воспроизводить музыку, оформлять списки задач, устанавливать будильник, транслировать подкасты, воспроизводить аудиокниги, сообщать прогноз погоды и даже информацию о пробках. Также он может управлять несколькими смарт-устройствами, представляя собой центральный узел системы домашней автоматизации.

Изначально предполагалось, что это устройство будет коммуницировать с амазоновским сервисом музыки. Если задать ему команду найти какой-либо трек, то система по твоим прошлым прослушиваниям находит ту мелодию, которая тебе точно понравится. Сервис прогрессировал и был интегрирован с системой Amazon Alexa. Сейчас девайс реагирует на обращение Alexa. Этот механизм может из десятков других голосов и шумов распознать именно тот голос, который был записан при настройке, и выполнить произнесенную команду. Сейчас эта колонка хорошо реагирует на один голос, который программирует покупатель. Разработчики трудятся над распознаванием множества голосов из разговора, происходящего в реальном времени, которые перекрывают друг друга. В перспективе Echo сможет распознавать и воспринимать команды от нескольких пользователей в режиме реального времени.

Другой доклад от Amazon подробней затрагивал Alexa. Детально рассказывалось о том, как сервис выделяет тему сообщения и учится реагировать на непрямые запросы. Сервис способен прогнозировать потребность пользователя на основе парсинга диалогов и динамически предлагать варианты решения. Подбор и распознавание происходят на основании выделения ключевых слов в контексте диалога с использованием регрессионных нейронных сетей. Система переобучаема и подстраивается под привычки и потребности конкретного пользователя.

Facebook

Facebook готовит к релизу голосовой переводчик в дополнение к текстовому. На конференции от Facebook присутствовал инженер, который ранее занимался разработкой переводчика для Google.

Он рассказывал о принципах организации ядра переводчика и о трудностях, с которыми его команда сталкивается в процессе разработки.

Одной из больших задач, с которой работает команда, является перевод между языками разных семейств. Хорошо переводятся между собой языки из одной языковой группы, такие как немецкий, английский. Но на сегодняшний день не существует техники качественного машинного перевода с китайского, потому что семантика языка значительно отличается от языков, к примеру, романской группы. Так же сложно переводить славянские языки, хотя механизм довольно неплохо работает.

В основе ядра лежит применение ряда сетей типа encoder-decoder. Переводчик работает в контексте предложения, абзаца и всего текста. Это позволяет выбрать наиболее точный перевод, который соответствует теме переводимого сообщения. Например, английское «it» в русском может быть «он», «она», «оно». Энкодер берет текст, применяет для него несколько сверточных слоев и получает на выходе векторы, которые соответствуют словам с поправкой на контекст. Далее векторы подаются на вход LSTM ячеек. LSTM ячейки — это нейросетевые конструкции с кратковременной и долговременной памятью. Долговременная память хранит информацию о структуре языка, построении предложений, возможных переводах. Кратковременная память хранит контекст текущего текста. Декодер получает на вход вектор, полученный из преобразований LSTM слоев энкодера. Этот вектор пропускается через декодирующее множество LSTM ячеек, который преобразует его в предложение на другом языке. Сеть не использует техники поиска и сравнения паттернов, все делается с помощью encoder/decoder, что дает значительный прирост в производительности.

Кроме аспекта перевода, компания в рамках проекта разрабатывает полный набор инструментов для преобразования голоса в текст и текста в аудио речь.

eHarmony

eHarmony — это один из самых больших сайтов знакомств в мире. Сервис помогает оценить подходит ли пользователю тот или иной человек по элементам заполненной анкеты. На презентации представители компании рассказывали о том, что раньше у них были огромных анкеты, которые содержали множество вопросов, были сложны для заполнения и часто собирали информацию, которая не коррелировала с успешными отношениями. Компания задалась двумя целями: уменьшить количество вопросов в анкете и увеличить процент долгосрочных отношений, которые начались со свидания с рекомендованным сайтом человеком.

Если вероятность того, что вы встретите человека, который вам подходит на всю жизнь с помощью сервиса знакомств низкая, то сайт перестает быть привлекательным. Разработчики этого ресурса провели исследования, чтобы понять что друг в друге привлекло людей, заключивших брак, который не распался в перспективе нескольких лет. Результаты показали, что наиболее влиятельный фактор в таких отношениях — похожее чувство юмора. В анкету было добавлено множество забавных картинок, например, картинка «ежик и щетка». Это дало возможность снизить процент «ложных позитивов» и увеличить процент долговременных браков, ведь очень сложно обмануть систему, которая спрашивает всего лишь насколько смешна та или иная картинка.

Система продолжает собирать статистику пользователей и улучшать алгоритм. Сайт стал значительно популярнее среди пользователей.

Turo

Turo позволяет найти наилучшую прокатную машину по самой приемлемой цене, удовлетворяющую вашим предпочтениям. Сервис агрегирует информацию прокатных каталогов и выдает рекомендации. В докладе рассказывалось о том, как сервис пришел к использованию machine learning техник.

Например, вот две Tesla одной модели.

Одна стоит $222, вам ее привозят под подъезд бесплатно, в стоимость включена страховка. Другая стоит $265, машина имеет больший пробег, нужно забрать ее в определенной локации, страховка не включена. Старый алгоритм поиска работал на основании текущей локации пользователя. Офис проката более дешевой машины находился далеко, поэтому сервис предлагал более дорогой автомобиль, который географически предполагался как более близкий.

Команда стартапа, проанализировав ситуацию, решила полностью пересмотреть алгоритм рекомендаций и применить техники machine learning. Было проведено извлечение значимых компонент (Feature Extraction), на основании которых была построена модель рекомендаций. Сервис собирает статистику пассивных (без клика, просто на экране) и активных (с кликом) просмотров авто, поисков и бронировок. На основании статистики модель прогнозирует релевантные пользователю результаты. Модель вычисляет коэффициент оверпрайсинга и коэффициент интереса человека, что вместе создает хорошую систему рекомендаций. Также учитывается сезонность. Модель имеет периодичную систему переобучения ядра.

Главной задачей разработчиков на сегодня является проблема холодного старта системы, эффект которого они пытаются уменьшить, формулируя векторы подобия профилей пользователей.

Walmart

Walmart — одна из крупнейших сетей супермаркетов в США. Они применяют machine learning, например, для оптимизации своей системы хранения и доставки товаров. Ребята рассказывали о том, как работает система рекомендаций online сервисов, через которые люди делают заказы.

Товары могут лежать на разных складах компании или поставщиков и даже находиться в разных штатах. Для того чтобы удешевить стоимость доставки, они создали модель, которая предлагает вам вроде бы полезные вещи, но одновременно пытается продать товары со складов, с которых нужно отгрузить продукцию, чтобы наполнить грузовики, отправляемые в направлении пользователя в ближайшее время. Система рекомендаций работает в обе стороны и советует не только пользователям купить что-то, но и компании где и в каком количестве хранить определенные товары исходя из сезонности и текущего спроса. Модель позволила сэкономить колоссальные суммы на логистике.

Dropbox

Очень интересная презентация была. Dropbox разработала движок, который позволяет загрузить бумажные документы на сервер прямо с телефона. Система разработана таким образом, что даже если документ в плохом качестве, скошен, помят, засвечен, система сможет распознать более 90% данных с такого рода бумажных файлов.

Такие провайдеры OCR как IBM или Microsoft не работают с деформированными изображениями или возвращают в этих случаях непредсказуемые результаты, а DropBox работает и пытается восстановить исходное. Этот сервис уже запущен, он не бесплатный, но если он действительно делает то, о чем говорилось на презентации, то за такую функцию многие будут платить.

Airbnb

Airbnb подготовила презентацию по тому, как они борются с overpricing и строят рекомендательные модели в сфере аренды жилья. Airbnb — это сервис, через который люди сдают свое жилье приезжим. Туристы могут сэкономить около 40% живя не в отеле, а у хозяев квартиры.

Сайт зарабатывает на комиссии с бронирования жилья. Создатели разработали оценку жилья по фотографиям в сравнении с жильем в подобных районах. Например, хозяин квартиры хочет сдавать ее по высокой цене, пишет свою стоимость, а система выдает рекомендованную стоимость, близкую к рыночной. Это позволяет создать спрос на сдаваемое жилье и в то же время удовлетворить арендаторов. Сервис в итоге чаще получает комиссию, и все остаются в выигрыше. Отличный пример использования machine learning для создания win-win стратегии.

Machine Learning все больше появляется в повседневных вещах и все прочнее интегрируется в мир. Это уже не только космические корабли беспилотных автомобилей и всевозможное распознавание образов, заполонившие месседжеры полуинтеллектуальные чат-боты, но и вполне обыденные вещи. Здесь описана лишь часть из порядка 20 докладов потока, но они используют разнообразные техники и позволяют просмотреть тренд развития технологий.

Закончить хочется упоминанием доклада от сервиса Quora, который, как и подобает сервису для вопросов, составил наиболее актуальные вопросы в области, а именно создание унифицированного формата для хранения фич и моделей, versioning моделей, модульность. Вопросы открыты и есть надежда, что с все большим уходом machine learning тулов в opensource они в ближайшее время обретут свои ответы на Quora.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі