Конференция по DevOps практикам — DevOps Fest, 20-21 марта. Cпикеры и доклады на сайте >>
×Закрыть

Распознавание образов и практическая психология. Help wanted!

Привет, хотелось бы услышать мнение людей занимающихся тренировкой алгоритмов распознавание образов в реальном времени.

Я психолог и хорошо знаю специфику индивидуального консультирования. В процессе разговора с клиентом, психологу нужно решать сразу две невероятно сложные задачи — анализировать содержание речи и следить за невербальными сигналами, такими как мимика, жесты, дыхание, цвет кожи, движение глаз. Для того чтобы научиться хорошо выполнять одну из этих задач нужны годы практики, опытный наставник и определенные личные качества. Одновременно качественно выполнять обе задачи могут единицы. Это одна из причин по которой высококлассных практических психологов так мало.

Психологов-консультантов, и говоря шире интервьюеров, средних способностей, как и во всех остальных профессиях большинство. Они ведут диалог либо фокусируясь на одном канале, либо постоянно переключаясь и выхватывая случайные факты из сказанного или сделанного клиентом. Например, возможно у вас была ситуация, когда на консультации вы рассказываете что-то очень волнующее, комок подкатывает к горлу, и вдруг психолог задает вопрос о чем-то совершенно второстепенном, что вы мельком упомянули пару фраз назад. И вы такие думаете «Что это было???». Или на собеседовании вы ответили на все теоретические вопросы, сходу решили пару практических задач, и все же получили отказ. А потом, от знакомых знакомых узнали рецензию HR-а, что вы были недостаточно коммуникабельны, открыты и дружелюбны или наоборот слишком активны, уверенны и амбициозны.

Такого рода ошибки сильно снижают эффективность работы всех профессий связанных с проведением интервью, но они неизбежны именно в силу очень большой сложности задачи параллельного отслеживания и анализа двух каналов информации.

Решить проблему, как мне кажется, можно переложив на компьютер ту часть работы которую он делает лучше — а именно мониторинг и распознавание невербальных сигналов в реальном времени.

Вот примеры того как видят этот процесс фантасты:
1) сцена допроса репликанта из фильма «Бегущий по лезвию» (1982) — www.youtube.com/watch?v=Umc9ezAyJv0
2) использование, встроенного в глаз, модуля «Улучшенной социальной коммуникации» (Social Enhancement Augmentation) для убеждения в игре «Deus Ex» (2016) — www.youtube.com/watch?v=RT1j35dvWno

Исследования невербальных сигналов техническими средствами ведутся довольно давно. Но раньше они сводились к ретроспективному анализу видеозаписи. Самые современные (из коммерчески доступных) продуктов в этой сфере — сервисы «распознавания эмоций» на фото и видеозаписях. Например — azure.microsoft.com/...​gnitive-services/emotion Можно поиграться — вставить URL-адрес любого изображения из интернета и сервис попытается определить «эмоцию». Эти продукты опираются на «Систему кодирования лицевых движений» Пола Экмана (en.wikipedia.org/...​cial_Action_Coding_System). А используются они для автоматической сортировки миллиардов фотографий, ежедневно загружаемых в сеть.

Для управления диалогом в реальном времени эта технология, как мне кажется, бесполезна. Определить высокоуровневую эмоцию типа гнева или радости интервьюер может и сам. (Хотя людям с аутистическими расстройствами технология может помочь даже в таком виде).

То что нужно — мониторинг микросигналов (изменение частоты и глубины дыхания, изменение цвета кожи, частота моргания, сужение/расширение зрачка) и сообщение интервьюеру о значимых изменениях. Для этой цели отлично подойдут какие-нибудь очки дополненной реальности.

Я надеюсь на форуме есть разработчики, занимающиеся технологиями распознавания образов, которые могут подсказать, насколько технологии уже «созрели» для решения такой задачи.

Можно ли «натренировать» алгоритм на распознавание изменения диаметра зрачка снятого микрокамерой с расстояния в 2-3 метра?
Направление взгляда?
Считать частоту и глубину дыхания по движениям грудной клетки?
Изменение цвета кожи?

Просматривая на 17 дюймовом мониторе интервью записанные при хорошем освещении я все эти изменения вижу, т.е. камера их фиксирует.

Можно ли готовый алгоритм запустить на мобильном устройстве и добиться выдачи уведомлений с лагом в доли секунды?

Спасибо, что прочитали!
Александр
Oleksandr.Psy@gmail.com

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Исследования похожей проблемы arxiv.org/abs/1712.04415

Кратко. Заменить программой подобного специалиста еще лет 50 не будет возможно, а то и 200.
Помимо сложности снятия нужных параметров еще нужно описать чувства и опыт специалиста «математически, программно».
И да же после этого нужно еще обучить получившееся на громадном объеме.
Т.е. я считаю, что в будущем задача решаема, но в далеком.

Мне кажется, вы не совсем поняли, что требуется.
Компьютер должен следить за набором физиологических реакций собеседника, такими как расширение/сужение зрачка, направление взгляда, моргание, частота и глубина дыхания, изменение цвета кожи лица. Мой вопрос был позволяет ли современная техника и програмное обеспечение это делать?

По каждому параметру должен строиться график и при определенном поведении графика интервьюеру должно отправляться уведомление об изменении параметра (например: частота дыхания увеличилась или зафиксирован определенный паттерн движения глаз). Все. На этом работа компьютерной части системы заканчивается. Остальные выводы делает интервьюер и меняет свое поведение или не меняет по-необходимости.

нужно описать чувства и опыт специалиста

Если вы имеете ввиду модели, на основании которых система будет реагировать уведомлениями — да, они должны быть составлены и валидированны командой психологов. Никаких других «чувства и опыта» в задаче нет.

такими как расширение/сужение зрачка, направление взгляда, моргание, частота и глубина дыхания, изменение цвета кожи лица.

Позволяет, но цена оного в районе цены Предатора.
Обычная школьная физика, раздел оптика. Там найдешь, как оценить необходимое тебе разрешение камеры. Добавь к этому необходимое освещение — это софиты киношные и не изменение освещения в процессе общения с собеседником.
Итого мы получаем что-то похожее на комнату для допросов или операционную.

Ну и помимо дорогого железа, еще оплата работы в течение хотя бы 3 лет толпы от 10 спецов.

Так что то, что ты хочешь, после твоего уточнения, возможно, но очень дорого. И более того, как найдешь ляма 3 баксов, то в той же Украине найдешь несколько команд, что желаемое тобой смогут реализовать.
Т.е. весь вопрос в деньгах. Железо такое уже есть, только стоит оно совсем не столько, сколько массовые вебкамеры и подобные игрушки.

Ну а частоту дыхания. Точно- это датчик на тело человека, неточно — раздеть пациента и пытаться считать изменения грудной клетки и живота.

Ну и цвет кожи лица у живых людей не меняется за несколько часов.

В двух словах о технической части:
— Это очень сложное решение, состоящее из нескольких компонентов, каждый из которых либо сеть или какой-то handcrafted svm;
— Используя обычную камеру всякие быстрые эмоции и микро изменения зафиксировать невозможно. Но даже если использовать специальные камеры, не забывайте что еще будет нужен потом огромный объем промаркированных данных чтобы сделать даже какую-то базовую модель хотя бы для пульса или изменения цвета кожи.

Спасибо за развернутый ответ. Посмотрел White paper у вас на сайте. Очень хорошо все расписанно, прямо готовая бизнес-модель. Насколько я понял, в основе психологической части лежит все таже Facial Action Coding System Экмана.

Our current live projects include the SEWA project: a 3.6m grant to work on automatic sentiment analysis in the wild.
An additional 5.3m grant has been awarded to the SpeechXRay project, which focuses on building the next generation audio-visual user recognition platform to be used for authentication purposes ...

Я смотрю деньги в эту сферу вливаются не маленькие.

Наш компания (www.realeyesit.com) именно этим занимается, но это пока интересно только для маркетинга, медицина в далеких планах. У нас один из конкурентов (synetiq.net) раньше делал что-то похожее на то, что вы описали — обвешивали человека кучей датчиков и специальные камеры использовал, но кажется у них не очень это зашло.

Насчет частоты дыхания я бы прикрепил к пациенту отдельный датчик. Все остальное — мне не профессионалу кажеться можно.

Твой анализатор глядя на меня сейчас бы показал огромную лошадь, падающую под стол

Для этой цели отлично подойдут какие-нибудь очки дополненной реальности.

То что вы написали очень интересно и захватывающе (и Deus Ex — великолепная игра), но я недавно искал информацию о Google Glass и нашел что для потребителей они не взлетели и продавать новую версию будут только для производства. Одна из называемых в разных статьях причин (кроме опасений незаметной слежки) — собеседники людей в очках GG чувствовали себя не ок. Некоторые посмеивались с носителей очков. А тут всё-таки психолог, беседа на чувствительные для человека темы.

Тут интересная штука.

Google Glass вышли в 2013 году и тогда реакция была очень негативная, вплоть до запрета на посещение публичных мест в этих очках. Продукт провалился.

А в 2016 году компания Snap (которой принадлежит мессенджер Snapchat) выпустила свою версию очков — Spectacles (www.youtube.com/watch?v=uJOUuFrLWG8). По сути, очень примитивная копия Google Glass, способная только снимать 30 секундные видеоролики и постить их в чат. Так вот негативной реакции не было вообще. Люди просто забыли как три года назад параноились и возмущались нарушением приватности.

Произошел культурный сдвиг.

(Кстати, Spectacles тоже провалились как продукт — всего одна функция, а цена была слишком дорогая как для игрушки.)

Произошел культурный сдвиг.

Ну вот мне кажется сдвиг недостаточный для обсуждаемой задачи. Только если есть очки дополненной реальности, в которых камера незаметна (в идеале чтобы выглядели как обычные очки)

И по функционалу такие же. Главное чтобы допрашиваемый верил в их силу

Как практикующий психотерапевт и программист в одном лице, выражу свою крайнюю заинтересованность.

Полиграф по-новому. Со всеми вытекающими.
Только упоминания про блокчейн не заметил, не забудьте)

автор, напишите мне в личку, есть весьма интересный момент

не врёт, момент зачётный, одна затяжка — и на психологию пробивает

клоунада не здесь.. Вам к Петросяну

Психологическая мифология как бы тоже не здесь.

«Усилитель» — вполне по силам существующему IT. Но сам по себе он скила не добавит. Количество хороших специалистов не увеличится. Но жизнь хорошим облегчит в какой то мере.

Хорошим специалистам «усилитель» не нужен — сами справляются. Другое дело, что хороших специалистов единицы. Если «усилитель» окажется «по силам» IT, то он сможет компенсировать недостающий навык «обычных» специалистов, подтянуть их уровень и повысить эффективность.

Не сможет.

он сможет компенсировать недостающий навык «обычных» специалистов

это типичное заблуждение. Назначение «усилителя» — экономить ресурсы (время например). Как правило, усилитель работает в обе стороны. Он усиливает «нечто», как в плюс (хорошему специалисту), так и в минус (ошибки обычных).

Усилитель руля — не способен компенсировать недостатки навыков вождения. Просто позволяет крутить руль с меньшими затратами физических сил.

О какой эмоции говорит красное пятно на лице, напоминающее по форме ладонь?

Изучите тему детекторов лжи. Помимо технических сложностей, есть фактор трактовки результатов, который на технику переложить пока нельзя.

Детекция лжи популярна только в художественных произведениях. В реальной жизни её польза очень ограничена. Поэтому даже в криминалистике, ради которой были изобретены полиграфы, они используются крайне ограниченно.

фактор трактовки результатов, который на технику переложить пока нельзя.

Согласен. Поэтому считаю, что трактовать должен человек. Задача компьютера — отследить паттерн и тут же сообщить о нем интервьюеру.

Детекция лжи популярна только в художественных произведениях.

Именно поэтому и предложил глянуть туда для начала. Детекция эмоций или иных, не имеющих четкого определения, сущностей из молодой области психологии, которую и к науке не все могут отнести, это еще более далекая от реальности задача.
Собеседуемый посмотрел вверх чуть влево — фантазирует о бабах, придумывает ложь, просчитывает ответ, вспоминает о невыключенном утюге, услышал странный звук, не сдержал эмоцию «как вы меня задолбали»... И всё это на смартфоне, ненавязчиво лежащем на столе?

Вроде сам Экман писал, что его система не универсальная. А еще нужно базовое состояние, от которого происходит микровыражение.
У МС просто по фотографии распознавание происходит. Вы уверены, что там есть что-то от экмана?

Уверен. Классификация эмоций соответствует Facial Action Coding System: «anger», «contempt», «disgust», «fear», «happiness», «neutral», «sadness», «surprise». А дальше: Cheek raiser + Lip corner puller = Happiness.

Другое дело, что в реальном разговоре это никак не поможет. Нужно мониторить глаза, дыхание, цвет кожи и с миллисекундной задержкой сообщать о значимом изменении интервьюеру, чтобы он понял что что-то произошло и отреагировал.

Универсальность не в смысле набора эмоций, а в смысле подхода в зависимости от расы, физиологии и т.д

Забавно, как техника скорочтения влияет на результаты этого скрининга.

сначала почитайте что такое микровыражения — это совсем не цвет кожи и не частота дыхания, для них нужна скоростная камера
например:
pdfs.semanticscholar.org/...​e257ebd2802e0bc5eb772.pdf

доктор Лайтман, перелогинтесь!
Все что за пределами (так сказать — нано =) перечисленных ниже не являются достоверной методикой определения изменения состояния. Для сериала подходит, да, для реальной жизни достаточно более четких сигналов, имхо

(изменение частоты и глубины дыхания, изменение цвета кожи, частота моргания, сужение/расширение зрачка)

Спасибо за статью. Микровыражения — это подмножество невербальных сигналов (en.wikipedia.org/wiki/Microexpression) с довольно узкой сферой применения. Поэтому я и не спрашивал о них. Обратите внимание на два момента из вашей статьи:

It is generally accepted that the MEs are universal and correspond to the seven basic emotions; however, because they are involuntary and unposed, and spontaneous data are hard to gather, a more simplified taxonomy, with only three classes (positive, negative and surprise) is often used.

Использовать высокоскоростную камеру для фиксации минимальных непроизвольных мышечных сокращений, чтобы потом свести все к тем же 7 «эмоциям» Пола Экмана, которые я упоминал. Когда-нибудь этот метод поможет более точно сортировать фотографии в Инстаграмме. А пока:

All the currently available ME datasets are captured in highly constrained environments (near frontal head position, no head movements, controlled lightning conditions) and have a relatively small number of samples.

Если зажать подопытному голову в тиски, светить лампой в глаза и показывать кино получится «Заводной Апельсин». Я спрашивал не об этом)

для них нужна скоростная камера

Из статьи:

we used a high speed Ximea camera ... able to capture 2048×1088 video frames at a maximum rate of 170 fps.

Задняя камера в смартфоне Google Pixel 2:
720p @ 30fps, 60fps, 240fps
1080p @ 30fps, 60fps, 120fps
4K @ 30fps

Такого уровня камеры достаточно для отслеживания изменения диаметра зрачка и дыхательных движений грудной клетки?

Я знаю, что в Киеве есть разработки по распознаванию эмоций через ЭЭГ. на уровне научных исследований.

для диаметра зрачка — да, для дыхательных движений — нет. слишком «аморфная» задача для компьютерного зрения, по крайней мере в реальных условиях, с любой одеждой, и т. д...
дыхание проще всего отслеживать тепловизором скорее всего. и для других физиологических факторов термо-камера тоже была бы полезна.
www.spiedigitallibrary.org/...​BO.22.3.036006.full?SSO=1

Спасибо за статью. Инфракрасная камера работает, но требует отдельной камеры. Возможно дыхание можно определять еще и микрофоном? Хотя микрофоны в бытовой электронике могут быть не достаточно чувствительными.

Такого уровня камеры достаточно для отслеживания изменения диаметра зрачка и дыхательных движений грудной клетки?

А что мешает взять сфотографировать лицо этой камерой, посмотреть диаметр зрачка и положение в глазу в пикселях? Результаты будут удручающие, где-то угол 10 градусов на пиксель. С таким разрешением микродвижения определить невозможно. Многие также не понимают, что бытовые камеры — это использование байеровских матриц в которых разрешение смело можно делить на 2 или даже на 4. Они предназначены для дальнейшего сжатия изображений, но никак не для анализа. Поэтому и платят за Ximea и прочих производителей.

Можно ли «натренировать» алгоритм на распознавание изменения диаметра зрачка снятого микрокамерой с расстояния в 2-3 метра?
Направление взгляда?
Считать частоту и глубину дыхания по движениям грудной клетки?
Изменение цвета кожи?

Можно и очевидно несложно.

Можно ли готовый алгоритм запустить на мобильном устройстве и добиться выдачи уведомлений с лагом в доли секунды?

С высокой вероятностью да, но зависит от многих факторов.

очевидно несложно

Вы это для форсу написали, или действительно реализовывали подобные алгоритмы и это оказалось не сложно?

Вы это для форсу написали, или действительно реализовывали подобные алгоритмы и это оказалось не сложно?

А как ты сам думаешь? Eyes tracking для ADAS до сих пор не сделали на таком уровне, чтобы не хотелось эту подсистему в машине нахлухо отключить. Хотя там вращаются миллионы долларов.

Посмотрел видео по запросу «Eyes tracking for ADAS». Вот детектор моргания написанный студентом — www.youtube.com/watch?v=OaPsl84ecrg
Для моей задачи такой точности должно хватить. Возможно в ADAS системах проблема не в самом распознавании, а в каких-то других компонентах (типа модуля принятия решения)?

Для моей задачи такой точности должно хватить.

Я там вообще точности никакой не увидел.

Интересно, а существуют объективные методы оценки точности распознавания, когда одну видеозапись скармливают разным алгоритмам?

Ответ двоякий. То как вы описали — в тепличных условиях хорошего освещения и неподвижности объекта решаемо. Вопрос в том, что как написано выше, решение задачи с такой точностью хрен вам поможет.

Только кандидата как минимум придется зафиксировать в кресле из «Заводного апельсина» ;)

в тепличных условиях хорошего освещения и неподвижности объекта решаемо

Примерно так?

woman — лучший распознаватель образа.

Гарантия 50%

Распознавание эмоции «заткнись пля бо пришибу» — 0%

Подписаться на комментарии