Спасибо за развернутый ответ. Посмотрел White paper у вас на сайте. Очень хорошо все расписанно, прямо готовая бизнес-модель. Насколько я понял, в основе психологической части лежит все таже Facial Action Coding System Экмана.
Our current live projects include the SEWA project: a 3.6m grant to work on automatic sentiment analysis in the wild.
An additional 5.3m grant has been awarded to the SpeechXRay project, which focuses on building the next generation audio-visual user recognition platform to be used for authentication purposes ...
Я смотрю деньги в эту сферу вливаются не маленькие.
Спасибо за статью. Инфракрасная камера работает, но требует отдельной камеры. Возможно дыхание можно определять еще и микрофоном? Хотя микрофоны в бытовой электронике могут быть не достаточно чувствительными.
Интересно, а существуют объективные методы оценки точности распознавания, когда одну видеозапись скармливают разным алгоритмам?
Тут интересная штука.
Google Glass вышли в 2013 году и тогда реакция была очень негативная, вплоть до запрета на посещение публичных мест в этих очках. Продукт провалился.
А в 2016 году компания Snap (которой принадлежит мессенджер Snapchat) выпустила свою версию очков — Spectacles (
Произошел культурный сдвиг.
(Кстати, Spectacles тоже провалились как продукт — всего одна функция, а цена была слишком дорогая как для игрушки.)
Детекция лжи популярна только в художественных произведениях. В реальной жизни её польза очень ограничена. Поэтому даже в криминалистике, ради которой были изобретены полиграфы, они используются крайне ограниченно.
фактор трактовки результатов, который на технику переложить пока нельзя.
Согласен. Поэтому считаю, что трактовать должен человек. Задача компьютера — отследить паттерн и тут же сообщить о нем интервьюеру.
Хорошим специалистам «усилитель» не нужен — сами справляются. Другое дело, что хороших специалистов единицы. Если «усилитель» окажется «по силам» IT, то он сможет компенсировать недостающий навык «обычных» специалистов, подтянуть их уровень и повысить эффективность.
Уверен. Классификация эмоций соответствует Facial Action Coding System: «anger», «contempt», «disgust», «fear», «happiness», «neutral», «sadness», «surprise». А дальше: Cheek raiser + Lip corner puller = Happiness.
Другое дело, что в реальном разговоре это никак не поможет. Нужно мониторить глаза, дыхание, цвет кожи и с миллисекундной задержкой сообщать о значимом изменении интервьюеру, чтобы он понял что что-то произошло и отреагировал.
для них нужна скоростная камера
Из статьи:
we used a high speed Ximea camera ... able to capture 2048×1088 video frames at a maximum rate of 170 fps.
Задняя камера в смартфоне Google Pixel 2:
720p @ 30fps, 60fps, 240fps
1080p @ 30fps, 60fps, 120fps
4K @ 30fps
Такого уровня камеры достаточно для отслеживания изменения диаметра зрачка и дыхательных движений грудной клетки?
Посмотрел видео по запросу «Eyes tracking for ADAS». Вот детектор моргания написанный студентом —
Для моей задачи такой точности должно хватить. Возможно в ADAS системах проблема не в самом распознавании, а в каких-то других компонентах (типа модуля принятия решения)?
очевидно несложно
Вы это для форсу написали, или действительно реализовывали подобные алгоритмы и это оказалось не сложно?
Спасибо за статью. Микровыражения — это подмножество невербальных сигналов (en.wikipedia.org/wiki/Microexpression) с довольно узкой сферой применения. Поэтому я и не спрашивал о них. Обратите внимание на два момента из вашей статьи:
It is generally accepted that the MEs are universal and correspond to the seven basic emotions; however, because they are involuntary and unposed, and spontaneous data are hard to gather, a more simplified taxonomy, with only three classes (positive, negative and surprise) is often used.
Использовать высокоскоростную камеру для фиксации минимальных непроизвольных мышечных сокращений, чтобы потом свести все к тем же 7 «эмоциям» Пола Экмана, которые я упоминал. Когда-нибудь этот метод поможет более точно сортировать фотографии в Инстаграмме. А пока:
All the currently available ME datasets are captured in highly constrained environments (near frontal head position, no head movements, controlled lightning conditions) and have a relatively small number of samples.
Если зажать подопытному голову в тиски, светить лампой в глаза и показывать кино получится «Заводной Апельсин». Я спрашивал не об этом)
Мне кажется, вы не совсем поняли, что требуется.
Компьютер должен следить за набором физиологических реакций собеседника, такими как расширение/сужение зрачка, направление взгляда, моргание, частота и глубина дыхания, изменение цвета кожи лица. Мой вопрос был позволяет ли современная техника и програмное обеспечение это делать?
По каждому параметру должен строиться график и при определенном поведении графика интервьюеру должно отправляться уведомление об изменении параметра (например: частота дыхания увеличилась или зафиксирован определенный паттерн движения глаз). Все. На этом работа компьютерной части системы заканчивается. Остальные выводы делает интервьюер и меняет свое поведение или не меняет по-необходимости.
Если вы имеете ввиду модели, на основании которых система будет реагировать уведомлениями — да, они должны быть составлены и валидированны командой психологов. Никаких других «чувства и опыта» в задаче нет.