Информ-война или как проверить информацию

Всем привет,

вчера мне в голову пришла страннейшая идея, и я сегодня попробовал накостылять её по-быстрому :).

Для затравки картинка:

www.dropbox.com/...​922jju7xeo/putia.png?dl=0

Идея собственно в том чтобы заколбасить код, который может с некоей вероятностью ответить на вопрос: «Что из сказанного — правда?»

Взор мой упал на заглохший проектик liarliar на sourceforge.
Построен он вокруг идеи «Voice stress analysis».

Естественно, алгоритмы такого типа не дают 100% результата, да и о тех что дают — можно спорить. Но в первом приближении — а почему бы не попробовать.

Собственно, поскольку времени вагон^Wнету совсем, то... По-сути я просто надергал побыстрому необходимого кода с разных источников, и слепил из этого огромный костыль :).

Были мысли прилепить этот lie probablity estimator к ffmpeg или libav, или сделать плагин к VLC ( что кстати было б круто, можно по iptv новости с плагином смотреть %) ). Но остановился на извлечению аудио из видео ffmpeg’ом и генерации субтитров для видео.

Работает ну не сказать что идеально (NB это костыли, не забывайте).

Ссылка на архив с кодом:
www.dropbox.com/...​8khx4/ohliarliar.zip?dl=0

P.S. О качестве кода говорить не надо :), я уже написал, что это говённый костыль, но мнение о идее вообще рад буду слышать.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Сьогодні на Prometheus стартував безкоштовний онлайн-курс Київського національного університету імені Тараса Шевченка, який, на наше глибоке переконання, буде надзвичайно цікавим та корисним кожному громадянину України: «Інформаційні війни». Курс дозволить всім зацікавленим слухачам:

— вивчити сутність та специфіку феномену інформаційних війн;
— розібратися у використанні інформаційного чинника у різноманітного типу «гібридних» війнах;
— дізнатися про особливості війн четвертого покоління, які ведуться з використанням спеціальної «інформаційної зброї».

www.facebook.com/...ine/posts/858239240896979

Вопрос. Берлинская база — это какой-то общедоступный набор тестовых данных? Если да, то можно ссылку?

NB смотря что такое «все остальное» ).

О, ну спасибо хоть за уточнение, нашел.

Человек может не врать, а быть искренне убежденным в той ерунде, которую несет.

Это в смысле смотришь новости или политическую передачу типа Шустера, включаешь плагин и видишь кто врёт? Надо такой в каждый телевизор каждой бабушки поставить — глядишь голосовать иначе начнут

IMHO, это бесполезно.

1. Если ложь «качественная», то таким алгоритмами она никак не детектируется. Невозможно точно сказать правда или неправда.

2. Если ложь очевидна и прямолинейна, то такое детектирование бесползено по причине того что человек умный и сам всё увидит, а человек недалекий вашей «вражеской программе» просто не поверит — он по телевизору все увидит.

Итого: поиграться интересно, но практической пользы никакой.

Если ложь «качественная», то таким алгоритмами она никак не детектируется
покер-фейс велкам :)

Когда будешь себе делать покер-фейс — ты ладошкой резче хлопай ;)

По зомбоящику такое регулярно :)

Не совсем понятно, что такое «качественная»?

Понятия «правда» и «ложь» вообще очень относительны, так что поле для дискуссий тут огромное.

По второму пункту, тут главное слово «недалекий». Речь не идет о вере на слово, если есть код реализующий «детектор лжи» (здесь речь не о том что в архиве, результаты выдаваемые откровенно плохие*, скорее — некий абстрактный код) и дающий хороший результат (напр. 85% true positive и т.д.), то речь идет скорее ли о том способен ли пользователь адекватно оценить результат. Т.е. понимает ли он что речь о _вероятности_.

Что касается этого конкретного метода (по microtremor), то на тестовых записях он показывает слабый/нестабильный результат.

*Напр., мою запись (на рус.): «Меня зовут Саша. У меня есть машина.», он помечает правильно — «Possible true, possible lie», записи сделанные с моих знакомых (на разных языках) дают результаты похуже. Кроме того, результат зависит от положение окна на котором происходит обработка данных в сигнале.

Как подметил Viktor, тут слабость в первую очередь в предположении (assumption), что стресс==ложь. Хотя уже в этом можно усомниться, так как стресс не всегда связан с ложью (из так сказать — житейской практики).
Кроме того, можно придумать и контрмеры, напр. обработка звука перед выпуском в эфир.

Вообще, хорошим продолжением было б сделать dataset для этой задачи, проанализировать литературу и другие методы для Voice stress analysis, провести ряд экспериментов, оценить результаты и т.д. Но такой путь уже тянет на научное исследование, причем не по-моей (хоть и смежной) тематике.

Я в первую очередь хотел посмотреть насколько идея реализуема. Выяснил, что с технической точки зрения можно, идея мне все еще нравится и если когда-то мне в руки попадет новая информация на эту тему (напр. новый алгоритм), я попробую снова.

Не совсем понятно, что такое “качественная”?

Изначально ты пишешь:

Идея собственно в том чтобы заколбасить код, который может с некоей вероятностью ответить на вопрос: “Что из сказанного — правда?”

Ну, вот в самом буквальном смысле, о качественной лжи я и пишу. Например, есть люди, которые умеют обманывать детекторы лжи. Вот пример качественного подхода. Точно так же можно правильными словами и интонациями сообщить нечто таким образом, что будет невозможно с приемлемой долей вероятности сделать заключение о том, правда сказанное или вымысел, — если анализировать только данное конкретное сообщение.

Понятия “правда” и “ложь” вообще очень относительны, так что поле для дискуссий тут огромное.

Есть мнение, что вообще абсолютно все относительно. Если строго следовать данной логике, то поля для дискуссий здесь вообще нет — дискуссия в рамках такой парадигмы будет просто бессмысленна.

По второму пункту, тут главное слово “недалекий”. Речь не идет о вере на слово,
речь идет скорее ли о том способен ли пользователь адекватно оценить результат. Т.е. понимает ли он что речь о _вероятности_.

Ну, так об этом и речь:
— если ложь очевидна и проста, то абстрактный “взрослый здравый человек с высшим образованием” вполне в состоянии её задетектить самостоятельно, без применения технических средств;
— если ложь “сложна” и сделана “качественно”, то задетектить её можно только анализом дополнительных проверяемых фактов, а анализ самого сообщения ничего не даст, — более того, алгоритм запросто будет давать ложные выводы;
— если человек “недалёкий” (осмелюсь записать сюда абстрактное подавляющее большинство), то не важно с каким типом лжи он имеет дело. Верить программе он не будет. И здесь мы говорим именно что о вере. Потому что для человека недалёкого нет вероятностей и прочих “ваших сопроматов”. У него есть понятие “верю” и “не верю”. По мнению значительного числа людей, газеты и телевизор врать не могут. По мнению не менее значительного числа людей, если на базаре продавцу сказать: “я беру для дитинкі” — то продавец обязательно даст качественный товар, а не лежалый. Ну и так далее. Так вот, им ваша программа не поможет никак. А тем кто в курсе “этих ваших сопроматов” — она просто не нужна, они и сами справляются.

p.s. я надеюсь, у нас просто дискуссия и понятно что все написанное мной является лишь моим частным мнением. А то уже случались прецеденты...

Если верить Полу Экману (первооткрыватель науки по определению лжи анализируя язык тела и микровыражения лица, он же, кстати, является консультантом известного сериала Lie to me и прообразом главного персонажа), многие политики, особенно президенты, умеют профессионально лгать, а так же умеют различать ложь других. С многими из них занимаются профессионалы, и натаскивают их. Это же касается многих топ менеджеров. Это типа киллерскил при ведении переговоров на высоком уровне, и этот скилл для таких людей — профессиональная необходимость.

Хехе, крутая идея. Я вот тоже сейчас одну интересную идею в голове ношу. Если будет на выходных время, то постараюсь запилить и выложить на гитхаб :-)

Ну, «безумные» идеи привлекают своей безумностью. Еще есть такой факт, что иногда они переходят в разряд «выполнимых», со временем.

Вторую часть фразы я не понял), я например — хожу на работу, делаю «то, что можно», приношу пользу себе и своему работодателю. Думаю у Ирины расклад такой же. Да и выходные — свободное время, как хочет человек так и использует.

Не вижу «вечного двигателя» ни в прямом, ни в переносном смысле. Более того, Ирина вообще не уточняла, что за идея.

Если же был посыл к топику, то идея не настолько безумна. На самом деле исходя из беглого поиска в интернете, можно сделать вывод, что хотя тему нельзя назвать горячей, но публикации свежие имеются. Другое дело, что я наблюдал направленность на forensic science, и голос тут вовсе не единственное что можно проанализировать, некоторые исследуют возможность определения лжи по данным fMRI, и т.д.

Отсутствие верифицированых результатов следствие того, что я не стремился _решить_ проблему определения лжи по голосовой записи, а хотел _попробовать применить_, что-то из доступных методов, на объекте который меня интересовал, а именно записи на youtube, и посмотреть какой получится результат.

В конце-концов:

Идея собственно в том чтобы заколбасить код, который может с некоей вероятностью ответить на вопрос: «Что из сказанного — правда?»
Естественно, алгоритмы такого типа не дают 100% результата, да и о тех что дают — можно спорить. Но в первом приближении — а почему бы не попробовать.

Ну, так я так и понял, что это твоя предметная область.

Что-то такое делал, только попроще (MFCC->SVM) matlab+libsvm на TI digit dataset. Расчета была по обработке сигналов:

Speech samples are given. Divide them into two parts — for learning and verification. Calculate MFCC features and make hand-made labeling of speech signals. In the learning phase try to assign MFCC representative vectors to the same phonemes. In the verification phase apply a minimum-distance criterion for classification of MFCC. Make visualization of intermediate and final results.

Ну только что я не вручную лейбелинг делал (датасет готовый взял, не тот что дали по-умолчанию, точнее его не дали вообще :) ), и не minimum-distance criterion, а SVM воспользовался.

Но это все ж таки не мое, и вряд-ли смогу подключиться, основной топик отнимает много времени.

Підписатись на коментарі