Распознавание образов как основа для стратапа

За последнее время услышал много мнений на тему «Распознавание образов». Кто-то говорит, что это крутая тема, и добившись результатов можно очень хорошо зарабатывать, а с другой стороны слышу, что ничего особенного в этом нету, хорошая тема для дипломной работы и множество стартапов запускались в этом направлении.

В результате, если посмотреть в повседневности, не вижу никаких сервисов с применением этих технологий.

Интересует, кто и когда этим занимался (или хочет заниматься), есть ли интересные наработки в этом направлении?

P.S. Есть несколько задач для реализации проекта. Одна из них — получить физические характеристики объекта (например: высота, ширина). На одном форуме нашел про магазин, которые шьют костюмы, их фишка в том, что мерки
снимают — онлайн (как раз при помощи распознавания образов)

👍НравитсяПонравилось0
В избранноеВ избранном0
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Пришла в голову одна идея по разработке приложения на андроид связаного с распознаванием лиц, с такими вещами раньше дела не имел, по-этому ищу человека который в курсе темы и готов поучаствовать в интересном проекте.

Уже их куча таких. Берешь OpenCV и там уже много сделанного, особенно для распознавания лиц. В 20 строчек кода вложиться можно и куча примеров в инете.
Ну и в догонку, американские студенты уже и такое слепили: sirius.clarity-lab.org/sirius-suite. Запускаешь на сервере и получаешь аналог Сири.

А с распознаванием мимики тоже куча?

А с мимикой нет. Ты бы сразу писал, что тебе конкретно интересует.
Вот, например, вторая ссылка в Гугле: it-claim.ru/..._Yana/SemenovaPlakats.pdf
Берется и реализуется. Но, надо понимать, что быстро и качественно не получится. Сначала отлаживается на матлабе, например. Затем порт на плюсы, получиться либа. Затем заюзать ее в том же Андроеде.
Задача интересная, но объемная и не простая. Для таких задач очень желательно искать спонсора (или в рамках дипломной, курсовой делать). Без спонсора через некоторое время появиться большое желание забить на нее.

А спонсор для чего?Чтобы шарящих людей нанять?

Чтобы самому был стимул доделать. Например я представляю объем работы и уверен на 99.9 процента, что забью на такую работу через некоторое время без стимула. Не забывай, что не все будет получаться сразу, всплывет куча нюансов.
Первые же — это разное освещение, шумы движение лица и плохое выделение лиц и мимики. И здесь придется кучу мелкой и нудной работы делать.

Вообще я даже и не знаю как за это браться с такими наукоемкими вещами никогда даже и дела не имел

Выше написал.
Но еще один момент опустил — нужна база лиц с разной мимикой, на которой обучаться.
Браться просто — берешь и делаешь, но растянется все минимум на полгода и легко забить. Нужна компания, что будет делиться «энергией», как минимум, или «спонсор со стимулом».
Как сделать, я представляю, но так же хорошо представляю, что мне это надоест и забью без стимула.

Тот файл pdf дает вообще какие-то общие понятия, тем более что ни с ии ни с обработкой изображений раньше дела не имел

Там все в деталях расписано и со ссылками, что и как делать.
Причем и время разработки указано: Время разработки 1966 часов или около 250 рабочих дней или 50 недель или 1 год.
Можно распараллелить разработку на несколько человек, понятно, что все они должны смыслить в этой области.

По поводу инвестора, сначала нужно хотя бы прототип сделать, только потом деньги дадут, то есть нужно сначала где-то найти человека который согласится учавствовать, здесь никто особо пока что не отзывается.И по мио прочего еще нужно чтобы человек был из того же города что и ты

Ты представляешь, сколько этот человек должен своего времени вложить? Точнее выше все написано, сколько.
В это все мы тут упираемся. Сначала нужно сделать продукт — это долго, затем уже пытаться найти инвестора. А шансы найти его очень малы. В итоге полгода-год работы и все псу под хвост.
В итоге вывод, все, что мы можем сделать в наших убогих странах — это простенькие поделия за месяц (слепить из опенсурсных либ нечто) и выложить в гугло-магазин.
А с подобными же задачами всегда натыкаешься на кучи подводных камней и делать долго, а еще окажется, что не все просто и исследовать надо будет. И вот на это нужны инвестиции (как пример ЦРТ — они много денег тратят не только на выполнение непосредственно заказов, но эти деньги еще раскидывают между остальными группами, кто что-то исследует — в итоге у них есть сложные продукты).

Я бы этой темой с удовольствием занялся бы, но учитывая объем работы, понятно, что требуется уже и оплата и менеджмент какой-то, а просто год в одиночку нечто пилить — это я не знаю, какою безумную веру и желание иметь надо. Тебя же самого больше 1-2 месяцев не хватит. А еще и работать где-то надо и времени на этот петпроект сильно уменьшится.

Можно тогда попробывать выставить на кикстартер, потом нанять человека или привлечь за проценты

Попробуй. А нанять здесь людей не проблема, как минимум человек 5, что могут это сделать тут есть, на ДОУ.

кстати, а возможно ли распознавание сложных эмоций типа азарта да еще и с телефона если человек допустим немного поднял голову вверх?

Не знаю. Фактически нужен набор векторов наблюдений с эмоцией «азарт» и без этой эмоции. Потом пробуешь типичные алгоритмы и смотришь на результат. Может разделить, а может и нет.
А вообще, если ты глядя на человека можешь оценить наличие этой эмоции и описать по каким признакам, то можно и алгоритм сделать. Если же не можешь, то скорее всего будет глухо. Пока наилучший алгоритм распознавания образов реализован в голове человека.

если хочешь сколотить на этом хоть немного денег — то найди предметную область куда еще никто не влез и где распознавание может дать хоть какойто профит.

Одна компания, например, внедрила распознавание образов в робота-диллера для казино и поимела с этого некоторые деньги.

Еще как вариант — попытайся реализовать распознавание китайских иероглифов. До недавнего времени это не удавалось никому.

Деньги — не цель, это вторично. Интересно сделать то, что будет приносить пользу)

1) нет, 2) есть немного! Этот вопрос к тому, что мне нужно это все знать для реализации проекта?)

Вобщем-то да. Это необходимые, но не достаточные инструменты, ну R еще иногда используют.
Ну и к этому еще объем знаний и опыта нужен.

Мы занимаемся этой темой в videogorillas. Тема действительно очень интересная, и что самое главное — тут непаханое поле в плане подходов, идей и решений. Что касается распознавания объектов на картинке/видео то это одно из наименее проработанных направлений CV. Тема на столько же сложна на сколько интересна. Из последнего что слышал — в MIT группа профессоров построили нейро сеть для идентификации банана в видео ряде :), и вроде у них получилось.

А вам интересно было бы поучавствовать в стартапе на эту тему с возможным получением инвестиций в скором времени

Я уже стартап и с полученными инвестициями =).

Ну а возможно вы знаете того кому это было бы интересно?

Остаётся актуальной тема распознавания и обработки применительно к АТО (съёмка с БПЛА):
— нахождение областей пересечений фото
— привязка, определение характера искажений
— сшивание в ортофотоплан
— обнаружение и оценка изменений на фото снятых в разное время
— распознавание техники оффлайн, онлайн
— слежение
— определение размеров, типа/модели и состояния
...

Монетизация — очень длинная, но однозначно возможна. Зато есть бетатестеры и польза родине

Все эти задачи уже имеют решения, думаю большинству было бы интересно этим заниматься- но все упирается во время и деньги.

Нужно, чтобы задачи имели прикладное решение в нашей армии, а не вообще.
По «упирается во время и деньги» — не понял. Автор говорит о стартапе, что упирается во время и деньги.

Было бы замечательно, если бы кто то выложил видео из зоны АТО снятое с БПЛА, на основе которого требуется выполнить какой либо поиск.(техника, номера) и тд. Я думаю нашлиль бы люди которые попробовали адаптировать свои наработки под это.

В качестве аналогии: «Было бы замечательно, если бы кто-то выложил куски дороги. Я думаю, нашлись бы люди которые адаптировали бы свои наработки по амортизаторам для Вашего автомобиля»

привет, как можно с тобой связаться?

В результате, если посмотреть в повседневности, не вижу никаких сервисов с применением этих технологий.

наберите в гугле OpenCV и найдете много интересного.

На основе этой библиотеки можно много чего придумать.
Есть коммерческая реализация, где анализируют объект (лицо) с 40 характеристиками.

В интернете полно сервисов с использованием распознавания образов:
Даже есть вот такой сервис:
makemebaby.com

Для начала найдите задачу, которую нужно решить и убедитесь, что это нужно людям.

Одна из них — получить физические характеристики объекта (например: высота, ширина). На одном форуме нашел про магазин, которые шьют костюмы, их фишка в том, что мерки
снимают — онлайн (как раз при помощи распознавания образов)
Андрей, дайте ссылку на этот магазин. Спасибо за интересную тему

Пока искал ссылку, нашел вот это site.upcload.com

За время новогодних праздников, удалось выделить пару дней на распознавание образов. Мне давно была интересна эта тема. Решил взять что то простое. Остановился на распознавание автомобильных номеров. Итого.
1. 1 день на более детальное исследование предметной области.
2. 1.5 дня- составление алгоритмов +кодинг
3. 1 день обучения алгоритма на тестовой выборке.

Можно было пойти по накатаному пути:opencv+tesseract OCR, но последний плохо справляется с распознаванием разномаштабных, искаженный и расположенных под разными углами текстов. Поэтому очень пригодились знания векторной математики.
На выходе имеем ~80% точность распознавания. Можно достичь и большей- но надо сидеть и упорно обучать алгоритм. Т.к. это всего лишь пруф оф концепт- на этом решил остановиться.
Что понравилось:
1. Высокая скорость работы (~40 кадров в секунду можно обрабатывать) на процессоре. Распаралеливание используется только в расчете векторов.
2. Алгоритм можно применить не только к распознаванию текста- но и других статичных объектов (техника, здания, оружие)
3. Большой простор для творчества.

Всё это хорошо, но как говорили ниже- пробиться на рынок самостоятельно будет сложно- т.к. вокруг уже есть гуглы, фейсбуки, SentiSight и много других узкопрофильных.
А вообще тема интересная.

1. 1 день на более детальное исследование предметной области.
2. 1.5 дня- составление алгоритмов +кодинг
3. 1 день обучения алгоритма на тестовой выборке.

Завидую по-белому. Это нереально круто для меня, например.

Здесь всё просто. Я уже около 2х лет интересуюсь computer vision &object recognition пролистал много книжек, смотрю курсеру, лекции Microsoft research на эту тему, копаюсь в исходниках на гитхабе и тд. А тут выдалось почти неделя абсолютно свободного времени- вот и решил первые штрихи пера в новой области для себя попробовать.
Ну и как я написал-

это всего лишь пруф оф концепт
, закрепление полученных знаний.
Вообще я очень проникся вышеописанной темой- услышав историю успеха
Viewdle
.
Думаю если дойдут руки- то надо запилить online сервис поиска по фото/видео автомобильного номера информацию о нарушителях. Сейчас у ногих есть видеорегистраторы. Такой себе рейтинг антигероев/нарушителей на наших дорогах.
Или предложить решение поиска угнаных авто для нашего ДАИ, но думаю там только посмеются над таким. Там всегото нужен бюджетный ноут, вебкамераи мой софт с их базой разыскиваемых авто.
Были мысли адаптировать алгоритм для распознавание регистрационных надписей на военной техники для АТО- но на это надо много времени, которого сейчас нет.
Здесь всё просто. Я уже около 2х лет интересуюсь computer vision &object recognition пролистал много книжек, смотрю курсеру, лекции Microsoft research на эту тему, копаюсь в исходниках на гитхабе и тд. А тут выдалось почти неделя абсолютно свободного времени- вот и решил первые штрихи пера в новой области для себя попробовать.
Тем ни менее — это круто за несколько дней даже прототип набросать. У меня так никогда не получалось. Недели 2 минимум.

Верно. Я скачал их готовую базу номеров, и по ней тренировал свой алгоритм. Спасибо им за проделанную работу.
Вообще ребята с рекогнитор молодцы- они описали достаточно хорошо- свои алгоритмы, и уже тогда я понял- что лучше всё же идти своей дорогой. Там они пишут- что тесеракт нужно очень долго тренировать, т.к. малейшие искажения- приводят к ошибкам. Поэтому, решил использоать поиск границ- символов, расчет вектор для найденного и сравнения результата с тем что есть в БД.

Я когда-то использовал для распознавания номеров т.н. Maximally Stable Extremal Regions
cmp.felk.cvut.cz/...atas-bmvc02.pdf
Работает даже для плохих картинок.

Привет, есть одна идея со стартапом по распознаванию мимики, интересно бы было поучавствовать?

У меня есть практическая задача, идентификация газовых баллонов.
ka@cryogen.kiev.ua Анатолий

Я бы рекомендовал копать с другого конца: монетизация. Выбери свою рыночную нишу и посмотри насколько сможешь использовать готовые наработки. Просто так войти на рынок тебе не позволят, там уже сидят монстры с которыми патентную войну вести тебе не по зубам. А вот свою нишу схватить — самое оно.

Если для магазина, то метрика снимается просто до безобразия: наносишь на стену сантиметровую сетку (можно виртуально), светишь параллельным потоком (источник света с параболическим зеркалом), и делаешь фото тени. Уже по фото снимаешь метрику в фоторедакторе. Хотя лично мне кажется, что классический способ снятия метрики — один из старомодных ритуалов, который не стоит исключать из услуги. Он добавляет услуге человечности, индивидуальности, а значит и стоимости.

Другими словами, на этом рынке сложно чего-то поймать стартапом, без денег туда лучше не соваться.

Копать со стороны монетизации — не совсем то. Я не занимаюсь пошивом одежды (про магазин и мерки — это в качестве примера).
И что значит «не позволят»? В любой нише можно найти себе место и укорениться, вопрос только в том, на сколько ты будешь отличаться от других игроков, в особенности твоей концепции. Если открыть магазин шмоток, то это всего лишь еще один магазин шмоток, это с трудом можно назвать проектом или стартапом.

В результате, если посмотреть в повседневности, не вижу никаких сервисов с применением этих технологий.
Алгоритмы «распознавания образов» очень широко используются, просто они зашиты внутри программ/девайсов и невооруженным глазом могут быть не видны...
Тот же Galaxy S5 набит этими самыми «применениями». По-моему, даже перебор.
Интернет — гугл давно уже их использует (насколько хрошо, другой вопрос).
Программы работы с видео/графикой — тоже используют.
Практически любая мыльница, не говоря уже о более навороченных аппаратах, использует их.
Есть сервисы распознавания и поиска мелодий, вплоть до того, что на телефон ставится приложение и оно через микрофон по фрагменту услышанной мелодии распознает ее (в частности, используется при поиске нарушений авторских прав в Штатах в барах %).

Да и само понятие «распознавание образов» слишком широко.
Вон в соседнем топике как раз под АТО ищут программистов — подключайтесь. Самое что ни на есть распознавание образов...

Кто-то говорит, что это крутая тема, и добившись результатов можно очень хорошо зарабатывать
Да, крутая. Да, можно. Только этих результатов еще добиться нужно %) А это очень непросто. С наскоку не получится.

PS: забыл о сервисе распознавания автомобильных номеров от ГАИ :) А всякие штрих-код сканеры в магазинах, да и любой телефон уже умеет распознавать QR-код... Присмотритесь внимательней вокруг — найдете еще применения теории распознавания образов...

Только этих результатов еще добиться нужно %) А это очень непросто.
В точку.
Часто, чтобы добиться приличного результата только годы, десятилетия уйдут. Но результат в итоге может оказаться совсем посредственным в сравнении с мировыми лидерами в этой области.
Итого вложения безумны, а вероятность прибыли мизерна.
Ну и плюс к этому не надо забывать. что этим вопросом занимаются такие монстры как гугл с их бесконечными ресурсами.

Интересно было бы услышать их историю. С чего и когда начинали, как находили заказчиков, инвесторов и т.д.

Повезло профессору.

Кстати есть ответ ТС. Сначала инвестор, а потом купить распознавание можно.

#offtopic
Думаю написать плагин для ElasticSearch для индексирования изображений. Ничего особенного, выделение лиц, поиск объектов и так далее. Нет желающих подключиться?

ElasticSearch — движок полнотекстового поиска и не предназначен для изображений, даже если вы цифры запишете в индекс, профита это вам не даст. Написать плагин не получится потому что полнотекстовый поиск использует совсем другие алгоритмы. Даже если это как-то будет работать, то явно неэффективно.

Поработал и с Solr и с ElasticSearch, что-то пока не хочется. Я бы EJB 3 лучше попробовал.

Я в курсе :). Но также это готовое веб-апи, распределенное хранилище, веб морда и прочее.
Я вижу так:
1. Отдельный модуль, который вытаскивает из картинок все, что можно — текст, объекты, лица. Для прототипа вполне подойдут доступные либы вроде opencv/caffee/etc
2. Сброс этих данных (текстовых тегов) в ES.

расскажите что именно хотите сделать

Тема интересная, Вадим, если определить яснее конечные цели. Может попробуете под эту идею отдельный топик на ДОУ завести?

Скажите пожалуйста, Вадим, а чем Вам не подошло сущестующее решение построенное на LIRE, описание которого можно найти по ссылке: Search for Images Using Images? Если можно, то опишите детальней пожалуйста, чтобы можно было бы воспроизвести у себя этот недостаток. Заранее благодана.

«Просто» — не спрашивал бы) Есть несколько задач для реализации проекта. Одна из них — получить физические характеристики объекта (например: высота, ширина) и дальше использовать полученные данные...

Вы просто спрашиваете или что-то сами делаете?

Подписаться на комментарии