QA Fest — конференция №1 по тестированию и автоматизации. Финальная программа уже на сайте >>
×Закрыть

Интервью с OCR-исследователями

Колупаев АлексейСегодня мы будем общаться с Юрием Огиенко и Алексеем Колупаевым — украинскими разработчиками, специалистами в области OCR (оптическое распознавание символов) и основателями OCR Research Team; их сайт — один из лучших информационных источников в интернете по данной теме.

Кем и где сейчас работаете, чем занимаетесь?

ЮО: Я еще студент, пишу диплом, работаю дома фрилансером, а также вебпрограммирую в intetics.
AK: Я работаю в компании Lohika, которая дает мне возможность работать тимлидом в eBay

Как пришли в мир OCR, почему именно эта область? Интересы помимо OCR?

ЮО: Дело было вечером, делать было не чего, А тут пришел Алексей и понеслась. :) А вообще интересуюсь интернет-проектами, веб-программированием.
Огиенко ЮрийАК: Мне как-то на улице придумалась идея трехмерной капчи по мотивам модной древней игрушки для, наверное, еще XT-шек. Там самолетик летел над псевдотрехмерной полосой, которая, будучи нарисованной в изометрии, имитировала рельеф. Мне показалось, что эту идею можно использовать для капчи. А чтобы получилась нормальная, пришлось попутно выяснить, как их взламывают, попробовать «на зуб». Все это жутко интересно, очень похоже на открытые соревнования или олимпиаду. Вне этого проекта я интересуюсь (и профессионально занимаюсь) созданием и управлением ИТ-проектов (особенно крупных интернет-проектов).

OCR — достаточно наукоёмкая область. Откуда берёте специальные знания, какие проводите исследования? Насколько сильна эта область в украинской науке и техническом образовании на ваш взгляд?

ЮО: Сразу по поводу образования: из известных мне, в каком-то из московских институтов была кафедра, спонсируемая ABBYY. У нас этим вроде бы никто не занимается. Все знания из интернета, сайтов западных университетов или исследовательских лабораторий, занимающихся проблемами компьютерного зрения.
АК: Мы, в общем, занимаемся достаточно узким подмножеством OCR, и по этой теме есть ряд публикаций исследовательских центров и университетов. Мы собираем такие публикации, их можно найти через поиск на нашем сайте. Там тема защиты капчи раскрыта, так сказать, весьма широко. Плюс — математика, программирование и нейронные сети, которые очень нам помогают, тоже очень хорошо описаны в интернете.

СМИ пишут, что вы «основали компанию для коммерческого продвижения этой технологии» — расскажите про это подробнее; чем занимаетесь?

ЮО: В основном, я занимаюсь выявлением и практическими подтверждениями уязвимостей различных капч. Собственно как раз OCR. Алексей в большей мере занимается построением нашей собственной капчи и выработкой подходов к устранению уязвимостей, сохраняя простоту и читабельность.
АК: Это, кстати, утка. Никакой компании в природе не существует — это исключительно хобби. Занимаемся всем, что связано с капчами. В первую очередь делаем свою, также ковыряемся в чужих, делаем экспертные оценки капч, даем интервью :) Вот в марте расскажем немного о капчах на UAWEB, вышла наша статья в IEEE Security & Privacy. То есть, можно сказать, занимаемся и общественной деятельностью.

Насколько востребовано это направление?

ЮО: Направление настолько же востребовано, насколько полон ваш емейл спамом и блог завален рекламными комментариями.
АК: Если капчи ставят на формы — значит это кому-нибудь нужно? Могу сказать, что предложений по работе к нам поступает обычно больше, чем мы можем сделать, имеем возможность выбирать только интересненькое. А статус хобби позволяет заниматься этим только когда есть желание, а не через силу, как порой у многих бывает. Некоторые предложения говорят о том, что направление весьма востребованное. К огромному моему сожалению, взломом капчи интересуются пока что больше людей, чем надежной капчей. Однако, мы верим в лучшее.

Каких клиентов больше — наших или американцев, и какая у них специфика? Есть ли у вас конкуренты здесь и зарубежом — если да, то в чем ваше преимущество?

ЮО: Конкурентов нет, есть соратники, которые тоже пытаются доказать присутствие той или иной уязвимости. :)
АК: Существуют как капча-решения, так и антикапчевые OCR; и те, и другие можно найти на рынке продуктов и соответствующего труда. Многие занимаются этим подпольно и делают упор на взломе. В этом смысле мы не считаем их конкурентами. Многие предлагают капчи, как бесплатно, так и за деньги, и в этом смысле они являются нашими конкурентами. У некоторых получается очень хорошие капчи; если бы создатели сайтов всерьез озаботились этим вопросом, борьба с фраудом была бы более эффективной. Клиенты — со всего мира, я даже не берусь выделить преобладающую страну.

Приходилось ли реально ломать капчи известных сайтов типа Blogger, MySpace и прочих зубров?

ЮО: Из наиболее известных — Friendster, Overture, TicketMaster. MySpace — были пару попыток, однако они успевали сменить капчу. Yahoo! и Google — при наличии свободного времени.
АК: Рамблер ломали когда-то еще. В принципе, каждую неделю поступают предложения сломать какую-то известную капчу. Лидеры — Google, Yahoo!, MySpace, TicketMaster.

Расскажите что-нибудь забавное из области OCR или вашей компании :)

ЮО: Забавное, был случай когда код, содержащийся на картинке, был представлен в названии картинки в двоичном виде.
АК: Дааа, бывают некоторые капчи, от которых не знаешь — то ли плакать, то ли смеяться. Кроме кода в урле бывают и другие прелести — например, капча, которая «собиралась» на стороне клиента из кусочков, по одной букве в кусочке, кусочки для одной буквы всегда одинаковые. Очень удобно :)

Каковы планы на будущее?

ЮО: Да собственно перспективы могут быть только от создания своей капчи, сейчас все больше капч стали довольно трудоемкими. Да и спамеры в основном используют наемные команды людей, распознающих для них капчи. На будущее — сделать плагины с капчей для различных CMS, форумов и блогов. Также создать компонент для ASP.NET. Ну и если повезет, то создать фреймворк или методологию для распознавания.
АК: Есть идея по созданию комплексного решения по антиботовой защите, потому что просто капча, это, конечно, хорошо, но для сайта, которым серьезно интересуются роботы, нужно комплексное и удобное в работе решение. Это не только показ капчи, но еще и эвристики по характеристикам запросов к серверу, и так далее. Однако, это очень абстрактные планы, так как строятся в рамках хобби :) Но, если кто-то хочет профинансировать проект — с удовольствем претворим их в жизнь.

Пример tEABAG_3D 0.1Расскажите о tEABAG_3D — вашей разработке более устойчивой капчи. Насколько она популярна, востребована?

АК: О, это очень-очень крутая капча, я советую всем обратить на нее внимание. :) Востребована меньше, чем хотелось бы, но тем не менее встроена в несколько десятков сайтов. Мы стараемся застрелить трех зайцев — сделать капчу читабельной, надежной и быстрой в генерации. Конкретное решение — всегда компромисс уступок по этим направлениям, и выдержать правильную пропорцию — основная задача создания капчи. Новая капча у mail.ru, например, на мой взгляд, является очень сложной в пользовании.

Верите ли, что когда-нибудь мы будем жить в мире, где не нужна будет капча?

АК: Боюсь, в этом вопросе я пессимист. Капча, возможно, и исчезнет, но проблема, которую она решает, увы, вечна.

Пожелания читателям и мысли

Чтобы ваши капчи никогда не были взломаны! (Учите матчасть! :) )

LinkedIn

13 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

> Может кто либо помочь подключить систему распознавания капчей к моей проге? > У проги есть свой SDk разработчика для с++ и delphi.Наши системы распознавания довольно дороги, не думаю что вы сможете себе позволитьприобрести что-то подобное для стыковки со своей программой.

Может кто либо помочь подключить систему распознавания капчей к моей проге? У проги есть свой SDk разработчика для с++ и delphi.

На сайте простенькие по нескольким причинам. Думаю, вы о них догадываетесь. Это и договоренности и технологические сложности, и рискованная идея в целом.Нет, за МайСпейс пока не брались, там действительно есть о чем подумать, но я бы не сказал, что она очень крутая. Да, весьма неплохая, но, думаю, можно что-то сделать.

Кстати, Алексей, на Вашем сайте есть примеры распознавания простеньких капч, а MySpace вы можете распознать?:)

Да пользуйтесь конечно, на здоровье.

Вряд ли кто сможет поломать такую капчу, как у MySpace. Так почему бы не пользоваться такой же, а не 3D?

Ну, я не так серьезно воспринимаю 3D:) А что за пирамидальное квантование? Не поделитесь результатами?

Алексей, спасибо за оперативный ответ: -) Все игры, которые псевдо 3D и есть псевдо-3D, игры с реальным стереоэффектом требуют очков (анаглиф, шторки, VR и т.п.) или 3D монитор. Т.е. простым аналогом вашей капчи почти в 3D: -) была бы «косоглазка», но ее пользователи не осилят: -) Моя программка с пирамидальным квантованием фрагментов довольно четко видит контуры всех букв на вашей капче, даже на той которая с защитной окраской, иначе и быть не может, если капча 3D то ее одним глазом было бы трудно распознать.

Да, демо надо бы починить. Все никак руки не дойдут.Вы когда в игры играете, тоже очки одеваете? Или все игры — тоже псевдо-3D?

Интересует, кому реально нужны программы для распознавания CAPTCHA? Кстати, на сайте перечислены простенькие капчи, а демо распознавания вообще не работает, что из предложенного не закачай. Причем тут 3D, когда на самом деле это псевдо-3D? Вы же не просите пользователя одеть стерео-очки и т.п.Таким образом принцип распознавания таких капч не слишком отличается от других.Что-то не видно спроса на эту 3D капчу, нигде она не применяется. Посмотрите на капчу mail.ru, народ ходит поиграть с ней!: -) Хотя она куда слабже TeaBag.Алексей, у тебя ошибка в имени (Алксей Колупаев) аккаунта.

Мы из Харькова, но я уже ~2.5 года в Киеве.Да, я работаю в Lohika, киевский офис открыт сравнительно недавно, не везде эта информация проапдейчена. Основная база во Львове и Одессе, да.А капчу в статью Александр почему-то старую взял, на сайте есть свежая версия, если интересно — посмотрите.

Мы оба из Харькова. Правда Алексей года эдак 4 назад переехал в Киев.А капча тут смешная:)

Ребята молодцы:) Приятно знать, что у нас кто-то чем-то интересуется.Неплохо было бы указать, кто откуда. Или по-дефолту Киев? Уровень комментаторов на хабре неприятно удивил.

Подписаться на комментарии