Репутація українського ІТ. Пройти опитування Асоціації IT Ukraine
×Закрыть

Emma — сервис на основе AI для проверки работ на плагиат

Образовательная система во всём мире активно меняется едва ли не ежегодно, и далеко не каждое учебное заведение поспевает за этими изменениями. Даже рынок образовательных сервисов и услуг иногда оказывается в позиции «догоняющего» и запоздало реагирует на новые тенденции в образовании. Мы пытаемся сломать эту тенденцию нашим новым продуктом — Emma, мастером проверки авторства работ на основе AI.

Почему мы создали Emma?

Долго главным бичом научных работ был плагиат — простое заимствование текста напрямую из других работ. Постепенно преподаватели привыкали к разным студенческим хитростям, скрывающим плагиат — подмене или добавлению символов, дополнительным пробелам, скрытым символам.

Однако в это же время на рынок начали активно выходить так называемые «essay mills» (в Украине их называют «студенческими сервисами» или «биржами студенческих работ»). В штате такой компании — десятки и сотни авторов, пишущих на любые темы и в любом стиле. Стало бессмысленно просто копипастить тексты чужих работ. Авторы, работающие на essay mills, пишут работы на заданную тему с нуля — и классическая проверка на плагиат оказывается бессильной по отношению к такой работе. Чтобы сломить такой порядок, мы создали Emma — уникальную в мировом масштабе технологию распознавания авторства текста, базирующуюся на алгоритмах машинного обучения.

Идея и её развитие

Этот проект задумывался и разрабатывался как система Authorship Attribution (определение авторства), а по мере развития идеи был преобразован в проект по Authorship Verification (подтверждение авторства).

Определение авторства (АА) — это попытка определить вероятное авторство загружаемого в систему текста, отталкиваясь от документов, авторы которых известны.

Подтверждение авторства (AV) — это раздел анализа авторства, предназначенный для решения следующей задачи: учитывая количество примеров творчества автора A и документа, предположительно написанного A, решить, является ли автор последнего документа истинным A или нет.

Работа над проектом

Первая версия ТЗ проекта Authorship Attribution была создана еще в июне 2016. После этого нам пришлось пройти через ряд экспериментов, бесконечные часы кодинга и поиска рабочих решений. На пути к финальной версии продукта было создано несколько прототипов с разным функционалом и разными возможностями. Среди них были Emma-game (игровой веб-интерфейс с ограниченным функционалом, созданный для международной конференции NLDB 2017 в Бельгии) и EMMA Umbrella (вебсайт с полноценным функционалом Emma для групп студентов по 10 человек). Но все эти версии не решали главного вопроса: как обучить Emma различать тексты разных людей, имея небольшое количество работ на входе, и при этом не ограничиваясь набором известных системе авторов.

Разработка финального продукта под названием Emma началась весной 2018 года, а окончательная версия была собрана в мае 2018. После долгих поисков мы создали продукт на основании комбинаций двух технологий: стилометрии и обработки естественного языка (Natural Language Processing).

Стилометрия — это статистический анализ текста и исследование его стилистики. Это очень известная и проверенная методика. Первые примеры её использования были зафиксированы ещё в Античной Греции. Летом 2019 года специалисты из испанского Университета Вальядолида смогли с помощью стилометрии опровергнуть авторство одной из пьес Лопе де Веги и установить её настоящего автора. Однако стилометрия чаще всего используется «в ручном режиме» с очень большими затратами времени и ресурсов. Поэтому мы объединили алгоритмы стилометрии и Natural Language Processing — анализа текста с разбивкой его на лингвистические и стилистические категории.

Что же касается стороны машинного обучения (Machine Learning), то мы свели задачу к классификации текста — система должна отнести текст к одному из набора классов, что является типичной задачей мультиклассификации. В качестве базового алгоритма машинного обучения классификаторов мы опробовали несколько проверенных и признанных в научном сообществе методов, выбрав оптимальные именно для нашей задачи. Для разработки использовался язык Python, имеющий в своем арсенале множество ресурсов для решения сложных интеллектуальных задач и активно используемый в задачах обработки естественного языка.

Проблемой стал поиск информативных признаков текста: как оказалось, типичные фичи, работающие для, например, spam detection или поиска плагиата, не подходят для задач Emma. Количество одинаковых слов в тексте, оценка полноты и объёма словарного запаса, поиск конкретного фрагмента и другие факторы классификации отпадали из-за того, что тематики работ бывают разными, словарный запас может сильно отличаться даже у одного автора, пишущего в разных жанрах, а работы essay mills написаны уникально, без заимствованных фрагментов. В итоге мы пришли к набору признаков разных уровней — пунктуационного, морфологического, лексического, синтаксического и пр.

По сути, мы пытались создать «персональную Emma» для каждого студента университета. Фактически она может определять авторство студенческой работы и отвечать на вопрос: принадлежит ли анализируемый текст данному студенту, что означает верификацию стиля написания конкретного человека в независимости от количества текста, словарного запаса, темы работы или специфических терминов. Это можно сравнить с работой пограничника, который должен принять решение и верифицировать вас по фотографии в паспорте.

В итоге мы создали инструмент, способный с вероятностью 92% определить авторство работы с помощью лишь 3 текстов объёмом от 300 до 1000 слов каждый. Как раз эти тексты должны быть действительно авторскими — но их легко можно заполучить во время, например, неожиданного задания по написанию эссе на лекции или семинаре. После их изучения Emma досконально знает, какой стиль письма у автора и с лёгкостью может отличить его текст от купленной им работы.

Кстати, во время разработки программа тестировалась на авторских текстах статей с The Washington Post, The New York Times, The Daily Telegraph, The Times, The Wall Street Journal и т.д.

Где уже работает алгоритм?

Пока Emma работает в режиме бета-тестирования в США, где она уже пользуется спросом в качестве ассистента, интегрированного в Unicheck. Поскольку задача Unicheck — выявлять заимствования в студенческих работах, то определение авторства того или иного текста стало большим преимуществом в сравнении с другими системами, определяющими плагиат.

Какие у Emma дальнейшие планы?

В планах обучить Emma различать языки по определённым алгоритмам и запустить разработку в образовательные системы, в первую очередь, испаноязычных стран, а затем и на европейские образовательные рынки.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Цікаво чи буде працювати система, якщо замінити латинські а та і на кирилицю, або ж навпаки.

Система работать будет, Unicheck умеет распознавать замену символов. Могут быть проблемы только с плотностью замененных символов, в том случае если замененных символов будет больше чем основного текста.

Интересно, а какая там вообще бизнес модель? Из моего опыта, в универах зачастую используется Turnitin, из того что я понял, там народ хорошо так залочил заказчиков с деньгами. С другой стороны есть овер-1000 бесплатных\дешевых чекеров, включая тот же грамарли.
Мне любопытно, на чем планируется зарабатывать.

Думаю научиться это продавать будет следующая задача «ИИ». И, вполне возможно, что в итоге «ИИ» научится монетизировать свои оценки. Заплатил денежку — не плагиат, или заплатил денежку и «ИИ» подобрал нужные синонимы и нет плагиата.

А что конкретно в самой бизнес модели интересно или непонятно?
Проект Unicheck уже успешно работает как в Украине, так и за рубежом. У нас есть как университеты, так и персональные пользователи. На нашем сайте — unicheck.com, а также в сети довольно много информации о бизнес модели и позиционировании. Возможно в будущем мы расскажем кейс нашей компании более подробно :)

Обычно работы студентов, по крайней мере технических специальностей, формализованы и используют одинаковую структуру, практически одинаковый «технический» лексикон. Как этот проект работает с «техническими» работами?
P.S. а что по GDPR?

1. По GDPR проблем нет, работы в самой Емма обезличены и не содержат никаких персональных данных.
2. По техническим работам, это хороший вопрос. Пока можем сказать, что даже в такого типа работ, есть свои стилистические различия. В самом Unicheck, уже есть возможность различать текст самого задания, что дал преподаватель, чтобы система не брала в обучение один и тот же текст от студента к студенту.
Не исключаем возможность того, что продукт, для такого рода заданий придется разделять.

Подписаться на комментарии