Штучний інтелект у природній мові: мовні моделі, малоресурсні мови та дегуманізація в текстах

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Вітаю, мене звати Роман Кислий, я займаюсь даними вже досить довго. Нещодавно разом з AI HOUSE ми запустили подкаст про штучний інтелект — AI HOUSE Podcast.

AI HOUSE — це некомерційна організація, головна мета якої розбудувати найбільше та найпотужніше AI-ком’юніті в Україні. AI HOUSE є частиною екосистеми технологічної компанії Roosh.

До подкасту ми запрошуємо AI-спеціалістів з різних сфер та спілкуємося про їхній досвід, українські реалії, проєкти та ініціативи тощо. Зважаючи на той хайп, який останнім часом є навколо NLP, один з випусків був саме про українське NLP. Ми дізнались, як змінилася сфера, інструменти та підходи NLP-спеціалістів, які можливості відкриває стрімкий розвиток ШІ для аналізу та генерації природної мови, які є позитивні та негативні наслідки побудови інтелектуальних систем нового рівня.

Гостею нашого епізоду «АІ в природній мові» стала Марʼяна Романишин, Area Tech Lead for Computational Linguistics в Grammarly.

У цій статті хочу поділитися найцікавішими думками щодо розвитку NLP-спільноти в Україні, малоресурсних мов, пошуку дегуманізації українців у російських текстах та багато іншого.

Хто такі комп’ютерні лінгвісти та як змінилася їхня робота після появи LLMs

Комп’ютерні лінгвісти — це фахівці у галузі NLP, які поєднують навички програмування, знання лінгвістики та ґрунтовне розуміння NLP-технологій. З приходом LLMs у компʼютерних лінгвістів виникла потреба навчитися працювати з промптами. Важливим є вміння не просто писати промпти, а саме працювати з ними. Наприклад, потрібно вміти генерувати набори промптів за певними критеріями, з різним контекстом і набором інструкцій, у різних послідовностях та з різним контекстом.

Також важливо розробляти метрики, які ґрунтуються на лінгвістичному аналізі згенерованого тексту. Це необхідно для того, аби зрозуміти, як конкретна LLM буде працювати за кожною з заданих метрик для цих промптів. Великі мовні моделі еволюціонуватимуть та змінюватимуться, а такі фреймворки дозволять автоматично підбирати найкращий промпт для конкретної версії моделі, а не писати його з нуля.

Окрім цього, є низка відкритих питань для досліджень, а саме: які обмеження є в генеративних моделях, чи може LLMs бути гарним дискримінатором для NLP-задач, як ефективно донавчати модель для вирішення вузькоспеціалізованих завдань?

Інші навички комп’ютерного лінгвіста зовсім не втратили актуальності. Це і підготовка текстів для опрацювання, і лінгвістичний аналіз із використанням класичних інструментів, як-от словники та WordNet-и, правила та статистичні моделі та, звісно, постфільтрування того, що згенерувала модель задля уникнення надлишкової інформації, галюцинацій, дезінформації чи упереджень.

Який контент якісніший: створений GenAI, людиною чи GenAI та людиною

Генеративний ШІ може допомагати на всіх етапах створення тексту, але в центрі цього процесу повинна залишатися людина. Поєднання людини зі штучним інтелектом допоможе створювати якісніший контент.

Зараз контент, який генерує ШІ, є досить однотипним, тому багато фахівців, чия робота полягає в написанні текстів, відмовляються від нього. До того ж згенерований текст не звучить як конкретна особистість, а кожна людина хоче зберігати свій стиль письма.

Ще одним важливим питанням є етичність використання приватних даних. Потрібно навчити штучний інтелект відображати особистий стиль кожного користувача не завдяки всім зібраним текстам, які писала людина в інтернеті за весь час, а розумно — тобто зберігати інформацію про особистий стиль, не порушуючи приватності даних.

Як зберегти малоресурсні мови

Створення корпусів малоресурсних мов є важливим етапом збереження, розвитку та підтримки цих мов. Саме корпуси є ключовим ресурсом для навчання та покращення мовних моделей, машинного перекладу, автоматичного розпізнавання мови та інших NLP-застосувань. Відповідні корпуси створюють умови для проведення наукових досліджень, розробки нових технологій та розвитку інформаційного простору для малоресурсних мов, сприяючи їхньому збереженню та розповсюдженню.

Над корпусами та інструментами для опрацювання української мови вже працює ціла спільнота. Вона все ще невелика та досить фрагментована, але варто відзначити такі важливі ініціативи, як lang-uk чи БрУК. У межах lang-uk, зокрема, розробляються корпуси UberText, який уже налічує 2,5 млрд токенів, та NER-UK, корпус з анотаціями типів сутностей. Сучасні моделі, як-от Electra (альтернатива BERT) чи Alpaca (мовна модель на інструкціях), також з’являються для української мови. Українська мова є в таких популярних NLP-бібліотеках, як spaCy чи stanza. Однак є і базові проблеми — банальна відсутність гарного словника української мови в машиночитному форматі з відкритою ліцензією. Долучитися до проєктів з опрацювання української мови можна у телеграм-чаті спільноти «NLP української мови».

Навесні цього року відбувся вже другий воркшоп з опрацювання української мови UNLP. Воркшоп став гарним майданчиком для обміну досвідом між фахівцями з української NLP-спільноти. До того ж, UNLP підняв видимість українського NLP на міжнародний рівень, адже відбувся на конференції EACL (основна профільна конференція з NLP у Європі).

Іншим прикладом малоресурсних мов є кримськотатарська, яка зараз перебуває під загрозою зникнення. Для її збереження був створений проєкт Національного корпусу кримськотатарської мови за ініціативи Міністерства реінтеграції тимчасово окупованих територій.

Цей корпус дуже складно збирати. По-перше, кримськотатарська мова має чотири графічні системи: раніше на письмі використовували арабську, пізніше перейшли на латинку, під час радянської окупації — кирилицю, а потім перейшли до осучасненої латинки. Таке різноманіття ускладнює вирівнювання кримськотатарських текстів у єдину графічну систему. Позитивним моментом є те, що дослідники групи тюркських мов уже стикалися з проблемою вирівнювання графічних систем, та мають певні рішення, які можна перенести на кримськотатарську мову.

По-друге, кримськотатарська втратила багатьох носіїв внаслідок депортації та русифікації кримських татар, тож зараз цієї мови практично немає в інтернеті. Саме тому дослідники збирають для корпусу всі тексти, які вдається знайти, з усіх можливих джерел — як цифрових, так і друкованих. Частина з цих джерел є недоступними через російську окупацію Кримського півострова.

Ще однією складністю є оцифрування написаних текстів. Інструменти оптичного розпізнавання тексту погано працюють для кримськотатарської мови, а відтак тексти вимагають великої кількості правок. Тому над цим корпусом працюють носії мови, які займаються його редагуванням.

Інших інструментів для комп’ютерного опрацювання кримськотатарської мови теж не вистачає, бракує на проєкті і NLP-фахівців, які б розробляли такі інструменти чи адаптували їх з інших мов. Однак корпус створює основу для розвитку кримськотатарського NLP у майбутньому.

Як створювали корпус UA-GEC у Grammarly

Корпус UA-GEC — це корпус текстів українською мовою, проанотований на помилки та їх виправлення. Корпус створили у Grammarly і збирали так, щоб викласти з максимально відкритою ліцензією. Наразі корпус доступний для використання і в наукових дослідженнях, і в комерційних продуктах.

Тексти для корпусу писали звичайні люди. Охочі взяти участь мали виконати одне із трьох завдань: написати есе на задану тему, перекласти частину твору з художньої літератури українською мовою або надіслати власний текст, а також надати згоду на використання цього тексту. Вдалося залучити майже 1 000 людей та зібрати понад 30 000 речень. Ці тексти були передані двом анотувальницям — філологиням української мови, які виправили помилки в текстах та відсортували їх за типами: граматика, пунктуація, правопис та стилістичні помилки.

Корпус UA-GEC став основою для змагання з виправлення помилок українською, яке проходило при UNLP. Умовою змагання було те, що всі рішення будуть публічно відкриті, тож тепер на Hugging Face та GitHub викладені перші доступні моделі для виправлення помилок української мови.

Як змінився розвиток NLP-проєктів після повномасштабного вторгнення

Повномасштабне вторгнення росії в Україну дуже вплинуло на тематику NLP-проєктів. Варто лише подивитися, які теми дипломних проєктів зараз обирають студенти: пошук мілітарних сутностей (військових звань, видів зброї, родів військ), пошук пропаганди чи нових наративів у пропагандистських медіа, пошук дегуманізації українців у російських текстах. Остання робота особливо цікава.

Згідно з Genocide Watch, дегуманізація є четвертим етапом геноциду. Існує чимало досліджень та суперечок щодо того, чи дегуманізація є лише четвертим етапом, чи продовжується протягом всіх інших етапів, доводячи до геноциду. Якщо ми побудуємо модель, яка буде знаходити ознаки дегуманізації (наприклад, як у російських повідомленнях про українців), то потенційно в нас зʼявиться можливість передбачати геноцид. До того ж, така модель змогла б допомогти зі збором доказової бази для офіційного визнання війни росії проти України геноцидом українського народу.

Висновки

Генеративний ШІ на основі великих мовних моделей створив цілий клас нових навичок, які потрібно опановувати комп’ютерним лінгвістам. Так, робота з мовними корпусами стає результативнішою, зокрема розвивається створення корпусів малоресурсних мов. Важливим проєктом, який допомагає зберегти мову, є Національний корпус кримськотатарської мови. А також ШІ сприяє розробці моделей, що виявляють ознаки дегуманізації у текстах — це може відіграти важливу роль у передбаченні геноциду.

👍ПодобаєтьсяСподобалось5
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Велика робота! Вітаю!
Чи робили частотний словник? Деякі слова у корпусі зустрічаються частіше за інші, так само як у словах корпуса деякі сполучення букв теж. Обидва ці словники дуже важливі.
Наприклад, якщо створити ідентифікатори у деякій базі даних як символьні конструкції складені на базі частот (чи частіше тим ближче до кореня) це може надати переваги у пошуку та фільтрації необхідних контекстів.
вода — водяний
вогонь — вогнений
Ще думаю що контекст може бути результатом складання якихось частот (багатьох) і так чином порівняння і розпізнавання контекстів (тобто про що йдеться мова) може бути вирішено через операції над частотами (у паралельних обчисленнях)

Підписатись на коментарі