Як дослідники-історики виграють від розвитку ШІ

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Перша нейронна «магія»

Перший великий проєкт, який продемонстрував потенціал штучного інтелекту, розпочався у 2017 році в Оксфордському університеті.

Теа Соммершильд, яка здобувала ступінь доктора філософії з античних наук, зіштовхнулася із проблемою: їй було потрібно розшифрувати багато грецьких написів з Сицилі. Але, через велику кількість діалектів, через пропущені слова та загалом пошкоджені таблички робота виявлялась надзвичайно кропіткою, розповіли у статті Nature.

Янніс Ассаель, яка здобувала ступінь доктора філософії з комп’ютерних наук, погодилася допомогти розшифрувати написи. Для цього вона навчила модель на основі Pythia — це була звичайна рекурентна нейронна мережа, але результат перевершив усі очікування.

Нейромережі показували тексти, а вона у відповідь вказувала на пропущені слова або символи, та додавала приблизне джерело походження тексту. Результат перевершив усі очікування:

«Це було схоже на сцену з фільму. Ми справді відчували, як наші щелепи вдаряються об землю», — розповіла Соммершильд про свої враження після першого запуску моделі.

Вже у 2022 році науковці продовжили свою роботу, створивши модель «Ітака». Концептуально модель робила те ж саме, але структура нейромережі вже відрізнялась. Це вже був «трансформер» — складніша конструкція, більш схожа на сучасні ChatGPT чи Gemini.

За словами розробників, зараз Ітака знаходиться у вільному доступі в Інтернеті і вже отримує сотні запитів на тиждень. Однак, точно неможливо дізнатися, який саме вона зробила внесок у дослідження, якщо автори не захочуть це визнати.

Також команда зазначає, що їх мета — це розробити інструменти, які допоможуть дослідникам працювати ефективніше, а не замінять їх.

«Людина знаходиться в центрі нашого проекту», — зазначає розробниця Янніс Ассаель.

Так, під час випробувань Ітака відновила штучно створені прогалини в стародавніх текстах з точністю 62%, порівняно з 25% в експертів-людей. Але експерти, яким допомагали підказки Ітаки, показали найкращі результати, заповнивши прогалини з точністю 72%.

Прочитати, те що не читається

Археологи нещодавно повідомили, що більша частина об’ємної бібліотеки вілли Геркуланум все ще знаходиться під землею. Робота над цією бібліотекою може стати одним із монументальних завдань для істориків та інженерів.

Якби її розкопали, можна було б знайти ще тисячі старовинних манускриптів. Але розкопки не проводили, бо масово відтворити тексти із сувоїв до останнього часу було неможливо.

По-перше, крихкі сувої неможливо розгорнути. Для їх читання створили систему «віртуального розгортання», яка містить комп’ютерну томографію.

Для «читання» сувоїв команда науковців перевезла кілька манускриптів до прискорювача частинок Diamond Light Source.

Апаратура була налагоджена, програму запустили — і виявилось, що чорнила, які були на папірусі, відрізняються від інших текстів. Зазвичай, для написання використовували чорнила із великим вмістом заліза, що було б гарним «маркером» для томографа.

Але саме в цих роботах були чорнила із високим вмістом вуглецю, що зіштовхнуло науковців із другою проблемою. Чорнила мають таку ж щільність, як і папірус, і на КТ їх дуже важко побачити. Для людини такий текст, навіть після відтворення на чутливому апараті був все одно абсолютно нечитабельним.

Для розв’язання цього питання вирішили створити ШІ, який відновлював би текст за обривковими частинами чорнил.

Для цієї мети був запущений Vesuvius Challenge — понад 1000 команд дослідників намагалися змусити знайти чорнило на пошкоджених манускріптах. Вже у лютому 2024 року студенти комп’ютерних наук Юсеф Надер, Люк Фаррітор і Джуліан Шиллігер разом отримали 700 000 доларів США за створення патерну, що відтворив 16 колонок тексту.

Команда-переможець використала TimeSformer — новітній варіант трансформаторної моделі, що зазвичай використовується для відео, яка окремо враховує просторовий і часовий виміри. Команда Vesuvius використала його, щоб відокремити глибинний вимір папірусу від зовнішнього вигляду його поверхні.

Учасники конкурсу зараз продовжують працюють над вдосконаленням алгоритмів виявлення чорнила. Велике обмеження, із яким стикаються розробники нейромережі — це брак даних.

Брак матеріалу для навчання та галюцинації

Моделі-трансформери не завжди можуть бути використані в випадках, коли у розробників бракує даних для навчання. У таких випадках вдаються до простіших методів — наприклад створення простої нейронної мережі.

Так, Катерина Папавасілейу з Університету Патр, Греція, та її колеги використали просту модель для відновлення відсутнього тексту з серії з 1100 мікенських табличок з Кносса, острів Крит. Їм вдалося досягти точності у 72%, що в тандемі із людиною науковцем давало гарні результати.

Модель ще збираються покращувати: додати візуальні дані(сліди незавершених літер) та використати трансферне навчання (модель використає патерни, отримані під час розшифровок інших текстів).

Існують також проблеми щодо точності та відтворюваності — через галюцинації нейромереж можуть та будуть генерувати хибні результати. Розв’язання цього питання бачать у роботі в мультидисциплінарних командах, коли гуманітарні спеціалісти будуть співпрацювати з інженерами та розробниками. Таким чином вдасться звести шкоду від галюцинацій до мінімуму.

Як історики виграють від розвитку нейромереж

Результати роботи ШІ обіцяють масу нових текстів, пропонуючи вченим більше даних, ніж вони мали протягом століть. Це тексти, заховані всередині середньовічних книжкових палітурок або обгорток давньоєгипетських мумій.

«ШІ дає папірологам дані для роботи, які вони не могли б отримати інакше. Це робить їхню роботу більш важливою, ніж будь-коли», — зазначає Річард Овенден, голова Бодлеанської бібліотеки Оксфордського університету. Він стверджує, що будь-які побоювання, що ШІ кине виклик традиційній науці безпідставні.

Нагальним стає навіть не брак даних, а недостатня кількість науковців, які могли б ці тексти обробити. Крім цього, величезні оцифровані архіви дадуть можливість дослідникам не лише вивчати окремі тексти, а й ставити ширші питання — наприклад, про суспільства, які їх створили.

Або, вчені-історики зможуть за допомогою ШІ проводити «жартівливі» дослідження — як, наприклад, нещодавно хіміки навчили нейромережу розрізняти алкоголь за запахом.

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі