Не дають навчати ШІ на своєму контенті: Правовласники ловлять ботів-«скраперів» у веб-лабіринти

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Cloudflare запустив AI Labyrinth — спеціальний інструмент, щоб боротися із ботами. «Скрапери» часто збирають дані з вебсайтів для навчання штучного інтелекту та ігнорують запити НЕ сканувати. Оскільки отримання даних для навчання ШІ зараз знаходиться у «сірій» правовій зоні, власники контенту почали захищатися інакше.

Додатково: Інструкції robots.txt, які повідомляють веб-краулерам, до яких сторінок вони можуть отримати доступ, не є юридично обов’язковими. Веб-краулери ігнорують їх, але правовласникам не подобається, що розробники штучного інтелекту навчають свої моделі на їх інтелектуальній власності.

Новий інструмент AI Labyrinth генерує науково-технічні HTML-сторінки спеціально для «сірих»-ботів«. Генератор очищає сторінки від XSS-вразливостей. Після цього, посилання на сторінки-пастки вбудовують в основний HTML-код сайту.

Метаінструкції приховують ці посилання від індексаторів пошукових систем та інших авторизованих краулерів — система налаштована саме на вилов «крадіїв» даних. Атрибути та стилі, своєю чергою, приховують посилання-пастки від людей.

У результаті, коли бот потрапляє у пастку-лабіринт, він просто починає сканувати шари нерелевантного контенту і «застряє» там.

Імовірно, у разі успіху такого методу вилову ботів, автори краулерів почнуть своєю чергою покращувати свої методи запобігання сторінок-«пасток». Цей процес почергового покращення алгоритмів ботів та пасток може тривати дуже довго через відсутність чітких юридичних правил.

Читайте: Зображення у стилі студії Ghibli від ChatGPT стали чи не одним із найпопулярніших продуктів за всю історію компанії

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Та таку штуку можно і для форумів зробити. Антібот — підсовується копія форуму та нехай там вони сидять

Можна обійтись і без клаудфлера. І стати кавайніше!
discourse.gnome.org/...​irl-on-gnome-gitlab/27689
https://anubis.techaro.lol/

А чого власне крадії та сіра легальна зона в лапках? Вони і є крадії, прямо як зі старого анекдоту, про молитви і велосипед. Зрозуміли що краще вкрасти чужий контент, а потім молитись про вибачення :) .
А чіткі юридичні правила вже давно існують, це власне копірайт і ліцензування контенту. На все що Сем краде собі для подальшого використання в коменційних цілях, він повинен був би спочатку запросити дозвіл на використання у правовласника. Як виключення тільки fair use в некомерційних цілях, куди ОАІ очевидно не попадає.

По-перше, це почалося не зараз. Багато де можна почитати текст, але якщо його скопіювати, то можна побачити багато зайвих літер у невидимих спанах. Багато контенту доступно лише якщо якщо заплатив підписку.

Щодо навчання ШІ, то як раз ChatGPT 2 навчали на інтернеті, отримали досить неввічливу модель. Тому Chat GPT 3 вже навчалася на виборці, яка була оброблена людьми. А раз так, то яка різниця, чи є там цей лабірінт?

Але дійсно, є багато людей, які вірять у те, що їх контент дуже важливий. Та будуть розглядати варіанти вкладення ресурсу щоб його захистити.

Що значить «сіра зона»: немає ніякої сірої зони — якщо це не заборонено, то дозволяється... Але чомусь я думаю що інформація на сайтах знаходиться під копілефт і тому тягне по законодавству на порушення цього права ? Скоро ChatGPT буде приводити посилання на сайти «де взяв» 😅
UPD: просто з лінками на ресурс пропадає ця аура магії «машина думає»

немає ніякої сірої зони — якщо це не заборонено

Залежить від країни

Ну я розумію, що подекуди дебілізм законів компенсується необовязковістю виконання — але не треба уже докопуватися до нюансів ...

Підписатись на коментарі