Не дають навчати ШІ на своєму контенті: Правовласники ловлять ботів-«скраперів» у веб-лабіринти
Cloudflare запустив AI Labyrinth — спеціальний інструмент, щоб боротися із ботами. «Скрапери» часто збирають дані з вебсайтів для навчання штучного інтелекту та ігнорують запити НЕ сканувати. Оскільки отримання даних для навчання ШІ зараз знаходиться у «сірій» правовій зоні, власники контенту почали захищатися інакше.
Додатково: Інструкції robots.txt, які повідомляють веб-краулерам, до яких сторінок вони можуть отримати доступ, не є юридично обов’язковими. Веб-краулери ігнорують їх, але правовласникам не подобається, що розробники штучного інтелекту навчають свої моделі на їх інтелектуальній власності.
Новий інструмент AI Labyrinth генерує науково-технічні HTML-сторінки спеціально для «сірих»-ботів«. Генератор очищає сторінки від XSS-вразливостей. Після цього, посилання на сторінки-пастки вбудовують в основний HTML-код сайту.
Метаінструкції приховують ці посилання від індексаторів пошукових систем та інших авторизованих краулерів — система налаштована саме на вилов «крадіїв» даних. Атрибути та стилі, своєю чергою, приховують посилання-пастки від людей.
У результаті, коли бот потрапляє у пастку-лабіринт, він просто починає сканувати шари нерелевантного контенту і «застряє» там.
Імовірно, у разі успіху такого методу вилову ботів, автори краулерів почнуть своєю чергою покращувати свої методи запобігання сторінок-«пасток». Цей процес почергового покращення алгоритмів ботів та пасток може тривати дуже довго через відсутність чітких юридичних правил.
7 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарівТа таку штуку можно і для форумів зробити. Антібот — підсовується копія форуму та нехай там вони сидять
Можна обійтись і без клаудфлера. І стати кавайніше!
discourse.gnome.org/...irl-on-gnome-gitlab/27689
https://anubis.techaro.lol/
А чого власне крадії та сіра легальна зона в лапках? Вони і є крадії, прямо як зі старого анекдоту, про молитви і велосипед. Зрозуміли що краще вкрасти чужий контент, а потім молитись про вибачення :) .
А чіткі юридичні правила вже давно існують, це власне копірайт і ліцензування контенту. На все що Сем краде собі для подальшого використання в коменційних цілях, він повинен був би спочатку запросити дозвіл на використання у правовласника. Як виключення тільки fair use в некомерційних цілях, куди ОАІ очевидно не попадає.
По-перше, це почалося не зараз. Багато де можна почитати текст, але якщо його скопіювати, то можна побачити багато зайвих літер у невидимих спанах. Багато контенту доступно лише якщо якщо заплатив підписку.
Щодо навчання ШІ, то як раз ChatGPT 2 навчали на інтернеті, отримали досить неввічливу модель. Тому Chat GPT 3 вже навчалася на виборці, яка була оброблена людьми. А раз так, то яка різниця, чи є там цей лабірінт?
Але дійсно, є багато людей, які вірять у те, що їх контент дуже важливий. Та будуть розглядати варіанти вкладення ресурсу щоб його захистити.
Що значить «сіра зона»: немає ніякої сірої зони — якщо це не заборонено, то дозволяється... Але чомусь я думаю що інформація на сайтах знаходиться під копілефт і тому тягне по законодавству на порушення цього права ? Скоро ChatGPT буде приводити посилання на сайти «де взяв» 😅
UPD: просто з лінками на ресурс пропадає ця аура магії «машина думає»
Залежить від країни
Ну я розумію, що подекуди дебілізм законів компенсується необовязковістю виконання — але не треба уже докопуватися до нюансів ...