Не дають навчати ШІ на своєму контенті: Правовласники ловлять ботів-«скраперів» у веб-лабіринти
Cloudflare запустив AI Labyrinth — спеціальний інструмент, щоб боротися із ботами. «Скрапери» часто збирають дані з вебсайтів для навчання штучного інтелекту та ігнорують запити НЕ сканувати. Оскільки отримання даних для навчання ШІ зараз знаходиться у «сірій» правовій зоні, власники контенту почали захищатися інакше.
Додатково: Інструкції robots.txt, які повідомляють веб-краулерам, до яких сторінок вони можуть отримати доступ, не є юридично обов’язковими. Веб-краулери ігнорують їх, але правовласникам не подобається, що розробники штучного інтелекту навчають свої моделі на їх інтелектуальній власності.
Новий інструмент AI Labyrinth генерує науково-технічні HTML-сторінки спеціально для «сірих»-ботів«. Генератор очищає сторінки від XSS-вразливостей. Після цього, посилання на сторінки-пастки вбудовують в основний HTML-код сайту.
Метаінструкції приховують ці посилання від індексаторів пошукових систем та інших авторизованих краулерів — система налаштована саме на вилов «крадіїв» даних. Атрибути та стилі, своєю чергою, приховують посилання-пастки від людей.
У результаті, коли бот потрапляє у пастку-лабіринт, він просто починає сканувати шари нерелевантного контенту і «застряє» там.
Імовірно, у разі успіху такого методу вилову ботів, автори краулерів почнуть своєю чергою покращувати свої методи запобігання сторінок-«пасток». Цей процес почергового покращення алгоритмів ботів та пасток може тривати дуже довго через відсутність чітких юридичних правил.
7 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів