×Закрыть

Як виглядає веб скрапінг з точки зору закону?

Всім привіт. Цікавить питання законності веб скрапінгу в Україні. Юридичні аспекти і посилання на закони.

Буду дуже вдячний за інформацію.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Скрапінг легальний, якщо:
— він прямо не заборонений користувацькою угодою сайту;
— ви не збираєте та/або обробляєте персональні дані фіз. осіб без їх згоди;
— ви не порушуєте права інтелектуальної власності (зокрема, щодо баз даних);
— в процесі скрапінгу не завдаєте шкоди сайту (DDOS і т.п.);
— зібрані дані не будуть використовуватись для протизаконних цілей;
— дані, щодо яких здійснюється скрапінг є загальнодоступними і ваш бот не намагається залізти в якийсь закритий/запаролений розділ сайту;
— він не порушує законодавства держави в якій хоститься сайт що є обєктом скрапінгу, якщо сайт має хоч якесь відношення до США то я б рекомендував проаналізувати Computer Fraud and Abuse Act (CFAA).

Нужно искать законы об авторском праве. Также, если скраппинг положит целевой ресурс, то это уже DDoS, но гугление показывает что у нас пока нет на этот случай законов.

Но если скрапить не только украинские ресурсы, то наверное нужно обращать внимание на законы других стран.

https://benbernardblog.com/web-scraping-and-crawling-are-perfectly-legal-right/

In Linkedin v. Doe Defendants, Linkedin is suing between 1-100 people who anonymously scraped their website. And for what reasons are they suing those people? Let’s see:

Violation of the Computer Fraud and Abuse Act (CFAA).
Violation of California Penal Code.
Violation of the Digital Millennium Copyright Act (DMCA).
Breach of contract.
Trespass.
Misappropriation.
That lawsuit is pretty concerning, because it’s really not clear what will happen to those „anonymous” people.

Consider that if you ever get sued, you can’t simply dismiss it. You need to defend yourself, and prove that you did nothing wrong. This has nothing to do with whether or not it’s fair, or whether or not what you did is really illegal.

Another problem is that law isn’t like anything you’re probably used to. Because where you use logic, common sense and your technical expertise, they’ll use legal jargon and some grey areas of law to prove that you did something wrong. This isn’t a level playing field. And it certainly isn’t a good situation to be in. So you’ll need to get a lawyer, and this might cost you a lot of money.

Besides, based on the above lawsuit by LinkedIn, you can see that cases can undoubtedly become quite complex and very broad in scope, even though you „just scraped a website”.

Я недавно искал разные данные и пришел к выводу что легально и бесплано получить сейчас невозможно ничего. А дальше уже нужно смотреть чем рискуешь и стоит ли оно того.

Имхо, если не доводить до DDOs (для этого достаточно не делать несколько запросов параллельно, а некоторые сайты вообще имеют ограничение на количество запросов в единицу времени) и нигде не публиковать (и тем более не продавать) данных в чистом виде — риски маленькие.

основной вопрос ведь не в скрапинге — фактически, это аналог пользователя заходящего на сайт. Проблема в том, как вы собираетесь использовать эту информацию.

Некоторые веб-сайты в условиях использования запрещают создавать бд из информации, представленной на сайте, в частности, для коммерческого использования и продажи, например, как здесь boxrec.com/en/terms_conditions

Основной вопрос, как будут использоваться данные. В wiki есть ссылка на одно из судебных решений в ЕС — uk.wikipedia.org/wiki/Web_scraping

в EN Wikipedia можно найти больше ссылок на судебные решения. Короче, все неоднозначно...

То судебное решение не касается веб-скрапинга. Оно о том что владелец сайта вправе ограничивать к нему доступ по своим собственным соображениям. В том конкретном случае блокировался робот собиравший информацию для сайта поиска авиабилетов. Но достаточно зайти на kiwi, tripmydream и ещё кучу других поисковиков чтобы увидеть там данные о рейсах Ryanair.

К примеру куча британских сайтов просто пошлют на юг любого посетителя из не-великобритании (из Украины так точно). При этом никакой вразумительной причины указано не будет, никаких контактов для выяснения блокировки указано не будет. Почему так? Потому что владелец сайта не хочет чтобы небританцы что-то делали на его сайте. Законно ли это? Законно.

Законно ли это? Законно

Це ж, расизм!!

Це ж, расизм!!

Та им пихуй на муки закордонников.

Хотел купить билеты на концерт и впервый раз столкнулся с этой фигней. А теперь уже регулярно вижу аналогичные меседжи на разных сайтах от мелких до крупных. По всей видимости это какое-то стандартное решение одного или нескольких провайдеров.

Що скажете про це: cyberpolice.gov.ua/...​ki-internet-resursy-1337
100 реквестів в секунду для слабенького сайту може бути критично. Але якщо ломитись з однієї ІР адреси то простий конфіг веб сервера просто заблокую проактивного користувача
Якась програма на зразок простого Postman і Repl.it???

Так вони цими запитами створювали записи в БД (на фото «POST /subscribe/create email=*»), тому й навантаження на сервер, а було б 100 запитів GET то б сервер витримав

1000. Миллисекунда это тысячная доля секунды.

А что, ограничивать количестве реквестов с одного IP до сих пор не научились?.. Пусть на Гугл-бота пожалятся... Адекватный руководитель в первую очередь дрючил бы админа за рукожопость и неумение настроить примитивный ограничитель, чем искать 2х долбоёбов-энтузиастов...

Але якщо ломитись з однієї ІР адреси то простий конфіг веб сервера просто заблокую проактивного користувача

Это если он там есть

З точки зору закону виглядає як незаборонена дія.

Если частота выше чем crawl-delay, то в теории можно рассматривать как нарушение

Пожалуйста цитатату любого закона любой страны что запросы выше указанной цифры являются преступлением, правонарушением, нарушением условий использования.

Ну и текст RFC/ISO/ГОСТ/ДСТУ или иного аналога стандарта где говорится что crawl delay это гранична цифра которую превышать нельзя ;)

Мы же обсуждаем с точки зрения закона, а не морали или ещё каких-то иных принципов.

Цитату в заявление лоер напишет и добавит заключение эксперта

Понятно: подтверждения для своей страшилки у тебя нет.

Конечно нет
Я же не прокурор

На доу был топик вроде, как какая-то компания предоставляла агрегированные данные с гос сайтов, а потом к ним пришли люди в масках и с автоматами, и забрали компьютеры )

Потому, законов вроде бы напрямую запрещающих и нет, но стоит делать поправку на страну.

На доу был топик вроде, как какая-то компания предоставляла агрегированные данные с гос сайтов, а потом к ним пришли люди в масках и с автоматами, и забрали компьютеры )

А потом дело закрыли.

Беспредел силовых органов (или прямым текстом шантаж бизнеса с целью получения незаконного вознаграждения) никаким боком к обсуждаемой теме не относится.

В интенет-индустрии аггрегирование данных не только не является плохой бизнес-практикой или нарушением технических и моральных норм, а наоборот является одним из активных направления развития бизнеса. Для этого даже всякие поисковые сайты и протоколы аггрегации (синдикации) данных придумали тогда когда ты ещё в детский садик ходил.

У нас есть замечательная статья про «перешкоджання работi мереж».
По ней можно даже обычный повторный вход с броузера провести,если надо.

По ней можно даже обычный повторный вход с броузера провести,если надо.

Злоупотребление властью не входит в обсуждаемую тему. Если надо то припишут перешкоджання мережи даже если у тебя компьютера нет. Это особенность (частный случай) Украины, а не общепринятое законодательное регулирование скрапинга в странах с развитым интернетом.

С тем же успехом можно тебя за твой астериск посадить в тюрьму за манипулирование телефонным трафиком. И кого-то даже сажали. По крайне мере про них было больше новостей чем про тех кто сайты сканировал. А ещё можно вспомнить как охотились за раздающими радио-эзернет.

Кое на каких сайтах итерирование по всей инфе с кешированем запрещено EULA, единственное что можно сказать. А так — скрапь себе на здоровья, только не на уровне DDOS.

Скрейпинг нужно делать маленькими порциями, между которыми должны быть паузы различной длительности. Чтобы это не было «в Украине», делаешь это с нидерландского сервера, например.

Пачка проксі, паралельне виконання — це ріл скрьопінг! Так їх, жостко, відскрьопити, до відвалу серверу!

Головне — це скрьопати в /dev/null, щоби, значить, з особливим цинізмом та жорстокістю.

Ризиковано скрапити *.gov сайти, бо можуть пред’явити DDOS, інші можеш, зустрічав випадки коли сайт скрапили конкуренти у відкриту зі свого IP

Є варіанти де можуть поругати, коли сайт який скрапиш використовує зовнішнє платне API, тоді скрапінг може обійтись їм в гроші і якщо сума значна то звісно будуть реагувати

скрапь, разрешаю. вал киевских компаний, которые хотя бы иногда скрапят не прилагаю

Не знаю на рахунок веб скрапінгу, але бюджет скрапінг дозволено.

Подписаться на комментарии