Що потрібно знати компаніям про ШІ та персональні дані. Уроки з кейсу Deepseek

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Привіт, я Катерина Дубас. Працюю як Data Protection & AI Lawyer та керую практикою DPO & Data Protection Compliance у Legal IT Group і Privacity. Маю сертифікати CIPT, CIPP/E, FIP і беру участь у проєктах з технічною стороною комплаєнсу і менеджменту даних.

У цій статті я хотіла допомогти компаніям підготуватися до проєктів, де використовується ШІ для обробки персональних даних — як частина продукту, його ядро чи інструмент автоматизації. Я подаю у брифовій формі останні тренди з GDPR-регулювання AI для команд з operations, legal, compliance та data governance. Deepseek використано як найголосніший випадок останніх тижнів :)

Deepseek — ШІ-компанія з Ханджоу (Китай), що грає роль ШІ-лабораторії на потужностях High-Flyer (китайського гедж-фонду). Першу опенсорс-модель вони випустили у листопаді 2023 року, але широкий загал заговорив про цю компанію тільки близько січня 2025 року, після випуску R1 reasoning model — і компанія тут же потрапила під розслідування європейськими регуляторами з питань захисту персональних даних. Тільки за січень регулятори з більш ніж 10 країн-учасниць ЄС прокоментували або відреагували на популярний ШІ-чатбот — а це неймовірна швидкість для багатьох з них.

Але що може закинути китайській Deepseek орган, який має опікуватися персональними даними європейців?

Коротка довідка про GDPR

GDPR (General Data Protection Regulation) — європейський регламент (тобто де-факто закон), що регулює обробку персональних даних резидентів країн ЄС. GDPR обовʼязковий для всіх компаній, органів та осіб на території ЄС, але додатково має виконуватися і тими закордонними компаніями, що хочуть працювати на європейському ринку.

GDPR опікується саме персональними даними — за визначенням з акту, це «будь-яка інформація, що стосується фізичної особи, яку ідентифіковано чи можна ідентифікувати („суб’єкта даних“)». У самому тексті є приклади, що акт вважає персональними даними: ідентифікатори на кшталт імені, ідентифікаційного номера, даних про місцеперебування, онлайн-ідентифікаторів тощо.

Важливо: збір компанією персональних даних не перетворює такі дані на власність компанії чи конфіденційну інформацію; компанія не може відмовити субʼєктові даних у доступі до його персональних даних, якщо він цього попросить.

GDPR дає субʼєктам даних низку прав, і можуть звернутися до спеціального адміністративного органу у своїй країні або до суду, якщо їхні права порушені.

Що кажуть регулятори про Deepseek

Реакція не була однаковою у всіх країнах. Ми можемо виділити основні патерни реагування регуляторів за їхніми публічними оголошеннями.

Наприклад, Люксембург випустив рекомендації для компаній та громадян, де пропонує:

  • не встановлювати на девайс застосунки з ШІ,
  • взагалі ці застосунки не використовувати (як і інші ШІ),
  • не розгортати ШІ чи її конфігураційні файли локально,
  • не додавати до промптів свої персональні дані,
  • поширювати інформацію про безпечне користування ШІ.

Нідерланди та Литва також випустили схоже попередження для своїх громадян.

Італія, як у її досвіді з Open AI, почала відразу з заборони Deepseek (30 січня).

Інші регулятори ж вживають дві основні стратегії:

  • відправити запит на інформацію про роботу моделі/застосунку (Ірландія, Хорватія, Франція, Бельгія) та
  • розпочати офіційне розслідування (Бельгія, Німеччина, Нідерланди, Литва).

Розслідування також почав ICO (Британія).

Певні передбачення можна було будувати також з огляду на долю OpenAI i Clearview AI.

OpenAI. У березні 2023 року медіа заговорили про витік даних з OpenAI, на що італійський регулятор (Garante) відгукнувся вимогою до компанії заблокувати доступ до платформи для користувачів з Італії. Серед причин для блокування Garante називав:

Найбільша технічна конфа ТУТ!🤌

  • порушення статей 5 (порушені принципи обробки персональних даних),
  • статті 6 (неправильно підібрана або відсутня правова підстава для обробки персональних даних),
  • статті 8 (неправильний збір згоди на обробку даних дітей),
  • статті 13 (порушення порядку повідомлення про обробку персональних даних), та
  • статті 25 (порушення принципів захисту даних за замовчуванням та за дизайном).

OpenAI виконав цю вимогу та погодився виконати вказівки регулятора щодо комплаєнсу з GDPR. У відповідь, Garante зняв обмеження у кінці квітня 2023 року.

Тим не менш, у кінці 2024 року італійський регулятор оштрафував OpenAI на 15 млн євро за порушення у процесі тренування моделі (збору персональних даних без достатньої правової підстави), брак інформування про обробку даних, порушення вимоги повідомляти регулятора про витік даних та відсутність фільтрів для контенту, з огляду, що компанія не може проконтролювати і не допускати до реєстрації неповнолітніх. Також у штраф ввійшла сума і за те, що компанія не виправила названі Garante порушення.

Додатково регулятор зобовʼязав компанію провести 6-місячну кампанію у локальних медіа і розповідати про те, як компанія збирає персональні дані. OpenAI повідомив про намір оскаржувати це рішення.

Clearview AI. Бізнес Clearview полягає у збиранні з усіх Інтернет-джерел величезних баз зображень людей (переважно облич) та біометричної ідентифікації людей за плату від приватних компаній та правоохоронних органів.

Активні стосунки між Clearview та європейськими регуляторами почалися з травня 2021 року, коли низка організацій з захисту прав людини поскаржилась на порушення GDPR до своїх локальних регуляторів (Британія, Франція, Італія, Греція, Австрія, Німеччина, Швеція тощо).

Спершу суть претензій була у тому, що:

  • Збираються не лише звичайні, але і чутливі дані у розумінні статті 9 GDPR (на які «донор обличчя» має дати згоду, за деякими дуже конкретними виключеннями).
  • Збір даних у такій кількості й для таких цілей не підпадає під «законний інтерес», а розміщені в інтернеті фото — під «самостійно оприлюднені» дані.
  • Компанія також порушує вимогу до інформування про обробку даних та принципи обробки тощо.

Згодом, відколи регулятори почали досліджувати роботу компанії й надсилати запити, порушень виявилось більше.

Зрештою, оскільки компанія не виходила на звʼязок і не виявила бажання співпрацювати, регулятори оштрафували її:

  • Нідерланди: 30,5 млн євро (травень 2024).
  • Франція: 20 млн (жовтень 2022) + 5,2 млн євро (травень 2023).
  • Греція: 20 млн євро (липень 2022).
  • Британія: 9 млн у євро (травень 2022).
  • Італія: 20 млн євро (лютий 2022) тощо.

Отже, тренд загалом зрозумілий:

  • Регулятор може не чекати скарг і розпочати розслідування самостійно, з огляду на медіа.
  • Ігнорування регулятора призводить до штрафів і за саме порушення, і за відсутність кооперації.
  • Відсутність ефективної доказової бази (що контролі були вжиті) провокує регулятор збільшувати штрафи.

Але як регулятор взагалі розслідує такі ситуації?

Що EDPB каже про ШІ

European Data Protection Board (EDPB) — це регулятор, який працює як «тлумач» GDPR і координатор національних органів з питань захисту даних.

GDPR не дає вичерпного списку даних, на які він поширюється. Якщо дані дають змогу ідентифікувати конкретну людину (у широкому сенсі розуміння «ідентифікації»), то ці дані будуть персональними даними. Це не має бути унікальний податковий номер чи якийсь ключ — якщо з маси даних можливо вичленувати достатньо інформації, щоб вказати на когось конкретного, то вся ця маса даних є персональними даними.

Іншими словами, якщо модель здатна «вгадати» номер телефону, імʼя, адресу, рід занять та інші дані про людину — то це, скоріш за все, будуть персональні дані. А щоб довести, що це не так — доведеться докладати зусиль.

Важливо у цій темі прочитати останню пару документів, які EDPB випустив:

Основне, про що говорить Report:

  • Технічна неможливість щось зробити не є виправданням для порушення GDPR (тобто що якщо система не має такого функціоналу — то його слід було закласти або зробити так, щоб ця система не збирала даних, наприклад) (п. 7).
  • Для обробки даних має бути правова підстава, для кожного з етапів збору даних (оскільки у них будуть різні цілі для збору й обробки):
    • збирання даних для тренування моделі (і скрейпінгом, і перевикористанням вже зібраних для чогось іншого даних);
    • попередня обробка (включно з фільтруванням);
    • власне тренування;
    • опрацювання промптів та генерування аутпутів;
    • тренування на промптах. (пп. 13-14).
  • Якщо використовується скрейпінг, то компанія має показати докази, що були вжиті захисні міри (тобто що дані були прибрані видаленням чи анонімізацією ще до тренування моделі) (п. 17).
  • Якщо модель використовує промпти і їхні складники (файли) та просить фідбек по якості аутпуту для подальшого тренування моделі, то юзера слід повідомити про це (п. 22).
  • Інформація для користувачів має містити вказівку, що аутпути будуть містити неточності та помилки (п. 31).
  • Компанія має продумати, як субʼєкти даних можуть реалізовувати свої права, ще до моменту тренування моделі (п. 35).
  • Компаніям слід задокументувати своє рішення щодо DPIA, якщо вони хочуть розробляти чи розгортати ШІ-модель (п. 36(ІІІ)).

Інше, що додає Opinion 28/2024:

  • Компанії повинні готувати докази свого комплаєнсу з GDPR в міру створення і використання моделі (п. 15).
  • Кожна ШІ-модель чи випадок її використання будуть розглядатися контекстуально (тобто окремо одна від одної) (п. 14).
  • Довести, що модель дійсно анонімна і не використовує та не реконструює персональні дані можна, але для цього доведеться докласти зусиль:
    • ШІ не повинна бути натренована на вгадування або висновки про людину (створення нових знань про неї на основі наданих для навчання + юзером) (п. 29);
    • ШІ не повинна в ідеалі взагалі бути тренованою на ПД (п. 34);
    • ШІ повинна проходити перевірки на атаки, націлені на виявлення інформації про особу, на кшталт extraction, використання статистичних патернів, маніпулювання запитами тощо — і на цей risk assessment має бути доказ (п. 37-40).
  • Слід тримати документацію на збір з джерел даних для тренування моделі (п. 50), процес підготовки до тренування (п. 51), методологічну базу для алгоритмів та технологій в процесі створення ШІ (наприклад, чи використовуються privacy-preserving technologies) (п. 52), запобіжники при генерації аутпутів (п. 53), проведення тестування на ефективність запобіжників, наприклад, у формі код-ревʼю (п. 54) і безпекових тестів (п. 55) на:
    • attribute and membership inference;
    • exfiltration;
    • regurgitation of training data;
    • model inversion;
    • reconstruction тощо.
  • Створювати GDPR-документацію (LIA, RoPA, DPIA тощо) (п. 56).
  • Але, що найважливіше — якщо фаза тренування була здійснена з порушеннями, це не буде автоматично у всіх випадках тягнути за собою порушення на подальші фази розробки і використання ШІ (п. 134)!

При цьому ці правила стосуються лише обробки персональних даних — не слід забувати ще про цілий AI Act, який уже з цього року набуває чинності. А залежно від моделі компанія може ще підпадати й під інші закони — наприклад, accessibility, безпеку медичних товарів та послуг тощо.

То що далі?

Оскільки часи дуже хаотичні, то з якоюсь впевненістю сказати не вийде. Але можу дати кілька здогадок:

  • DeepSeek оштрафують за порушення щодо безпеки даних і повідомлення європейських регуляторів про витік даних з їхнього ClickHouse.
  • Deepseek ігноруватиме запити регуляторів, за що отримає штраф за порушення вимоги з кооперації.
  • Залежно від того, чи будуть якісь скандали, що модель або сама платформа (чи застосунок) порушила GDPR — буде тривале (не менше кількох місяців, або і років) розслідування. Зазвичай у формі запитів, аналізу застосунку та збору інформації з медіа або опитування постраждалих та експертів.
  • Ймовірніше за все, будуть знайдені порушення у політиці приватності (оскільки GDPR має чіткий перелік інформації, яка має там бути), прав дітей (бо немає контролю, хто реєструється і що модель віддає), відсутність правової підстави для збору даних тощо.
  • DeepSeek вийде з заявою, що ніколи не планував виходити на європейський ринок і є суто китайською компанією (як Clearview), що по суті закриє варіант легкого відкриття європейського підрозділу.

Але може бути все — наприклад, компанія може відповісти на питання та продемонструвати запобіжники, або ж оновити свої політики й перекласти відповідальність на наступного у ланцюжку деплоєра, обійтися попередженням від регулятора абощо.

Але що краще зробити, щоб було легше, якщо ви — розробник рішень чи продуктів з ШІ:

  • Підготуватися до такого запиту:
    • скласти GDPR-документацію;
    • потестувати свою розробку на цій моделі;
    • освіжити privacy policy;
    • провести risk assessment i DPIA.
  • Моніторити новини про долю розслідувань, які регулятори вже ініціювали.
  • Подумати про privacy-enhancing tech і закласти в архітектуру продукту рішення по комплаєнсу. Наприклад:
    • фільтри на дані, такі як імена на кшталт Jonathan Zittrain або Jonathan Turley (відомі професори з права, які припиняють роботу ChatGPT при згадці про них у запиті);
    • диференційовану приватність;
    • портали для реалізації прав субʼєктів;
    • перетренування або фідбек-механізми тощо.
  • Написати хорошу секцію на сайті про те, як працює модель і що може бути з даними — клієнти та користувачі це цінують, і це часто допомагає проактивно розвіяти напругу.

А якщо ж ви користувач — почитайте, що пишеться у політиках. Наприклад, DeepSeek провалив безпекові тести рісьорчерів з Cisco, але ж компанія ніколи і не обіцяла повної безпеки, правда ж?

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
А якщо ж ви користувач — почитайте, що пишеться у політиках. Наприклад, DeepSeek провалив безпекові тести рісьорчерів з Cisco, але ж компанія ніколи і не обіцяла повної безпеки, правда ж?

Я в принципі не розумію, яке це має відношення до безпеки, бо з моєї користувацької точки зору мова йде про обмеження функціоналу: DeepSeek функціонал мені не обмежує, чесно відповідає на запитання. ChatGPT відповідає що я тобі відповідати не буду. То що мені обирати, як користувачу?

Ну а так я не бачу великої відміни від звичайного застосунку та застосунку з ШІ.

Будь-ласка, не повторюйте лякалки про DeepSeek. Є модель, а є компанія і її потужності. Модель deepseek відкрита і її може запускати кожен хто хоче і де хоче. Щоб спокійно користуватись deepseek достатньо виконати одну команду:

ollama run deepseek-r1:70b

І все: ваші дані надійно захищені і нікуди не передаються.

А якшо ви SaaS який надає функції ШІ — надайте користувачам можливість підключати ті провайдери яким вони довіряють. Той же DeepSeek прекрасно працює на потужностях AWS Bedrock, і чогось до амазону питань ніби нема.

У цій статті я хотіла допомогти

раніше хотіла?

Та ні, я завжди рада допомогти fellow DPOs 😊

З цим неможливо боротися. Хто не буде використовувати ШІ вилетить з ринку.

Важливо просто не забувати, що користуватися інструментами можна і у способи, що не порушують законодавство — і до цього слід прагнути 😊

Це talking point ШІ пропаганди, нічим не підтверджений навіть теоретично.

Підписатись на коментарі