Як розробляти AI/ML рішення, щоб не отримати штраф у Європі за порушення GDPR

Щиро вітаю, мене звуть Владислав Тамашев і я privacy lawyer в Legal IT Group. Я завжди уважно слідкую за світом високих технологій, а особливо мене цікавлять механізми їх імплементації у повсякденному житті. У своїй роботі я спеціалізуюсь на приватності в галузі ІТ та розглядаю подібні кейси не тільки з юридичної точки зору, але і з боку власного досвіду у галузі інформаційної безпеки.

Ця стаття покликана проаналізувати присудження штрафу у розмірі 7,5 млн фунтів компанії Clearview AI та надати відповіді на такі запитання:

  • Які є ризики у використанні АІ та ML?
  • Яку небезпеку містять алгоритми пошукових систем у роботі з біометричними даними?
  • Які складності можуть виникнути при зборі та обробці біометричних даних?
  • На які аспекти потрібно звертати особливу увагу під час розробки AI чи ML?
  • Як не можна використовувати дані з відкритих джерел?
  • Що потрібно знати про UK GDPR?
  • Від чого залежить розмір штрафу за порушення GDPR?
  • Що таке privacy by design та privacy by default?
  • Які заходи допомагають запобігти порушенням GDPR?

Штраф за AI

23 травня 2022 року Британський наглядовий орган The Information Commissioner’s Office (ICO) зобов’язав компанію Clearview AI сплатити штраф у розмірі 7,5 млн фунтів через порушення UK GDPR — закону про захист персональної інформації.

Clearview AI описує свою технологію, як пошукову систему для загальнодоступних зображень, що націлена на підтримку процесів розслідування та ідентифікації осіб. Тобто на практиці йдеться про встановлення особи шляхом зіставлення наданого користувачем зображення із вже наявними у базі даних.

Як зазначає компанія усі зображення в її базі даних отримані з відкритих джерел (соціальні мережі, новини, відкриті медіа тощо). На відміну від пошукових вебсервісів, технологія Clearview AI використовує біометричні дані, а не метадані чи спеціалізовані теги. Модель поширення продукції охоплювала правоохоронні структури різних країн, корпоративних клієнтів та звичайних користувачів.

З точки зору ICO компанія порушила закон про захист інформації у трьох напрямах:

  1. непрозоре використання персональної інформації;
  2. відсутність законних підставив для збору інформації;
  3. відсутність підстав для необмеженого зберігання інформації.

Для розгляду ситуації з правової точки зору необхідно розмежувати саму технологію та обставини за яких її використання може бути неправомірним. Тож, почнемо з технології.

Технологія розпізнавання обличчя

Технології розпізнавання обличчя, по своїй суті, — це імітація людського зору та нашої здатності обробляти візуальну інформацію. Сучасні високотехнологічні алгоритми розпізнавання обличчя здатні адаптуватись до зовнішніх умов та індивідуальних особливостей людини. Окрім запрограмованої основи алгоритму, формування подібних здібностей потребує «навчання» або формування патернів та закономірностей, шляхом обробки значної кількості даних конкретного типу. Точність та швидкість релізної версії алгоритму багато у чому залежить від того, як розробник подолає типові перешкоди у роботі з даним типом програмного забезпечення.

Забезпечення стабільного джерела якісних даних

Стабільне джерело даних є основою для розробки подібних алгоритмів. Створення власних фото- та відеоматеріалів вимагає значних ресурсів, часу та зусиль. Тому, вочевидь, пошук вже готових баз даних є набагато більш привабливим варіантом з економічної точки зору.

Соціальні мережі, фотобанки, відеохостинги, пошукові сервіси та медіаресурси вже містять петабайти потенційно придатних для «навчання» алгоритму даних. Facebook розвивали власну систему розпізнавання облич та Automatic Alt Text (інструмент для осіб з порушеннями зору). Система була здатна аналізувати та описувати зміст зображення, автоматично ідентифікувати осіб та відтворювати цю інформацію синтезованою мовою. У листопаді 2021 компанія відмовилась від зберігання біометричних патернів користувачів, залишивши тільки опис зображення та визначення кількості наявних у кадрі осіб.

Обробка зображень та перетворення його у зрозумілу алгоритму форму

Аналіз зображення, визначення та позиціювання ключових точок обличчя належить до обробки персональної інформації, а якщо точніше, то йдеться про обробку біометричних даних особи. Сучасні алгоритми здатні визначати форму голови, розріз очей, етнічну приналежність, відстежувати рух рота, напрямок погляду чи нахил голови.

У сукупності всі ці точки утворюють своєрідну «мапу» обличчя, зрозумілу алгоритму. Хоча створена «мапа» є максимально спрощеним відбитком, деякі алгоритми здатні зберігати його та повторно ідентифікувати особу. Таким чином, йдеться не тільки про обробку, але і про зберігання біометричних даних.

Найкращий приклад — це системи розблокування пристроїв через розпізнавання обличчя.

Здатність алгоритму до адаптації

У використанні на практиці майже не буває ідеальних умов. Нерівномірне освітлення, злиття з оточенням, погана якість зображення чи зернистість, вібрації камери, нестандартні ракурси, часткова фіксація обличчя, вікові зміни, нова зачіска та безліч інших параметрів мають бути враховані при розробці.

Сучасні стандарти вимагають від алгоритмів точності та ефективності незалежно від умов їх використання. В ході «навчання» алгоритму відбувається опрацювання якісних зображень, різних за типажем, етнічною чи віковою групою осіб.

Автоматичний пошук закономірностей, упущення неважливих аспектів та створення патернів дозволяє алгоритму ефективно працювати у сприятливих умовах. Одночасно з тим, обробка зображень одних і тих самих осіб, але за різних умов, ракурсів та у ретроспективі «навчає» систему адаптуватись та нівелювати різні умови.

Алгоритми пошукових систем

Другою складовою продукту Clearview AI є пошукова система, тобто механізми збору даних та їх систематизація у базі. Сучасні пошукові інтернет платформи полягають у поєднанні чисельних алгоритмів, що відповідають за індексацію та розмежування даних за категоріями, формування асоціацій, передбачення, врахування часу, локації, налаштувань та попередніх запитів користувача. В контексті даного кейсу ми зосередимось на розмежуванні та індексації даних.
Процес внесення інформації до бази даних пошукової системи та її подальша обробка є спільним в усіх подібних системах. Коли йдеться про реалізацію пошукової системи у масштабах інтернету, то механічне внесення інформації до бази даних є лише тратою часу.

Об’єм даних та постійне його збільшення вимагають залучення систем автоматичної індексації та обробки. Далі відбувається розподіл даних за категоріями та її ранжування в залежності від запиту користувача.

Наприклад, пошукові сервіси типу Google використовують час публікації, популярність вебсторінки чи сайту, історичний контекст, використання протоколів шифрування тощо.

В контексті ж обробки чутливих та персональних даних автоматичне та неконтрольоване накопичення інформації здатне заподіяти шкоду не тільки власникам даних, але і призвести до штрафів та санкцій для того, хто дані обробляє. Необхідно враховувати, що подібний підхід може не відповідати законодавству різних країн у галузі збору та обробки інформації та вимагати узгодження безпосередньо з особами, яким належать ці дані.

Переваги та ризики AI/ML

Оскільки технологія Clearview AI використовує елементи штучного інтелекту, для повного усвідомлення контексту необхідно розібратись з перевагами та ризиками AI\ML. Отже, обробка даних класичними методами вже не відповідає темпами та потребами галузі, тому AI (artificial intelligence) та ML (machine learning) сприймаються як наступний крок ІТ-індустрії. На актуальному рівні розвитку ці два терміни здаються синонімами, однак є ключові відмінності.

AI — це імітація людського мислення. Окрім сприйняття та обробки інформації ідея AI охоплює будування складних логічних ланцюгів, творчого та аналітичного мислення, імпровізації, а у далекій перспективі — власне осмислення. Вже наявні AI поєднають у собі принаймні декілька із зазначених рис.

ML — це підрозділ AI, що зосереджений виключно на обробці інформації, а всі інші аспекти AI розвиваються в необхідному для досягнення мети обсязі.

Зараз «навчання» AI відбувається повільно, шляхом поглинання великих обсягів інформації. Своєю чергою впровадження GDPR (General Data Protection Regulation) зовсім не спрощує цей процес. Обробка персональної інформації регулюється та обмежується з метою захисту прав людини та зупинення неконтрольованого накопичення та збору таких даних.
Кейс Clearview AI не є унікальним. У серпні 2021 Італійський наглядовий орган (GPDP) у справі n. 9685994 наклав штрафні санкції на кур’єрську компанію з доставлення їжі Deliveroo.

Суть цієї справи у тому, що ефективність робітників оцінювалась алгоритмом на базі машинного навчання. Зміст та критерії оцінки були засекречені, але на їх основі працівники могли бути оштрафовані. Як виявилось в ході перевірки, алгоритм збирав значно більше даних, ніж було необхідно та ніж було повідомлено працівникам.

У вересні 2021 року вже Угорський наглядовий орган (NAIH) оштрафував Budapest Bank за використання АІ, що аналізував емоційний стан клієнтів служби підтримки. Справа NAIH-85-3/2022 була про те, що банк належним чином не інформував та не отримував дозволу на аналіз емоційного стану клієнта за його голосом.

Справи, у яких йдеться про використання АІ чи машинного навчання зазвичай є більш резонансними, а штрафні санкції можуть у рази перевищувати аналогічні з класичними методами обробки даних. В першу чергу, це обумовлено обсягом даних, важкістю порушення, негативними наслідками та кількістю осіб, яких порушення торкнулось.

GDPR в контексті справи Clearview AI

До брекзиту Великобританія успішно адаптувала GDPR у власну систему законодавства. Після виходу з ЄС регламент не втратив своєї чинності, а лише був допрацьований та адаптований до нового статусу країни. Здебільшого нововведення торкнулись обміну персональними даними між Великобританією і країнами ЄС та заміни «EU» на «the United Kingdom» у статтях регламенту.

Таким чином, компанії, що вже налагодили внутрішні процеси та відповідали вимогам GDPR не мали вносити жодних змін. Для спрощення, в контексті даного кейсу не буде різниці між «GDPR» та «UK GDPR», через те, що основоположні позиції та принципи ідентичні. Безпосередньо в самому рішенні наведені статті одночасно відносяться до GDPR та UK GDPR.

Clearview AI — компанія, що зареєстрована та базується на території Сполучених Штатів Америки. Виходячи зі статті 3, дія регламенту поширюється за межі Великобританії, якщо надані послуги чи реалізація продукції потребує обробки персональних даних резидентів Великобританії або відстежується активність резидентів Великобританії.

В процесі обробки даних алгоритм Clearview AI використовує біометричні дані обличчя для індексації, систематизації та подальшого пошуку за базою даних. Окрім того, накопичення та групування значної кількості даних за особами може вважатись відстеженням активності. Оскільки, база даних Clearview AI постійно та в автоматичному режимі акумулює зображення з усіх доступних джерел, користувачі сервісу здатні відстежувати діяльність, пересування, соціальні зв’язки та інші відомості запитуваної особи.

В ході тестового періоду програмного забезпечення, наданого Clearview AI британським правоохоронним органам, було здійснено понад 700 запитів, переважна частка з яких були унікальними. За результатами встановлено, що база даних сервісу містить значну кількість резидентів Великобританії.

Даний факт підтверджує повноваження ICO на проведення перевірки та призначення штрафних санкцій. Як зазначає наглядовий орган, сам факт проведення «Британської стадії тестування» передбачає наявність у базі громадян Великобританії, інакше подібне тестування не мало б жодного сенсу.

Як і було вказано на початку цієї статті, відповідно до рішення ICO серед ключових порушень Clearview AI було:

  • непрозоре використання персональної інформації;
  • відсутність законних підстав для збору інформації;
  • відсутність підстав для необмеженого зберігання інформації.

Clearview AI є контролером даних. Тобто компанія самостійно визначає мету та засоби збору/обробки усієї інформації. Можна виділити два типи обробки даних за даним кейсом:

  1. Компанія самостійно збирає інформацію, формує базу даних, індексує зображення та їх джерела.
  2. Користувач надає зображення, що необхідно зіставити з базою даних компанії. Надане зображення підлягає обробці та порівнянню з наявними у базі.

Аналізуючи рішення, бачимо наступне: непрозоре використання персональної інформації випливає зі статті 5(1)(а) регламенту, де зазначено, що обробка персональної інформації має відбуватись відповідно до законодавства, у чемній та прозорій манері. Кожна особа має право на повний контроль над своєю персональною інформацією. Особа має чітко розуміти хто, як, де та коли використовує її персональні дані та бути здатною впливати на ці процеси.

У даному кейсі субʼєкт збору даних не може передбачити та не знає, що дані будуть оброблені у подібний спосіб. Навіть у випадку з соціальними мережами дане правило продовжує діяти. Публікуючи зображення на власній сторінці у соціальній мережі, особа не може чітко усвідомлювати, що надалі ці дані будуть проаналізовані та стануть частиною глобальної бази даних для ідентифікації осіб за допомогою розпізнавання обличчя.

Хоча дані отримуються з відкритих джерел алгоритм компанії ігнорує той факт, що власник зображень може змінювати налаштування приватності у будь-який момент, а база даних не відбиває цих змін та вже містить біометричні дані особи.

Навіть якщо вважати публікацію фотографії за свідомий дозвіл на подальшу обробку даних, то що робити з фотографіями, які одночасно зображують багатьох суб’єктів? Подібні випадки потрібно розглядати індивідуально, хоча за загальним правилом необхідний дозвіл кожної окремої особи для зняття її біометричних даних.

Відсутність законних підстав для збору інформації передбаченої у статті 9 UK GDPR, що забороняє використовувати спеціальні категорії персональних даних, серед яких і біометричні. Після обробки зображення у базі даних зберігається так званий вектор даних. Цей вектор і є біометричними даними обличчя, що використовується для навігації у базі даних. За статтею 9, обробка подібних даних можлива тільки за наявності обставин, передбачених частиною 2.

Серед таких обставин:

  • Пряма згода на обробку.
  • Захист фундаментальних прав особи у галузі трудового, соціального забезпечення та соціального захисту в межах законодавства країни.
  • Захист життєвих інтересів особи.
  • Явне, публічне розголошення особою інформації.
  • Обробка в рамках правосуддя.
  • Забезпечення публічного інтересу в рамках закону.
  • Для цілей охорони здоров’я.
  • Для наукових, історичних, дослідницьких та статистичних з дотриманням вимог про обробку подібних даних.

Детально проаналізувавши наявні механізми та спрямованість продукту компанії ICO встановила, що жодна обставина не присутня в цьому випадку. Публікацію у соціальній мережі не можна розцінювати, як дозвіл на обробку біометричних даних обличчя. Безпосередній дозвіл також не був отриманий. Навіть той факт, що будь-яка особа може звернутись з проханням видалити її вектор даних з бази не скасовує факту накопичення та використання персональних біометричних даних без попередньої згоди.

Відсутність підстав для необмеженого зберігання інформації виходить зі статті 5(1)(е), яка передбачає зберігання інформації у формі, що унеможливлює ідентифікацію та протягом періоду, необхідного для досягнення мети її збору.

Clearview AI не має політики зберігання даних. Тобто усі зібрані дані залишаються у базі безстроково або до моменту прямого завершення їх використання і видалення. Також в ході перевірки не було виявлено свідоцтв про видалення зображень з бази даних, натомість їх кількість тільки зростала.

Це прямо порушує принципи зазначені у статті 5(1)(е). Обробник інформації повинен зберігати дані тільки з метою надання послуги задля якої їх було зібрано та по завершенню їх знищити. Щодо політики зберігання даних, то це документ, який інформує субʼєкта збору даних про те, які дані та як довго будуть зберігатись обробником.

Хоча, рішення ICO прийнято після дослідження механік програмного забезпечення та оцінки досвіду використання правоохоронними органами, це не означає, що отримані дані повною мірою відбивають дійсність. На даному етапі Clearview AI може оскаржити рішення ICO.

Висновки

З інтеграцією інтернет-технологій в усіх галузях життя, поняття приватності почало розглядатись під новими кутами. Технологічні розробки та програмні продукти покликані спростити життя користувачів, проте одночасно з тим вони збирають неймовірний обсяг персональної інформації. Для забезпечення безпеки в інформаційному просторі й розробляються такі акти, як GDPR.

В даному кейсі проблема приватності полягає не в технологіях чи алгоритмах, а у тому, як вони використовуються. За своїм змістом продукт Clearview AI є комбінацією перевірених та дозволених технологій. Алгоритми розпізнавання обличчя є поширеною технологією, що підтримується майже всіма сучасними операційними системами, соціальними мережами та різноманітними сервісами. А пошукові системи давно стали частиною повсякденного життя та незамінним атрибутом вебсерфінгу.

Сучасні закони у галузі обробки персональних даних не дозволяють безконтрольний збір інформації. Кожна особа має виключне право контролювати свої дані. Передача та поширення персональних даних має бути свідомим вибором особи.

ІТ-індустрія, свою чергою, базується на інноваційних рішеннях з обробки інформації. При тому треба враховувати, що правила обігу інформації не є однаковими для різних типів даних. Тому, перед початком розробки необхідно чітко розуміти, які дані будуть необхідні для роботи, чи підпадає продукт під локальні обмеження, які заходи потрібно вжити та від яких принципів обробки даних відштовхуватись.

Теоретично даний кейс міг бути попереджений шляхом фільтрації британських джерел чи відсіюванням підтверджених резидентів Великобританії. Однак Великобританія далеко не єдина країна з подібним регламентом. Альтернативою могла бути бізнес-модель, що передбачає надання технології та створення бази даних вже зусиллями клієнта з дотриманням місцевого законодавства, наприклад правоохоронними органами, або впровадити механізми отримання дозволу на обробку даних.

GDPR та Україна

На цей час GDPR не імплементований у законодавство України, однак, це не означає, що його дія не може поширюватись на українські компанії. У всесвітній мережі кордони є лише умовними, а ідентифікувати положення всіх користувачів сервісу чи додатку не завжди можливо. Тому вірогідність обробки персональної інформації користувачів з ЕС чи Великобританії є в край високою.

Впродовж розробки алгоритмів AI та ML потрібно дотримуватись принципів privacy by design та privacy by default:

  • забезпечення інформаційної безпеки та правомірне використання персональних даних має бути закладено у сервісі чи продукті на початкових етапах розробки (privacy by design);
  • компанія має збирати тільки необхідні для поставленої мети дані та забезпечувати максимальну приватність без впливу чи прямого запиту від користувача (privacy by default).

У складних та інноваційних проєктах доцільним є проведення privacy impact assessment. Подібна оцінка здатна виявити ризики щодо інформаційної безпеки, та конфіденційності користувачів. Також privacy impact assessment буде актуальною під час впровадження нового функціоналу чи продукту до вже наявних.

Сподобалась стаття? Натискай «Подобається» внизу. Це допоможе автору виграти подарунок у програмі #ПишуНаDOU

👍ПодобаєтьсяСподобалось5
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Важлива і актуальна стаття, дякую

Як розробляти AI/ML рішення, щоб не отримати штраф у Європі за порушення GDPR

Разрабатывать и предоставлять через юрлицо в США?

Підписатись на коментарі