У найбільшому наборі даних для навчання ШІ знайдені матеріали насильства над дітьми

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Дослідники знайшли матеріали про насильство над дітьми в найбільшому наборі даних для генерації зображень — LAION.

Дослідники зі Стенфордської інтернет-обсерваторії стверджують, що набір даних, який використовується для навчання ШІ-інструментів генерації зображень, містить щонайменше 1008 підтверджених прикладів матеріалів про сексуальне насильство над дітьми. Науковці зазначають, що наявність CSAM у наборі даних може дозволити ШІ-моделям, які були навчені на цих даних, генерувати нові та навіть реалістичні приклади CSAM.

LAION, некомерційна організація, яка створила набір даних, відреагувала:

Ми дотримуємося політики нульової толерантності до незаконного контенту, і з обережності ми тимчасово видаляємо набори даних LAION, щоб забезпечити їхню безпеку перед повторною публікацією.

Організація додала, що перед тим, як публікувати свої набори даних, вона створила фільтри для виявлення та видалення з них незаконного контенту. Однак 404 Media вказує на те, що керівники LAION знали щонайменше з 2021 року про ймовірність того, що їхні системи можуть підхопити CSAM, оскільки вони витягували мільярди зображень з інтернету.

Хто послуговувався даними LAION:

  • Перша дослідницька версія моделі перетворення тексту в зображення Imagen від Google навчена на LAION-400M, але вона так і не була випущена. Google заявляє, що жодна з наступних ітерацій Imagen не використовує наборів даних LAION.
  • Stable Diffusion навчалась, використовуючи підмножину даних LAION-5B. Представник Stability AI повідомив Bloomberg, що компанія забороняє використовувати свої системи в незаконних цілях, як-от створення або редагування CSAM. Stable Diffusion 2 (новіша версія інструменту Stability AI) навчалася на відфільтрованій підмножині цього набору даних, що ускладнює користувачам створення відвертих зображень. Однак Stable Diffusion 1.5, яка все ще доступна в інтернеті, не має такого ж захисту.
👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Ось що по-справжньому цікаво — АІ є відображенням всього того, що відбувається у суспільстві і генерує тексти та зображення на базі всього того, що вже існувало в цьому світі до АІ. Тобто намагатися для АІ «обілити» людство замість того, щоб самому людству стати краще — приречено на провал, на мій погляд. Особливо з урахуванням того, що деякі моделі (і в майбутньому їх буде ставати все більше) мають необмежений доступ до інтернету і навчаються на інформації звідти. Тобто спочатку ми говоримо АІ, що child abuse, расизм, фетшеймінг та багато інших речей є поганими, а потім інші люди в інтернеті викладають фотки/відео з child abuse, пишуть расистські/хейтерські коменти або й навіть цілі статті і АІ поглинає та переварює це, бо з його точки зору це також частина людської культури.

Так що я не бачу іншого способу зробити АІ більш етичним, ніж самому людству стати більш добрим і етичним. З точки зору наслідування поведінкових паттернів, АІ — це глобальна дитина всього людства. А дитина не поводить себе так, як ти їй кажеш. Вона поводить себе так, як батьки поводять і бере з них приклад. Ми будемо поганими — АІ буде поганим. Ми будемо хорошими — і АІ буде хорошим.

Ну може створювати, і шо?

з LAION судяться вже з 2021-го за неавторизоване використання приватних зображень. Джерело їхніх пар зображення-опис це Common Crawl (400TB) усіх сторінок з 2011-го котрі не блокують CCbot через robots.txt. 60% тренувальних даних GPT-3.5 це фільтрат бази CC 🤷‍♂️

Підписатись на коментарі