Є можливість зібрати велику базу даних новин про війну

Я зібрав ~500 каналів з новинами про війну (включно з рашиськими та псевдоукраїнськими (напр. шарій/україна.ру)) для свого проєкту, яким більше не хочу займатися. Але нещодавно я усвідомив, що з цього списку можна зробити дуже гарний датасет. Планую, що це буде великий список з повідомленнями від 1 лютого 2022 (не 24е, бо події до початку вторгнення також були важливі). Спочатку я планую зібрати їх у сирому форматі Telegram (TDLib) а потім перевести це у що не будь більш зручне (JSON/CSV/SQL). Можливо також прикріплю фото та відео, але це вже треба буде танцювати з бубнами біля різних S3.

Я б не хотів витрачати час на це, без гарної мотивації (тобто цілі). Якщо у вас є гарна ідея, що з цими даними робити — пишіть в коментарі та якщо мені хоча б щось сподобається — датасету жити!

Умови: все безплатно та йде під ліцензією MIT. БД та результат будуть викладені в open-source. Від мене тільки дані, та документація до них.

P.S. Було б гарно отримати рекомендацію де ці дані зберігати, бо на моїй VDS-ці не так вже й багато місця (від сили 5гб). Було б гарно мати можливість постійно додавати нові повідомлення (я планую постійно оновлювати її, бо чому б і ні). Тобто це мусить бути рішення у хмарі, куди можна постійно пушити дані, але при цьому хто завгодно має read-only доступ.

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Є такий укр. сервіс де збирають факти про війну dattalion.com Тут взяли призові 4 міс. тому wgospodarce.pl/...​thonu-walki-dezinformacja Може якось з ними скооперуватись (відношення до них не маю)

Дякую! Написав першим, подивлюся що з цього вийде та можливо напишу другим.

Ну например датасет можно использовать для модели выяснения фейков :)
Я могу попробовать выбить кредиты на облачные ресурсы, например — но вначале узнай кому оно нужно :)

Чи не треба буде кожну новину помічати як фейк або ні? Це велика робота, бо повідомлень за пару днів вже назбиралося пару десятків тисяч. Можна буде сортувати їх по сторонах, це вже легше, бо мінімум половина відлетить за наявність зетки або прапора (хоч і тут треба бути акуратним, ніхто не скасовував такі канали як україна.ру).

Підписатись на коментарі