Є можливість зібрати велику базу даних новин про війну
Я зібрав ~500 каналів з новинами про війну (включно з рашиськими та псевдоукраїнськими (напр. шарій/україна.ру)) для свого проєкту, яким більше не хочу займатися. Але нещодавно я усвідомив, що з цього списку можна зробити дуже гарний датасет. Планую, що це буде великий список з повідомленнями від 1 лютого 2022 (не 24е, бо події до початку вторгнення також були важливі). Спочатку я планую зібрати їх у сирому форматі Telegram (TDLib) а потім перевести це у що не будь більш зручне (JSON/CSV/SQL). Можливо також прикріплю фото та відео, але це вже треба буде танцювати з бубнами біля різних S3.
Я б не хотів витрачати час на це, без гарної мотивації (тобто цілі). Якщо у вас є гарна ідея, що з цими даними робити — пишіть в коментарі та якщо мені хоча б щось сподобається — датасету жити!
Умови: все безплатно та йде під ліцензією MIT. БД та результат будуть викладені в open-source. Від мене тільки дані, та документація до них.
P.S. Було б гарно отримати рекомендацію де ці дані зберігати, бо на моїй VDS-ці не так вже й багато місця (від сили 5гб). Було б гарно мати можливість постійно додавати нові повідомлення (я планую постійно оновлювати її, бо чому б і ні). Тобто це мусить бути рішення у хмарі, куди можна постійно пушити дані, але при цьому хто завгодно має read-only доступ.
4 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів