×Закрыть

Про моделювання поширення COVID-19

Пандемія COVID-19, яка зараз має місце у цілому світі, змінює життя багатьох людей і країн. Основне завдання зараз — зрозуміти, що відбувається і знайти шляхи вирішення. Свої зусилля об’єднують спеціалісти із різних галузей. На платформі для Data Scientists Kaggle викладено велику базу даних по COVID-19, організовано конкурс із закликом знайти цінні факти та закономірності у великому об’ємі даних. Спеціалістами пропонується велика кількість різних підходів та моделей щодо прогнозування поширення коронавірусу.

Хотів би викласти деякі свої міркування щодо моделювання поширення коронавірусу. Коли мова заходить про прогнозну аналітику, то часто згадують методи машинного навчання, зокрема, нейронні мережі. Однак, у даному випадку ефективність їхнього використання буде невеликою. Основна причина у тому, що моделі машинного навчання є ефективними у випадку стаціонарних процесів, тобто, передбачається, що майбутні дані, для яких буде здійснюватись прогнозування, описуються таким самим розподілом, як і дані навчальної вибірки. Однак, очевидно, що ріст виявлених випадків коронавірусу є суттєво нестаціонарним процесом. Також, для виявлення складних патернів методами машинного навчання потрібно мати достатньо великі навчальні вибірки із достатньою кількістю інформативних ознак, таких як погодні умови, особливості поведінки у різних регіонах, відвідуваність різних закладів тощо. У даний час такі ознаки аналізуються різними спеціалістами і коли такі дані будуть широко доступні, методи машинного навчання зможуть показати свою ефективність.

Ефективними, на мою думку, є моделі, які поєднують наявні дані та експертні міркування. Це можуть бути параметричні моделі, тобто моделі, які описують процес поширення коронавірусу за допомогою деякої формули із параметрами. Значення цих параметрів мають бути такими, щоб наявні дані описувались вибраною моделлю. У простому випадку, якщо похідна по часу від кількості випадків коронавірусу пропорційна загальній кількості випадків, то розв’язок такого дифрівняння описується експоненційною функцією. У логарифмічних координатах ми отримаємо лінійну залежність, параметри якої можна знайти методом найменших квадратів. Однак, експоненційний характер кількості виявлених випадків може описувати процес лише на деякому часовому проміжку, кількість випадків обмежена кількістю людей, які потенційно можуть підхопити цей вірус. Отже, через певний час пандемія має закінчитись, а кількість випадків має вийти на насичення. Цей процес можна змоделювати за допомогою логістичної кривої.

Важливо також оцінити невизначеність прогнозу, межі змін прогнозованих значень. Одним із ефективних підходів, на нашу думку, є використання байєсівського виведення, які базуються на теоремі Байєса. Методи найменших квадратів дають можливість знайти сталі коефіцієнти для моделей і, відповідно, деяке прогнозоване значення. За допомогою байєсівської регресії можна знайти розподіли для параметрів моделі і відповідно оцінити невизначеність прогнозування, що є важливим при малій кількості даних. Крім того, у підході на основі байєсівського виведення можна врахувати думку експерта через задання експертних інформативних апріорних розподілів для параметрів моделі. Таким чином, результати прогнозування на основі байєсівського виведення можна розглядати як компроміс між історичними даними та експертною думкою, що є важливим для випадків із малою кількістю даних. Модель логістичної кривої може бути ефективною у випадку, коли спостерігається експоненційний ріст виявлених випадків коронавірусу. Байесівську регресійну модель можна записати у вигляді

де Date0 описує дату початку спостереження, час вимірюється в тижнях, параметрами моделі є alpha, beta, t0. Параметр alpha описує максимальне значення виявлених випадків коронавірусу, beta — характер поширення вірусу, t0 — часове зміщення в поширенні коронавірусу.

Розглянемо результати такого моделювання. Для баєсівського виведення використано мову Python у середовищі Jupyter Notebook та пакет Pyspan. Дані для моделювання було взято із Kaggle змагання COVID19 Global Forecasting (Week 2). Скрипт для моделювання поширення коронавірусу викладено на сайті GitHub для вільного використання, його можна завантажити тут. На наступних рисунках наведено результати моделювання поширення коронавірусу для декількох країн.

Отже, як випливає із отриманих результатівв для практичного прогнозування важливо виявити зону максимальних значень кількості виявлених нових випадків за один день. Ця зона відповідає половині процесу поширення коронавірусу. Величина насичення визначається характером кривої, значення якої можуть мати значні похибки. Тому прогнозування кривої при початкових стадіях можуть бути неточними і з появою нових даних можуть змінюватись та уточнюватись. Коефіцієнт beta відображає характер поширення коронавірусу у заданому регіоні. Очевидно, що постійно проводяться різні заходи зі зменшення інтенсивності поширення коронавірусу, тому цей коефіцієнт не є сталим у часі і на різних ділянках кривої поширення коронавірусу він може мати різні значення.

Більше про отримані результати можна знайти тут.


Богдан Павлишенко — Data Scientist в компанії SoftServe, канд.фіз.-мат. наук, докторант факультету електроніки та комп’ютерних наук у Львівському національному університеті імені Івана Франка (LinkedIn).

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Для процесу поширення COVID-19 є характерним великий рівень невизначенності та нестаціонарності. Щоб уникнути ефекту ’перенавчання’ (overfitting), такий процес варто описувати простими моделями. Очевидно, що з появою нових даних параметри таких моделей будуть уточнюватись. Тип функцій для моделювання не вгадується експертами, а є обгрунтованим. Такі функції, зокрема, апроксимують розв’язки дифрівнянь, які описують динаміку аналізованого процесу. Свого часу, я був учасником команди, яка отримала перемогу на одному із змагань Kaggle. Ми використовували складні багаторівневі моделі прогнозування на основі машинного навчання (з нашим розв’язком можна ознайомитись тут ). Однак, в даному випадку такі підходи на основі машинного навчання є малоефективними внаслідок суттєвої настаціонарності процесу і порівняно малої кількості даних. Я виклав для вільного використання скріпти, які моделюють процес поширення COVID-19 на основі байесівської регресії і з допомогою них можна знайти уточнюючі прогнози з появою нових даних. Щодо критики, то хотілось би почути думки по викладеному мною матеріалу в рамках заданої тематики, без голослівних тверджень.

dou.ua/...​ign=reply-comment#1820825

У тебя не моделирование, а по сути натягивание некоторого распределения из стандартных на данные (сильно утрирую). Аналогично корреляции количества мух на котлетах с количеством самолетов в странах.

Розглянутий мною підхід, зокрема використання логістичної кривої є одним із найбільш широковживаних на даний час для моделювання поширення COVID-19, у моїй статті в репозиторії є відповідні посилання на ресурси де можна знайти опис таких підходів. На чому, крім власного переконання, базуються Ваші, мягко кажучи, іронічні коментарі ?

Выше ссылка. От нее сможешь найти статьи про полноценные попытки моделирования распространения эпидемий и какие модели на данный момент в мире уже разработаны.

Наведений Вами відеокліп є лише наочною демонстрацією епідеміологічного процесу, який описується SIR-моделью. Різні епідеміологічні моделі описуються системами дифрівнянь, розв’язки яких можуть апроксимуватись логістичними кривими. Саме такий підхід із використанням логістичної кривої і реалізований мною. В чому Ви бачите суперечність ?

Різні епідеміологічні моделі описуються системами дифрівнянь, розв’язки яких можуть апроксимуватись логістичними кривими.

Эту часть я уже из примата не помню. Если так, то наехал на тебя я немного зря.
Но тогда в статье выше ты должен был указать какие из общепринятых моделей ты аппроксимируешь выше.
А в выводах добавить результаты оценки параметров модели из дифур.

В итоге по твоей работе можно было бы прогнозировать дальнейшую ситуацию развития пандемии.

Бывает ложь, наглая ложь, и статистика

Выше ни одно из 3 трех, а просто натянутая на кактус сова и не более.

У реальному світі забагато «випадковостей», щоб прогнози працювали. Моделям подобається стабільність.

Выше не прогнозы, а слепленное на коленке нечто и не более с красивыми графиками для хомячков.

Майже завжди, коли хтось говорить про моделювання, за фактом використовуються лише різні методи апроксимації та відгадування кривої. Ми ще дуже далеко від моделювання.

Майже завжди, коли хтось говорить про моделювання, за фактом використовуються лише

упрощённое представление действительности, по тому что достоверного представления действительности ещё не изобрели.

Вот это уже правильное моделирование. Если добавить в него расслоение общества, будет вообще вкусняшка. А именно — железобетонное научное обоснование, что КЛАССОВОЕ деление общества работает куда лучше карантинных мер по территории. А ограничение больших территорий — не просто не работает, оно само есть катастрофа.

Почему так: классовое деление позволяет сохранить живой экономику. Например, чтобы побороть туберкулёз, нужно заниматься маргиналами, а не перекрывать города.

То же самое, кстати, касается преступности: нужно синхронизировать войну с нею, а не ограничивать преступные анклавы территориально. В последнем случае это и есть катастрофа — рост экспоненциальный, а прорывы неизбежны. Мало того, как и всё человеческое, преступный бизнес прекрасно притворяется чем угодно, тем самым вызывая реакцию на весь остальной бизнес как на преступный — что снова ж таки на руку мафии.

Кстати, на 8:34 прекраснейшее доказательство, что Украину ждёт тотальное заражение. А в Беларуси задница неизбежна уже. Вопрос только в сезонности заразы, и её более лёгком течении летом (что кстати повышает скорость распространения).

На 10:20 — доказательство МАРАЗМА перекрытия границ, что по областям, что по странам. Нужно синхронизировать меры изоляции, а не перекрывать границы.

В общем, 23 минуты видео доказывает факт: Результаты действий известны заранее, а то что творит власть — в высшей мере преступно. Тупо зачищают старое население.

Задница в чем именно, что помрет чуть больше, чем в прошлом году или помрет много от возврата в 90-е?
Ты же как бы не снежинка и жил в 90-х уже в сознательном возрасте и должен помнить сколько народа померло (не от инфекций, а от убийств). В Минске «Северное» кладбище именно в 90-е по плешку заполнили — не успевали там территорию расширять для потока трупов.

Лично я лучше помру от пневмонии, чем вернусь обратно в 90-е.

Задница в том, что будет зачистка от стариков по африканскому сценарию. И ни малейших подвижек в сторону реальных ПРАВОВЫХ процессов, которые могут остановить то что будет после этого.

Отравление властью — проблема любой авторитарной структуры. Не нужно даже масштабов страны, она и в группе на 30+ человек становится осиновым колом, и даже от 4 человек имеет место. Необходимо и достаточно, чтобы одного человека считали источником истины, то есть что он не может ошибаться — и этой презумпции хватает чтобы развалить любую систему

Правовая система — это то самое дистанцирование, позволяющее не возникать эффектам домино и пожарам. Но этот навык должен быть проинсталлирован на уровне начальной школы. А именно: умение играть по правилам не столько в разных социальных слоях, а прежде всего в их пограничных зонах. Тогда эти самые зоны становятся зонами роста, а не зонами деградации. А зона роста — это самая низовая из институций, которая может работать даже в правовом вакууме, и собственно говоря должна в нём культивироваться, иначе деградирует сама. Разумеется это институция конфликта, она двойственна по своей природе и деструктивна по своей идее — она нужна чтобы ломать границы и строить собственные.

А можешь чуть меньше теоретизировать?

Задница в том, что будет зачистка от стариков по африканскому сценарию.

Нет, в 90-е наравне со стариками и молодежь выносилась ногами вперед в больших количествах. Выжили большей частью те, кто уже не молодежь, но еще не дохлые старики. Именно тот самый носитель совковой идеологии, кто привык, что за ним государство присмотрит, а если не присмотрит, то на бульбе с дачи протянет как-то.

Подписаться на комментарии