Искусственный интеллект в медицине: тренды и возможности

[Об авторе: Наталия Сиромаха, директор по инжинирингу GlobalLogic. Имеет в своем портфолио широкий спектр проектов от healthcare до security в Украине, США, Канаде. Лидер инновационной лаборатории BrainMade в GlobalLogic. Занимается развитием бизнеса в харьковском офисе компании, где уже более 4 лет возглавляет медицинские проекты и управляет распределенным командами]

Эта статья подготовлена на основе доклада Наталии Сиромахи на Outsource People Kyiv 2017.

Индустрия здравоохранения — одна из самых быстрорастущих в мире. Ученые прогнозируют, что к 2030 году персонализированная медицина с использованием augmented artificial intelligence системы уже станет реальностью, а еще через 5 лет появятся первые больницы без докторов. О том, какие тренды формируют эту сферу сегодня, специфике работы с данными в медицине и о таймлайне использования AI в будущем, вы можете прочитать моей статье.

Тренды в мировой медицине

Сегодня в медицинской индустрии сформировался ряд трендов, которые влияют не только на работу крупных корпораций, страховых компаний и клиник, но и на жизнь каждого из нас. Работая над медицинскими проектами в IT-компании, мы внимательно отслеживаем любые изменения в медицине. Это помогает нам создавать наиболее эффективные решения, которые позволят улучшить качество жизни людей.

Один из ключевых трендов медицины — постоянный рост затрат на лечение пациентов. Этому есть несколько причин:

  • рост стоимости лекарств, оборудования;
  • увеличение стоимости медицинских услуг;
  • изменение количества и интенсивности используемых услуг (из-за того, что слишком поздно выявлено заболевание или неправильно определено лечение, необходимо больше визитов к врачу и больше дополнительных обследований).

Инвестиционные компании и компании медицинской индустрии заинтересованы в том, чтобы снижать стоимость лечения и услуг. Каким образом это осуществляется?

Во-первых, внедрение индивидуального подхода к лечению. Это возможность улучшить качество лечения, используя несколько методов:

  • отслеживать состояние пациента, собирать данные о нем;
  • делать удаленное обследование с помощью девайсов, которые передают состояние пациента;
  • возможность создать индивидуальный план лечения каждого пациента;
  • ранняя диагностика.

Во-вторых, более широкое внедрение generic лекарств. Ранняя диагностика позволяет использовать общедоступные, недорогие лекарства в протоколах лечения, а не специфичные и дорогостоящие. С другой стороны, фармацевтические компании проводят комплексные клинические исследования для вывода новых медикаментов на рынок. Процедура исследований многоэтапна, занимает несколько лет и требует значительных инвестиций. Таким образом, generic лекарства станут решением, которое поможет сократить издержки компаний на вывод новых узкоспециализированных лекарств на рынок.

Также важное направление — использование вспомогательного персонала для консультаций пациентов. Таким образом экономится время врачей. Медсестер привлекают для первичной оценки состояния пациента, выявления аномалий в результатах диагностики. Более того, проработка схем и алгоритмов лечения, создание анкет-опросников позволяет помочь немедицинскому персоналу определить состояние пациента и принять решение, нужна ли ему консультация доктора или нет. Эти же алгоритмы позволяют внедрять ботов для обработки первоначальных запросов от пациентов.

Возможности и применение AI в медицине

Системы artificial intelligence уже сегодня проходят испытательные применения, а в некоторых западных странах даже успешно используются.

Согласно исследованию Anand Rao «A Strategist’s Guide to Artificial Intelligence», вспомогательные системы (assisted systems) станут коммерчески доступны и будут активно использоваться к 2020 году. Так, системы image classification помогают врачу проводить качественную диагностику с минимальными затратами времени. Сейчас классификацию медицинских изображений и описание снимков делают рентгенологи, УЗИ-специалисты и др. Анализ снимков уже может быть осуществлен с использованием искусственного интеллекта автоматически.

С помощью искусственного интеллекта определяются пациенты группы риска. Этим пациентам доктор уделяет внимание в первую очередь. Таким образом, значительно экономится время и минимизируется возможность ошибки докторов. Например, есть программы для выявления меланомы.

Регулярно человечество сталкивается с эпидемиями. Многие наслышаны про Эбола, малярию и другие вспышки заболеваний, которые передаются как насекомыми, так и через воду. Система искусственного интеллекта, позволяющая контролировать и предсказывать эпидемии, находится в статусе клинических исследований, но уже использовалась и работает в Африке.

Сбор информации происходит при помощи дронов. Они фактически вылавливают комаров, анализируют их ДНК и дают прогноз: где и когда будет следующая эпидемия, — после чего происходит обработка территории риска. Такие системы позволяют предотвратить неконтролируемые вспышки эпидемий.

Дальнейшее развитие искусственного интеллекта приведет к использованию augmented artificial intelligence систем. Эти системы открывают нам новые возможности. Например, с высокой скоростью классифицировать снимки МРТ без вмешательства человека. Также создать персонифицированное лекарство и эффективное лечение на основе конкретных данных пациента — анализов и реакции на химические вещества. По прогнозам, такая услуга будет доступна для массового использования к 2030 году.

К 2035 году ожидается появление больниц без докторов. Это пример автономного искусственного интеллекта, когда система сама принимает решения. Да, конечно, доктора будут все еще нужны, но для каких-то простых кейсов будут доступны вышеописанные возможности AI.

Специфика работы с данными в медицине

В медицинской сфере все данные защищены: информация о каждом пациенте секретна и защищается законом и директивами HIPAA, GDPR. Клиники, исследовательские институты и компании не имеют права их распространять, передавать третьим лицам. Соответственно, есть определенные сложности, с которыми мы сталкиваемся в работе с медицинскими гигантами.

C точки зрения HIPAA, GDPR и защиты персональных данных мы должны обеспечивать защиту от утечки информации наших клиентов из медицинской индустрии. Соблюдение требований этих протоколов — неотъемлемая часть наших медицинских проектов.

Для того, чтобы прорабатывать какие-то модели, не в рамках коммерческих проектов, мы используем публичные деперсонифицированные базы данных. Существуют системы и ассоциации, которые позволяют использовать эти данные. Например, ассоциация по лечению рака. Мы можем использовать их открытую базу данных с уже деперсонифицированной информацией для создания прототипов и моделей систем.

Кроме того, у нас в компании есть специалисты, которые отслеживают, как мы работаем с данными, обеспечивают их защиту. Также у нас налажен процесс деперсонификации данных. Есть отдельные специалисты по этому направлению, которые обрабатывают базы для дальнейшего создания систем искусственного интеллекта.

Примеры использования AI в проектах

Когда человек болен диабетом, у него достаточно большой риск ослепнуть. Это заболевание называется ретинопатия. У нас было 11 367 снимков ретины глаза человека. Основываясь на этих данных, мы создали систему, которая позволяет определять вероятность этого заболевания, стадию, а также диагностировать его на раннем этапе. На данный момент точность составляет 60%. Это не идеальный показатель, но он получен на базе публичных данных. Такая система — пример assisted system. Она помогает врачу классифицировать больных по риску заболевания, и он принимает окончательное решение.

Мы использовали Google TensorFlow. Система работает на основе Convolutional Neural Network, OpenCV, языки — Python, JavaScript.

Следующая наша система — определение меланомы и классификация болезней кожи. Мы тоже использовали Google TensorFlow. Она помогает врачу принять решение о лечении пациента благодаря автоматической сортировке этих изображений без участия человека. Изначально мы использовали тестовые данные, на которых система училась принимать решения. Теперь, после загрузки снимка пациента, она выдает информацию и показатель вероятности возникновения заболевания.

Технологии, которые были использованы в этом случае: Convolutional Neural Network, OpenCV и Pre-trained модель ResNet. Pre-trained модель позволила нам ускорить процесс обучения и выйти на показатель в 75-80% точности. Для этого в базе должно быть не меньше 10-15 тыс. изображений. Чем больше изображений — тем более правильна модель. Каждая модель отрабатывается и обучается в несколько циклов. Она выстраивается, потом загружается новый сет данных, ее обучают и корректируют.

Итоги

Развитие современной медицины невозможно представить без внедрения IT-технологий. Цифровая трансформация постепенно захватывает все индустрии мира, помогая решать проблемы, которые стоят на пути их развития. Текущие тенденции в сфере здравоохранения привели к увеличению спроса и, соответственно, инвестиций в развитие решений с использованием искусственного интеллекта и Data Science.

Персональные данные пациентов, которые необходимы для работы IT-компаний, являются конфиденциальной информацией и регулируются такими нормативно-правовыми актами, как HIPPA и GDPR. Соблюдая требования международных директив, IT-компании используют исключительно деперсонифицированные данные и процесс работы с ними строго контролируется.

В целом работа над проектами в медицине достаточно сложна, ведь помимо навыков разработчика, необходимо иметь знания в медицине и смежных науках. Поэтому непрерывное обучение — ключевой навык для члена команды разработчиков в проектах медицинской сферы.

LinkedIn

45 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

А где взяли

Pre-trained модель

, open source ?

Дженерики — это хорошо, но есть прецеденты, когда фармацевтические компании переставали производить лекарство, как только патент на него заканчивался.

Вопрос к GlobalLogic, как к аутсорс компании: насколько ваша команда вообще влияет на проект? Всё сводится к тому что «заказчик сказал — мы пилим», или есть также исследовательский аспект? Хочется верить, что хотя бы что-то среднее, но стереотипы не дают возможности порадоваться, т.к. условные «галеры» по идее вообще никак не заинтересованы ни в медицине, ни в ИИ.

В таких задачах без исследовательской части не возможно, но учитывая, что это коммерческий заказ это и близко не полноценная исследовательская работа в академическом стиле, исследовательская часть сильно зажата.
И по большому счету это большая проблема для разрабов. К концу проекта ты только подбираешься к чему-то новому, появляются идеи, как сделать еще лучше и тут все заканчивается и ты должен уходить в другую область и бросать эту.
В итоге начинаешь воспринимать себя таким подтирателем жоп и это сильно бъет по эффективности твой работы, глаза потухают.

А галеры, пытаются успеть заскочить на уходящий поезд.

Системы artificial intelligence уже сегодня проходят испытательные применения, а в некоторых западных странах даже успешно используются.
Текущие тенденции в сфере здравоохранения привели к увеличению спроса и, соответственно, инвестиций в развитие решений с использованием искусственного интеллекта и Data Science.

Такое ощущение, что автор раньше гос чиновником работала.

Большое спасибо за статью. Два вопроса:
1. Используются ли ваши наработки в реальных клиниках?
2. Создаёте ли вы такие решения в рамках бюджета компании как продукт или делаете их под чей-то заказ?

Алекс, забудь ты про эти АИ, ты лучше помоги увеличить лимит размера MS SQL базы на обычном гоудади виндовом хостинге, 200 мегобайт кап — это же ппц, а не условие!

Это не ко мне, это к бизнесам :)) Моя задача — фичи пилить :)

да, надежды мало) единственный вариант — апелировать в суд по правам человека в Гааге за жестокое обращение с клиентами))

Как насчет купить хостинг дороже?)Плюс vps например свой поднять можно. Все ж таки классические хостинг пакеты в основном рассчитаны на небольшие сайты для малого и среднего бизнеса, где обычно не нужна куча места на харде, и на них явно не поднимешь сколько нагруженный сервак. Да и вообще сейчас разных предложений на рынке много разных.

В наше время иметь ограничение на базу в 200 мегабайт — это средневековье имхо, какой бы уровень хостинга не был
но да, буду от них валить, просто хотелось решить вопрос по ленивому, не выходит, носятся как ***** со своими 200 метрами, а тем временем я из контрольной панели могу видеть названия всех баз других клиентов на том же инстансе шаред сервера, тоже мне секьюрность

Ну как сказал товарищ выше, ценовая политика это к вопрос к бизнесу и менеджменту, задача же разработчиков фичи пилить

с помощью девайсов

Правильно говорить «с хелпом девайсов». В крайнем случае, «с ассистансом девайсов».

День искуственного интелекта на ДОу dou.ua/forums/topic/22445

В мировой медицине AI очень ок
А у нас во многих клиниках ещё на печатных машинах врачи диагноз печатают

Уже на печатных? В РБ еще от руки пишут чаще всего.

Тут є позитивні зміни і очікування: ось що пише про IT-складову медичної реформи у себе в ФБ Володимир Залізняк:

Архитектура:
  • Общее ядро API. Минимально-возможное количество кода, которое из центра вынести нельзя. Общая база. Весь код — опенсорс.
  • 10+ коммерческих стартапов, которые делают веб-интерфейс к этому API.
    В результате — уменьшение коррупционных рисков, конкуренция, лучшая адаптация к особым условиям, например «коммерческая поликлиника» vs «врач в сельской местности с плохим инетом»
Общался с:
  • Врач-терапевт-технарь. Читает на англ, в курсе новинок и медицины, и IT-медицины в разных странах. Полтора года назад для нужд своего отделения сделал БД на Access для хранения карточек/анализов и т.д. 150 таблиц. В первую очередь он таки терапевт, а уже потом программист и менеджер.
  • Yaroslav Ivanenko из Helsi — одна из веб-интерфейсов к API.
  • Катерина Макаренко из центрального API

Я процитував тільки айтішну частину посту Володимира; за посиланням вище цікавого ще більше.

Яким чином оцінювалася точність?
Яким чином було розділення даних на вибірки?
Модель навчали з нуля чи використовувати попередньо навчену модель для transfer learning?

Neutral Network

це яка така нейтрайльна мережа?

Примеры использования AI в проектах

Ця частина статті схожа на звіт по Л.Р. студента КПІ. Якраз найцікавішу частину зробили найкоротшою і без деталей і посилань на дані.

Якраз найцікавішу частину зробили найкоротшою

100% — уяви, комусь може бути щодо цього ще прикріше: я точно знаю, де там має бути пара посилань на ті проекти, в яких я скромно допомогав як фрон-енд розробник, і я точно знаю, чому ми поки що не можемо ці проекти показати. На жаль.

Пожалуйста обратите внимание, что в статье мы привели примеры прототипов, тк мы не можем разглашать конфиденциальную информацию по реальным проектам.
Данные делили 70 на 30, а точность получена на тестовых данных, причем сбалансированных, так что recall и precision так же высоки. Это, кстати, одна из самых серьезных задач в процессе работы с подобными данными.
Для модели использовали конечно Transfer Learning, в том числе провели достаточно много экспериментов с количеством слоев для обучения.
Сейчас используем Inception V3 где 172 слоя заморожены, а остальные дообучали.

Дякую за уточнення.

но он получен на базе публичных данных

Ви вказали, що використовуєте публічну вибірку даних, можете сказати яку саме?

Т.е. не можете разглашать информацию о внедрении и том, где ваша разработка уже применена в реальном мире? Принесла-ли она пользу уже или не сработало и от внедрения отказались?
Вы какой-то рабовладельческий контракт подписали.

Основываясь на этих данных, мы создали систему, которая позволяет определять вероятность этого заболевания, стадию, а также диагностировать его на раннем этапе. На данный момент точность составляет 60%.

60%?? это «может быть, а может и не быть»?
мне интересно какой иск впаяют клинике, в которой врач задержится с постановкой диагноза только потому что машина понизила приоритет пациента — основываясь на модели с 60-80% точности.
это как машины-автопилоты. для массового применения точность должна быть ~98%

мда... чет ты вообще не то понял.
Это определение фактора риска развития болезни, а не самой болезни
Раньше вероятность была 0. Теперь 60%.
Это значит что с вероятностью 60% машина может впаять тебе «Риск» если ты действительно заболеешь этим. Может ошибиться и впаять «Риск», если не заболеешь. В обоих случаях, лучше изменить лечение так чтобы избежать прогресии этого вида болезни.
Точности никто тебе не даст, это нереально, можно найти корреляцию. А это, товарищ, если больше 30%, при 60% это уже рабочий продукт.

Мені чомусь здається, що це точність класифікації картинки до одного з класів: «ретинопатия» і «здоровий». Якщо класи повністю збалансовані, то просте віднесення картинок до одного з класів дасть точність ~50%.

Але без якихось технічних деталей в статті, мої здогадки можуть бути геть неправильними.

Основываясь на этих данных, мы создали систему, которая позволяет определять вероятность этого заболевания, стадию, а также диагностировать его на раннем этапе. На данный момент точность составляет 60%.

как-раз таки саму болезнь судя по тексту.

и что значит фактор риска вообще... риск дело абстрактное, чтобы его посчитать заранее, нужен другой инпут... типа твоего днк или истории развития диабета и нынешней диеты и пр.

а тут на входе это снимок — там либо процесс уже пошел либо еще нет. степень процесса (стадию) оно тоже выдает, логично. чем больше процесс тем выход ближе к 1.
0 — нету признаков болезни, 1 — классическая форма.
ну я так понял, я бы так делал :) по другому не представляю как.

Когда человек болен диабетом, у него достаточно большой риск ослепнуть. Это заболевание называется ретинопатия. У нас было 11 367 снимков ретины глаза человека. Основываясь на этих данных, мы создали систему, которая позволяет определять вероятность этого заболевания, стадию, а также диагностировать его на раннем этапе. На данный момент точность составляет 60%.

Давайте подчеркнем нужное.

у него достаточно большой риск ослепнуть
определять вероятность этого заболевания, а также диагностировать его на раннем этапе

Диагностировать на раннем этапе ЛИБО определить вероятность *проявления* заболевание. Т.е. риск того что человек заболеет.

На данный момент точность составляет 60%

Раньше 0%, теперь с вероятностью в 60% можно сказать, что человек *возможно* этим заболеет. Подправить лечение, чтобы обойти возможные последствия.

чтобы его посчитать заранее, нужен другой инпут... типа твоего днк или истории развития диабета и нынешней диеты и пр.

Нет, это неверно

а тут на входе это снимок — там либо процесс уже пошел либо еще нет

Либо уже пошел
либо может пойти
либо может не пойти
либо его нет.
То что ты суслика не видишь, не значит что его нет. Дырки в земле есть, а значит суслик может быть. А может и в лес убежать.

нет противоречия:
Либо уже пошел — 1
либо может пойти — 0.75
либо может не пойти — 0.25
либо его нет. — 0
коэффициенты можно расставить по своему усмотрению :)

мы не знаем что именно сделали авторы, что ты защищаешь я не пойму.
я просто предположил самое тривиальное и логичное, пропустив выборку ИИ стартапов через ЕИ лол.

мой поинт был в том, что официально использовать такие тулзы докторам в реальной практике будет очень стремно в USA. не дай бог отсортируешь пациентов по этому критерию и это всплывет — капец будет и доктору и клинике.

PS: а вон собсно и автор выше ответила, что в реале доводят точность до 90%. значит это распознавание болезни по снимку, а не какой не мифический риск.

Если они сами это делали, то скорее всего это accuracy на какой-то базе. Но вот про recall она и не упомянула. А вообще могла написать 4 стандартных параметра TP, FP, FN, FP и остальное каждый сам бы посчитал с помощью вики. Но вопрос по базе всё одно завис. Не известно насколько результаты на их базе применимы в реальности.

И вообще, лучше бы статьи такие давали писать специалистам, а не пиарщикам. Пиарщики могли бы просто причесать.

Ну ще непогано було б дізнатися більше деталей по вибірці даних: яким чином її розділили на тестову, навчальну та валідаційну, який там баланс класів і т.д.

Вот Confusion matrix, это один из результатов, тестовая выборка.
[[645 88 35]
[ 54 835 6]
[ 28 36 260]]
Можно пользоваться вики и получать любой параметр :)

Сразу отвечу на вопрос, что в процессе аргументации датасета было учтено, чтобы в тестовую выборку не попали результаты из тренировочной.
Кроме этого, этими данными есть проблема, что встречаются еще базы данных, но там бывают те же картинки, чтобы минимизировать риски повторного попадания данных мы использовали хешерование картинок и учитывали его.

Вот если бы это все было указано в статье выше, читать было бы сильно интереснее. И не зачем приводить по одному тесту, можно было просто усредненные данные по всем указать.
ну и по твой матрице 3 кластера, но это уже нюансы и к статье отношения не имеют.
Достаточно обычно две оценки точность и полноту указывать, например (специально русскоязычный вариант использую, в подобных статьях злоупотреблять англоязычными терминами некрасиво, при наличии местных). Просто одна без другой мало что говорят о качестве.
Очень интересно было бы краткое описание по сбору баз, по их нахождению, разметке.
Дальше в статье хорошо бы смотрелась часть о внедрении и о том, что используется в реальном мире ваша разработка. Она же не академическая, поэтому сравнительный анализ не нужен.
Описать более развернуто подходы, а не просто 5 аббревиатурами и названиями нескольких либ. Кратко указать наиболее интересные сложности с которыми столкнулись, и как решили, на уровне подходов, детализация с формулами не нужна.

Т.е. большинство претензий здесь не к тому, что вы сделали, а к тому, как это сделанное описано ТС.

З.Ы. Я, например, знаю, что вы много интересного делаете или планируете делать, но на будущее, если делаете статью по сделанному, делайте ее качественно, не относитесь к нам здесь, как к говну.

Я бы все таки обратил внимание на название статьи. По итогам конференции описаны тренды медицины и некое видение путей развития. Хорошая и популярная тема для дискуссий.
Но разве было где-то в заголовке, технические детали построения системы? Я бы предложил это все таки рассматривать, как некий вижин с достаточно большого расстояния.
Так что очень рекомендую не рассматривать данную статью, как рекомендации по технической разработке ;)

Что касается русских или английских терминов, то тут вопрос уж совсем спорный, у нас все на английском, иногда перевести термин — приходиться прилагать усилия, я вот начал думать, а как же перевести Confusion Matrix, открыл вики en.wikipedia.org/wiki/Confusion_matrix, а там нет даже русского языка.

Посмотрел польский вариант Tablica pomyłek
Наверное правильно будет матрица ошибок :D

Этот термин я видел только в оригинале, иногда переводят, как матрица невязок.
Просто хочется читать интересные статьи, а не просто рекламный балшит.
И никто не просит тут технических рекомендаций, но сложные моменты и их решения делают статью интереснее.
Ну и про confusion matrix не обязательно, достаточно точность и полноту привести или кратко объяснить своими словами про точность и полноту. К этим двум величинам уже большинство привыкло. Давно раньше указывали ошибки первого и второго рода, но это не очень понятно людям, кто не в теме.
А с техническими вопросами, достаточно было указать, что на основе сверточных сетей сделали, но зачем указывать OpenCV — это просто одна из либ и наиболее массово используемая. Она вообще ничего не говорит.

Если же это статья без технических моментов, то тогда нужно писать о внедрении о результатах внедрения и подобное.

Пока же получился балшит в стиле чиновника.
И критикуя потому что хочется читать интересно и квалифицированно написанные статьи.

Виктор, спасибо Вам большое за конструктивную обратную связь и даже за предложения для новой, более технической статьи. Как верно заметил Игорь, статья была написана по итогам выступления Натальи на Outsource People 2017. Увы, материалы подобных конференций и форумов обычно закрыты для распространения. Мы же решили поделиться выступлением Наташи хотя бы в такой форме, почему бы и нет? Судя по завязавшейся дискуссии — тема более чем интересная. И еще раз спасибо за фидбек!

Тема интересная и очень и многое понятно и без статеек, где и что можно применить. Но, эта область насколько коррумпирована и зарегулирована в мире, что в нее просто невозможно нос засунуть.
Вот и интересно, как вы решили эту сложность, например.

Вот простейший пример, как уменьшить количество механической работы при исследовании кардиограмм. Сейчас в ML есть все инструменты, что бы достаточно точно классифицировать кардиограммы и для обработки врачами оставить процентов 5 неклассифицируемых. Но, даже сделав это ты просто не всунешься в медицину.

Мы привели примеры прототипов, тк мы не можем разглашать конфиденциальную информацию по реальным проектам. Конечно в рабочих системах точность выводится минимум к 90%

Это она так криво написала. Это не вероятность, это так называемая точность (accuracy — в вики найдешь, как понимать этот термин), полученная на тестовой базе.

должна быть ~98%

Это уже из области фантастики. Да и часто в реальности нафиг не надо.

Но именно кривизна писанины ТС так всех и запутала.

мы имеем в Киеве группу об AI в медицине, наше последнее событие: www.facebook.com/...​s/1563352597086879/?ti=cl

Спасибо, очень интересная статья. Надеюсь, термин «компьютерная диагностика» еще не слишком дискредитирован, сможет изменить свое значение, и пациенты захотят платить не только за маркетинг, желая использовать информационные технологии и вообще новое в науке при диагностике и лечении. :)

Подписаться на комментарии