ВВЕДЕНИЕ
Системы искусственного интеллекта (СИИ), применяемые в здравоохранении России, в основном, – это автоматически обучаемые системы (системы машинного обучения). При правильно выбранном математическом аппарате и методе обучения результат обучения всецело зависит от качества обучающей выборки – набора структурированных оцифрованных медицинских данных (датасета). Обеспечить требуемое качество данных возможно только в случае правильной организации процессов сбора и предварительной подготовки данных. Этой проблеме посвящена настоящая работа.
МАТЕРИАЛЫ И МЕТОДЫ
Основной акцент делается на необходимости создания единого федерального стандарта сбора структурированных оцифрованных медицинских данных, позволяющего унифицировать процессы сбора и формирования датасетов для медицинских организаций.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Необходимость совершенствования сбора и подготовки данных для машинного обучения в здравоохранении
В отрасли здравоохранения для развития СИИ и систем поддержки принятия врачебных решений (СППВР) в первую очередь необходимы качественные датасеты из структурированных оцифрованных медицинских данных с максимальной полнотой охвата набора признаков распознавания, результирующих классов распознаваемых образов, первичных источников данных, результатов решений задач распознавания экспертами, потоков сбора, обработки и выдачи информации.
В этой связи должна быть выстроена логическая цепочка: структурированные оцифрованные медицинские данные – качественные датасеты – ИИ (СППВР) (рис. 1). Сейчас у нас существенный ряд проблем в первом, а соответственно и втором этапах, являющихся фундаментом всего.

Рис. 1. Этапность развития СИИ для здравоохранения
Fig. 1. Stages of development of AI for healthcareДанные для принятия организационно-управленческих решений как в отдельных медицинских организациях, так и по отрасли в целом (медицинские транзакции, факты выполненных работ и расходования ресурсов) оцифрованы и присутствуют во всех медицинских информационных системах (МИС). А данные для врачебных решений в ходе процесса диагностики, маршрутизации и лечения пациентов (жалобы, анамнез, результаты осмотра врача) оцифрованы частично, присутствуют в МИС в основном в текстовом неструктурированном формате, включая:
- МКБ–Х – оцифровано, предстоит переход на МКБ-XI;
- Лабораторные данные – в основном, цифровые, автоматически получаются из лабораторного оборудования;
- Данные диагностических исследований – частично, только из цифровых диагностических систем;
- Морфология – оцифровка в начале пути;
- Описание осмотра врача – частично структурировано, в большей части текстовый формат;
- Жалобы и анамнез пациента – текстовый формат. В настоящее время практически все, что говорит пациент и видит врач на амбулаторном приеме вводится в медицинские информационные системы в сокращенном текстовом формате и не может непосредственно без потерь и искажений использоваться для цифровой обработки. Необходим полноценный структурированный цифровой медицинский профиль пациента;
- Клинические рекомендации – оцифрованы частично.
Единый Федеральный стандарт сбора медицинских данных
Для развития и массового применения СИИ в здравоохранении РФ важно построить систему сбора структурированных и оцифрованных медицинских данных, начиная с анамнеза, жалоб и данных осмотра врача. При этом требуется строить ее не в рамках одной МИС для одной или нескольких МО или регионов, а создать и внедрить единый федеральный стандарт (формат данных, протокол информационного обмена и регламент сбора) для всех программно-информационных и программно-аппаратных медицинских систем страны (МИС МО и других). Тогда становится возможной унификация процессов сбора данных и формирования качественных датасетов для любой медицинской организации в строящемся сейчас домене «Здравоохранение». И вооруженные системами искусственного интеллекта врачи всех регионов смогут читать и использовать их.
В настоящее время получение качественных наборов данных для СИИ является крайне сложной задачей. Как правило, создание наборов данных осуществляется ретроспективно и на основе данных реальной клинической практики (ДРКП, RWD). На рисунке 2 зеленым отмечены структурированные области данных и желтым не оцифрованные. Датасеты, где собрана информация о лечении, очень часто не соответствующем клиническим рекомендациям, к качественной работе систем ИИ не приведут.

Рис. 2. Информационные потоки при формировании наборов данных для машинного обучения
Fig. 2. Information flows when generating data sets for machine learningРеинжиниринг сбора медицинских данных
При разработке и внедрении комплексной стандартизованной системы структурирования и оцифровки медицинских данных, наборы данных необходимо формировать проспективно с первого дня внедрения, последовательно и полноценно. При широком внедрении процесс сбора необходимых и достаточных для обучения СИИ объёмов данных может быть очень быстрым. На таких базах данных со временем можно будет строить и многофункциональные системы ИИ.
При этом появляется еще одна важная задача: реинжиниринг сбора медицинских данных [1]. Сейчас это делает врач, который является единственным источником данных о здоровье пациента в МИС. Только врач своими руками вводит все данные в МИС, что требует больших затрат времени и приводит к низкому качеству собираемой информации. Необходимо привлечь к этому процессу население – пациентов через имеющийся практически у всех гаджеты, персональные медицинских помощники, носимые устройства и т.п. (рис. 3).
Практически у всего населения есть смартфоны, которые должны стать цифровым инструментом врача в руках пациента. Например, рассмотрим идею создания и внедрения доврачебных диагностических опросников [2] в мобильном приложении, программе на компьютере или терминале в поликлинике.
В результате внедрения приложения с доврачебными диагностическими опросниками можно ожидать следующих эффектов:
- Для врача:
- снижение нагрузки и оптимизация приема за счет сокращения на 3-5 минут (порядка 30%) времени опроса и ввода данных в МИС;
- обеспечение необходимой полноты информации для принятия врачебных решений;
- предоставление возможности дистанционного получения данных пациента;
- обеспечение средствами удаленного мониторинга пациентов в режиме 24/7 с обратной связью.
- Для пациента:
- возможность быстрого и удобного обращения к врачу;
- безопасное хранение своих медицинских данных в облаке;
- предоставление доступа к данным медицинским работникам;
- удаленная эффективная коммуникация с врачом;
- возможность даже при амбулаторном лечении находиться под постоянным контролем медиков.
Единый состав доврачебных диагностических опросников в мобильных приложениях для различных МИС может позволить использовать эту информацию в федеральном масштабе (рис. 4).

Рис. 3. Сбор медицинских данных от пациентов с помощью персональных медицинских помощников
Fig. 3. Collecting medical data from patients using personal medical assistantsСледующее средство автоматизации сбора структурированных данных – приложение «Врачебный осмотр». Такой стандартизованные модуль для любой МИС домена «Здравоохранение» значительно снизит издержки врача на заполнение первичной медицинской документации. Программное обеспечение позволит практически исключить работу с клавиатурой, основными инструментами ввода данных сделать сенсорную панель, мышь и микрофон.
Предлагаемый подход формирует семейство цифровых помощников, автоматизирующих процесс сбора первичных актуальных структурированных медицинских данных на всех этапах амбулаторной медицинской помощи (табл. 1).

Рис. 4. Схема сбора структурированных данных с помощью программных приложений «Доврачебный опросник» и «Врачебный осмотр»
Fig. 4. Scheme for collecting structured data using the software applications «Pre-medical Questionnaire» and «Medical Examination»
Таблица 1. Цифровая Поддержка амбулаторной медицинской Помощи
Table 1. Digital support for outpatient medical careЭТАПЫ АМП ЦИФРОВАЯ ПОДДЕРЖКА ПАЦИЕНТ ВРАЧ ЦИФРОВАЯ ПОДДЕРЖКА Подготовка визита к врачу Доврачебный диагностический опросник в мобильном приложении/ терминале в регистратуре Заполнение доврачебного диагностического опросника по профилю врача СППВР – Диагностические гипотезы – 1 (на базе результатов доврачебного диагностического опросника) Прием врача первичный Визит к врачу +Врачебный осмотр +Установка предварительного диагноза
+Программа дообследованияЦифровой помощник – «Врачебный осмотр»
СППВР – Диагностические гипотезы – 2 (+ данные врачебного осмотра)
СППВР – Клинические рекомендации по программе диагностики (выбор из возможных вариантов)Дообследование Диагностические процедуры Системы ИИ Прием врача повторный Визит к врачу +Установка диагноза
+Назначение леченияСППВР – Диагностические гипотезы – 3 (+ лабораторные и диагностические данные).
СППВР – Клинические рекомендации по протоколам лечения (выбор из возможных вариантов)Амбулаторное лечение Мониторинговый опросник в мобильном приложении Амбулаторное лечение Удаленный мониторинг Мониторинг состояния через асинхронную коммуникацию Прием врача повторный Визит к врачу +Контроль эффективности лечения
+РекомендацииРезультаты мониторинга Диспансерное наблюдение Мониторинговый опросник в мобильном приложении Удаленное наблюдение Удаленный мониторинг Мониторинг состояния через асинхронную коммуникацию Диспансеризация – первый этап Доврачебный диагностический опросник в мобильном приложении Ежегодное заполнение диагностического опросника по программе диспансеризации Система ИИ Маршрутизация на второй этап - Для врача:
Методологические проблемы сбора медицинских данных
Проблемы сбора данных для построения систем искусственного интеллекта в отечественном здравоохранении с методологической точки зрения выглядят следующим образом:
- при формировании датасетов, как правило, предварительно не используется формализация постановки задачи сбора данных, гипотез ожидаемых зависимостей и т. п.
- не все необходимые для решения задач данные собираются (неполнота и нарушение целостности данных, непредставительность данных);
- как правило, для обучения СИИ собираются ретроспективные неактуальные противоречивые данные, которые невозможно верифицировать (недостоверность и противоречивость данных);
- при сборе данных не все источники рассматриваются к использованию (как правило, данные поступают только от врача и в интерпретации врача, нет данных непосредственно от пациента, ЕГИСЗ замкнута относительно источников сбора данных, нет возможности подключить новые);
- для обучения СИИ нужны не просто данные, а экстенсиональные знания, пригодные для автоматического применения соответствующими программными средствами;
- для формирования качественных датасетов необходимо проектировать модели и структуры данных, а также модели информационных потоков, модели сбора, представления и обработки данных в процессе обучения и применения СИИ, модели адекватности и формирования погрешности [3].
Описанные методологические проблемы сбора данных существенно сдерживают развитие СИИ в медицине и требуют основательного системного подхода при решении задач формирования медицинских датасетов.
План развития системы сбора медицинских данных
Учитывая представленные выше соображения, нами предлагается следующий план организации сбора и подготовки данных для развития ИИ в здравоохранении России:
- Разработка единого цифрового стандарта сбора медицинских данных:
- Создание и валидация профильных доврачебных диагностических и мониторинговых опросников (для пациентов).
- Формирование цифрового справочника для описания результата осмотра врача по системам и органам (для врачей).
- Цифровизация клинических рекомендаций (диагностика/лечение) – структурированный список всех возможных вариантов, прописанных в утвержденных МЗ РФ клинических рекомендациях. Для каждого пациента – структурированный «отфильтрованный» список, за исключением вариантов, противопоказанных наличием определенных оцифрованных медицинских данных (жалобы, анамнез, осмотр, диагностика, динамика).
- Разработка методов сбора данных:
- Разработка и внедрение инструмента асинхронной цифровой коммуникации пациента с медицинскими организациями и врачами (мобильное приложение/терминал).
- Разработка и внедрение универсального (для всех МИС) цифрового модуля «Врачебный осмотр» – единой справочной системы описания состояния здоровья с поддержкой звуковым чат-ботом.
- Реинжиниринг сбора первичных медицинских данных – сбор данных с участием пациента (доврачебный диагностический опрос пациента в мобильном приложении, терминал в регистратуре).
- Создание цифрового портрета (профиля) пациента на основе формализованных данных и знаний, в статике и динамике.
- Разработка систем поддержки принятия врачебных и пациентских решений в виде обучающихся и экспертных систем.
- Разработка систем искусственного интеллекта.
- Разработка моделей, методов и программно-информационных инструментальных средств управления диагностикой, маршрутизацией и лечением пациентов на основе данных.
- Разработка единого цифрового стандарта сбора медицинских данных:
ВЫВОДЫ
Объявление Президентом России о формировании национального проекта «Экономика данных», первым пунктом которого выделена задача сбора данных, подчеркивает важность решения описанных в настоящей статье проблем. Предлагаем сосредоточить усилия специалистов в области медицинской информатики в этом направлении.

