В настоящее время во всем мире проблема профилактики неблагоприятного воздействия факторов окружающей среды на здоровье человека привлекает внимание многих ученых – врачей, экологов, биологов, физиков. Это вызвано постоянным ростом числа факторов, оказывающих негативное воздействие на здоровье человека. По данным Всемирной организации здравоохранения (ВОЗ) около 1,4 млн. случаев преждевременной смерти могут быть связаны с экологическими факторами, причем 569 тыс. из них связаны с загрязнением окружающего воздуха, а 154 тыс. – с загрязнением воздуха внутри помещений [1]. Однако информация по оценке влияния многочисленных факторов среды помещения и окружающей среды на здоровье человека характеризуется рассеянностью, не позволяя учитывать все факторы в комплексе. Цифровые решения могут быть эффективным инструментом для анализа этих факторов и разработки научного обоснования влияния их на здоровье человека [2].
Анализ комплексной оценки влияния факторов окружающей среды на здоровье человека можно провести методом корреляции показателей здоровья населения по классам основных нозологий на определенной территории с показателями факторов окружающей среды на этой территории. Для этого возможно использование информационных технологий анализа данных, установления причинно-следственных связей изменения показателей здоровья населения с показателями факторов окружающей среды, оценки рисков их воздействия на здоровье. Полученные результаты могут использоваться для разработки профилактических мероприятий, направленных на уменьшение отрицательного влияния факторов среды на здоровье человека.
В статье собран и обработан материал по формированию модели практического применения результатов цифровых решений анализа оценки влияния факторов окружающей среды на здоровье населения.
Авторами был проведен анализ научных статей по теме исследования в общедоступных электронных базах Medline, PubMed, Google Scholar, Elibrary, по указанным ключевым словам, отчетам и докладам государственных органов, показателям Росстата. Использованы методы: структурный анализ; корреляционный анализ, метод ансамблевого машинного обучения, в частности дерево решения и алгоритм случайного леса.
Цель работы: предложить алгоритм прогнозирования воздействия комплекса факторов окружающей среды.
В настоящее время в научной литературе предлагаются разные подходы оценки влияния факторов окружающей среды на здоровье населения [3-5]. В большинстве случаев они основываются на вероятностном математико-статистическом анализе воздействия вредного фактора на здоровье населения, с помощью которого можно количественно оценить уровень связи между факторами риска и критериями общественного здоровья и построить вероятностную математическую модель воздействия вредного фактора на здоровье населения [3, 4]. Количественная оценка риска может осуществляться с помощью корреляционного анализа. По коэффициентам корреляций можно судить о связи между загрязнением среды и состоянием здоровья населения [3].
Однако рост уровня заболеваемости населения, связанный с воздействием вредных факторов окружающей среды, может не носить линейный характер, так как пороги чувствительности и реакция защитных сил организма индивидуальны. Поэтому на начальном этапе воздействие вредных факторов может не отражаться на статистике заболеваемости или отражаться незначительно. При возрастающем воздействии в дальнейшем происходит срыв механизмов адаптации, и заболеваемость возрастает. Поэтому степень вредных воздействий факторов можно установить только на основании закона больших чисел – количественные закономерности массовых явлений проявляются лишь в достаточно большом их числе. Для этих целей необходимо выполнить анализ больших по численности групп населения. В небольших группах выводы могут быть ошибочные, так как большую роль будут играть случайные факты и индивидуальные особенности организма человека. При анализе большого количества событий случайности сглаживаются, и погрешности результатов снижаются [6].
Клепиковым О.В. и Студеникиной Е.М. предложены методы оценки влияния загрязнения атмосферного воздуха на здоровье населения при помощи анализа больших чисел. За величину, характеризующую загрязнённость атмосферы принимается комплексный индекс загрязнения атмосферы (ИЗА), учитывающий несколько приоритетных загрязнителей (как правило – пять) [1]. По значению коэффициента парной корреляции можно судить о тесноте взаимосвязи между изучаемыми показателями. Построение регрессионных моделей в таких исследованиях позволяет оценить направленность, силу, вид связи, прогнозировать значения. Моделировать процессы можно как по отдельным компонентам, так и в комплексе [3].
При оценке взаимосвязи здоровья населения с загрязнением окружающей среды часто используется линейное программирование. Для прогноза периодических процессов по известному спектру частот используется Фурье-анализ. Методы моделирования и прогнозирования временных рядов позволяют выявить тенденции изменения фактических значений параметра во времени и прогнозировать его будущие значения [3].
Коротковым П.А., Трубяновым А.Б. и соавт. для анализа статистической связи показателей загрязнения окружающей среды с показателями экологически зависимой заболеваемости предложена методология исследования, основанная на подходах к корреляционно-регрессионному анализу панельных данных. Для этого рассчитываются коэффициенты корреляции Пирсона и ранговые коэффициенты корреляции Спирмена, затем строятся модели регрессии для панельных данных: модель с фиксированными эффектами и модель со случайными эффектами. Источниками панельных данных являются показатели подразделений Росстата, Роспотребнадзора и Минздрава: 6 основных показателей загрязнения воды и атмосферы и 7 приоритетных показателей заболеваемости населения за определенный период (несколько лет) [4].
В рассматриваемых выше методиках данные о заболеваемости населения принимаются по статистическим данным. Однако для более углубленного анализа влияния негативных факторов окружающей среды на здоровье необходимо изучение показателей здоровья конкретной местности. Для этих целей можно воспользоваться единой интегрированной платформой, на которую будут поступать от медицинских учреждений все данные о здоровье пациентов. Благодаря таким данным можно проводить детальный анализ влияния факторов среды на здоровье, учитывающий и наличие загрязняющих веществ в организме пациентов, и их ответную реакцию на изменение факторов среды. Хранение больших данных можно обеспечить в облачных хранилищах.
На основе изученных материалов и методик анализа больших данных в данной работе мы в качестве примеров выполнили:
Исследованием комплексной гигиенической оценки факторов окружающей среды, проведенным Клепиковым О.В. и др. на основе города Воронежа, установлено, что приоритетным фактором неблагоприятного воздействия на здоровье населения является атмосферный воздух [7].
Индекс загрязнения атмосферного воздуха (ИЗА) по пяти приоритетным загрязнителям принят по статистическим данным, приведенным в Докладе Комитета природных ресурсов, лесного хозяйства и экологии Волгоградской области о состоянии окружающей среды Волгоградской области в 2022 году [8]. Влиянию вредных факторов окружающей среды наиболее подвержены дети. Важно, что дети более привязаны к исследуемой территории, так как в основном они живут и учатся на одном территориальном участке, на их здоровье не отражаются профессиональные факторы. Все это уменьшает величину случайных событий при анализе данных, поэтому предлагается проводить анализ статистических данных о заболеваемости детей по основным нозологиям. Показатели заболеваемости детей приняты по данным Росстата и Роспотребнадзора по Волгоградской области [9-14]. В заболеваниях органов дыхания учитываются: бронхиты, пневмонии, бронхиальная астма, хроническая обструктивная болезнь легких, бронхоэктатическая болезнь, плеврит, эмфизема легких. По данным проведенных исследований прослеживается взаимосвязь этих заболеваний с такими загрязнителями воздуха: взвешенные вещества, диоксид азота, бензапирен [15, 16]. В таблице 1 приведены показатели ИЗА и заболеваемости, на основании которых произведены расчеты.
Значение коэффициента корреляции (R) может быть: -1 < R < +l, что свидетельствует:
Годы | Болезни органов дыхания (Волгоград) (на 100 тыс. детского населения) | ИЗА (Волгоград) |
---|---|---|
2018 | 115191,80 | 4,30 |
2019 | 113388,70 | 3,20 |
2020 | 105602,60 | 3,50 |
2021 | 115278,10 | 10,60 |
2022 | 122320,00 | 10,60 |
Анализ с применением электронных таблиц Microsoft Excel приведен на гистограмме (рис. 1). Коэффициент корреляции, рассчитанный по формуле в электронной таблице Microsoft Excel равен 0,70, что свидетельствует о наличии положительной зависимости.
На основе данных таблицы 1 с помощью электронной таблицы Microsoft Excel был сделан график и построена линия тренда (аппрок-симирующая функция y(x), которая с максимальной степенью близости приближается к опытной зависимости) (рис. 2).
Как видно на рисунке, зависимость не является линейной.
Прогноз воздействия загрязнения атмосферного воздуха на болезни органов дыхания выполнен в облачном сервисе Google Collab. В качестве исследования была выбрана задача прогнозирования возникновения заболевания одной из групп у человека при известных числовых показателях ИЗА, взятых из официальных источников по Волгоградской области, представленных в таблице 1.
Предлагается применить метод ансамблевого машинного обучения в виде алгоритма случайного леса и дерева решений на примере набора данных с помощью языка программирования Python, где в качестве признаков будут использоваться числовые показатели индекса загрязнения атмосферы, а в качестве целевой переменной — группы болезней органов дыхания. Random forest («Случайный лес») – алгоритм машинного обучения, заключающийся в использовании комитета (ансамбля) решающих деревьев [17-19]. Ниже приведена ссылка, в которой мы реализовали метод алгоритма случайного леса.
https://colab.research.google.com/drive/1p4ozfSrOPl2AzUONwlVSZrmYzTvCtiDw?usp=sharingПриводим пример написания кода:
Вывод диаграммы вероятностной зависимости между уровнем загрязнения атмосферного воздуха и уровнем заболеваемости органов дыхания показывает наличие зависимости, однако она не является линейной (рис. 6):
В качестве исследования была выбрана задача прогнозирования возникновения заболевания одной из групп у человека при известных числовых показателях воздействия окружающей среды.
Предлагается применить метод ансамблевого машинного обучения в виде алгоритма случайного леса и дерева решений на примере набора данных с помощью языка программирования Python, где в качестве признаков будут использоваться числовые показатели воздействия различных факторов на организм человека, а в качестве целевой переменной – группы болезней, которые могут возникнуть [20].
Дерево решений – это структура данных, которая представляет собой древовидную модель принятия решений в виде логических правил. Каждый узел дерева представляет собой признак, по которому происходит разделение данных, а каждое ребро – условие (например, «больше 30 лет»). Листовые узлы дерева содержат предсказание (например, класс объекта).
Процесс построения дерева решений включает следующие этапы:
Деревья решений могут быть склонны к переобучению, поэтому модель случайного леса использует несколько деревьев для уменьшения этого эффекта. Каждое дерево обучается на случайной подвыборке данных и случайном подмножестве признаков, что способствует разнообразию деревьев и повышению качества модели.
В качестве параметров были выбраны следующие факторы: уровни взвешенных веществ, оксида углерода, диоксида азота, диоксида серы и оксида азота в атмосферном воздухе, нитратов, ртути, бензола, марганца, свинца в почве, а также уровни железа, меди, цинка и фенола в водопроводной воде, уровень радиоактивной нагрузки. В качестве предсказываемых классов рассматриваются заболевания органов дыхания, заболевания печени и почек, онкологические заболевания, сердечно-сосудистые заболевания, отсутствие заболеваний. Ниже приведена реализация алгоритма случайного леса:
Загрузка необходимых библиотек:
Далее разделяем данные на обучающий и тестовый наборы, здесь X – параметры воздействия окружающей среды, Y – величина, принадлежащая к одному из классов: заболевание органов дыхания, заболевание печени и почек, онкологическое заболевание, сердечно-сосудистое заболевание, отсутствие заболеваний.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42
Инициализация и обучение модели Random Forest:
clf = RandomForestClassifier()
clf.fit(X_train, y_train)
Предсказание на тестовом наборе: y_pred = clf.predict(X_test)
Оценка качества модели:
accuracy = accuracy_score(y_test, y_pred) print("Accuracy:", accuracy)
На основе посчитанных моделью весов можно сделать выводы о том, какие факторы наиболее существенно влияют на возникновения тех или иных заболеваний. Получить веса можно с помощью приведенного ниже кода:
importances = clf.feature_importances_
for class_idx, class_name in enumerate (clf.classes_):
print(f"Class: {class_name}")
for idx, importance in enumerate(importances[class_idx]):
print(f"Feature {idx}: Importance {importance}") print("\n")
Изучение собранных материалов и проведенный анализ на примере Волгоградской области показал, что имеется вероятностная зависимость между уровнем загрязнения атмосферного воздуха и уровнем заболеваемости органов дыхания среди детского населения, однако она не является линейной.
По расчетам в электронной таблице Microsoft Excel значение коэффициента корреляции равно 0,7 что свидетельствует о наличии положительной зависимости между уровнем загрязнения атмосферного воздуха и уровнем заболеваемости органов дыхания, не являющейся линейной (рис. 2), В облачном сервисе Google Collab с помощью метода лесов можно сделать прогноз и его оценку, а также построить точечную диаграмму зависимостей. Мы видим, что в обеих цифровых технологиях существует положительная связь между факторами загрязнения атмосферного воздуха и болезнями органов дыхания.
Для прогнозирования воздействия комплекса факторов окружающей среды на здоровье населения предлагается применить метод ансамблевого машинного обучения в виде алгоритма случайного леса и дерева решений на примере набора данных с помощью языка программирования Python, где в качестве признаков будут использоваться числовые показатели воздействия различных факторов на организм человека, а в качестве целевой переменной – группы болезней, которые могут возникнуть.
Для обучения модели возможно применение баз данных на основе мониторинга факторов прошлых лет. Подойдут данные с разных инфраструктурных территорий страны и рассмотрением различных показателей. Уже к обученной модели можно подключать как большие объёмы, такие как анализ состава воздуха по городу, так и локальные, собранные непосредственно в исследуемом помещении.
Существуют обновляемые в реальном времени базы данных, которые позволяют проводить операции ввода/изменения данных и получать актуальные результаты немедленно. Примерами таких баз данных являются Apache Kafka, Amazon DynamoDB, Google Firebase Realtime Database и другие. Эти базы данных позволяют мгновенно обновлять информацию и реагировать на изменения в реальном времени. Именно одну из таких можно использовать для прогнозирования и мониторинга зависимости.
В качестве сбора данных можно использовать различные датчики и анализаторы, обслуживание которых будет быстрым и простым. Для удобства и упрощения на каждый фактор можно завести отдельный датчик, передающий информацию в обновляемую базу данных.
Прикрепленный файл | Размер |
---|---|
Скачать файл | 1.08 Мб |