Алгоритмы и информационное обеспечение диагностического программного комплекса "кардиоваскулярный профиль индивидуума"

Воробьева Е.Н., Варшавский Б.Я., Шойхет Я.Н.,
Колядо В.Б., Гарколь Н.С., Тушев А.Н.
Алтайский государственный медицинский университет, Барнаул
Алтайский государственный технический университет, Барнаул

Актуальность изучения проблемы диагностики и профилактики болезней системы кровообращения определяется размерами заболеваемости, инвалидизации и смертности населения от этой патологии, занимающей первое место в структуре общей смертности и составляющей 53%.

К классическим факторам риска болезней системы кровообращения, генезис которых хорошо изучен, относятся высокие уровни общего холестерола сыворотки крови и холестерола липопротеинов низкой плотности, низкий уровень холестерола липопротеинов высокой плотности, артериальная гипертензия, курение, гиподинамия, избыточная масса тела и другие. При этом, дислипопротеинемии являются ведущим фактором патогенеза атеросклероза и связанных с ним заболеваний. Ключевым условием разработки стратегии и тактики первичной и вторичной профилактики болезней системы кровообращения является комплексная оценка коронарного риска предусматривает выявление ведущих факторов риска на основе антропометрических (вес, рост, весо-ростовой индекс Кетле, индекс окружностей талии и бедер), клинических (систолическое артериальное давление), функциональных и лабораторных исследований (показатели липидограммы).

Целью настоящего исследования явилась разработка и апробация диагностического программного комплекса "Кардиоваскулярный профиль индивидуума". Программный комплекс реализован в среде системы управления базы данных FoxPro, позволяющей осуществлять управление большими объемами структурированной и взаимосвязанной информации, и апробирован на базе Городского липидологического центра г. Барнаула. Авторами были применены методы обработки информации искусственными нейронными сетями (ИНС), методы распознавания образов (метод потенциальных функций, алгоритм ИСОМАД), математические методы аппроксимации функций, теория погрешностей и статистические методы обработки экспериментальных данных.

Программа обеспечивает:

Программный комплекс "Кардиоваскулярный профиль индивидуума" содержит следующие основные модули: ведения баз данных; расчета диагностических и прогностических показателей липидограммы; обработки и построения заключения по типам дислипротеинемий и коронарному прогнозу; нечеткого фенотипирования дислипротеинемий; статистической обработки, предназначенный как для анализа популяции в целом, так и по отдельным категориям пациентов, в который включены алгоритмы корреляционного, дискриминантного, дисперсионного, регрессионного анализа, а также параметрические (критерии Стьюдента и Фишера) и непараметрические методы (критерии Колмогорова-Смирнова и $\chi^2$).

Меню программы и указания для пользователя, выведенные на экран дисплея, позволяют осуществлять постоянный входной диапазонный и логический контроль данных по шаблонам, а также выдавать подробную результирующую информацию в виде текстово-графического файла, выводимого в любое время на печать. В программном обеспечении использован интерактивный интерфейс, обеспечивающий сохранение цепи действий пользователя, а также предусмотрена возможность ручной корректировки автоматически сгенерированного заключения.

Одним из методов распознавания образов, особенно при больших размерностях пространства входных векторов, являются нейронные сети, которые обеспечивают получение оптимальных результатов в ряде задач по сравнению со статистическими методами. Нейронная сеть представляет вычислительное устройство в виде компьютерной программы или аппаратной платы, иммитирующая структуру и функцию мозга и состоящая из большого числа простых процессоров ("нейронов"), соединенных направленными связями (рис. 1).

Рис. 1. Элементы однослойной искусственной нейронной сети

При прохождении сигналов через нейронную сеть достаточно большой размерности погрешности входных сигналов могут взаимно уничтожаться, в результате чего совокупная выходная погрешность всех входных помех может быть меньше суммы выходных. Такие эффекты иногда называют "голографическими", так как при этом сеть демонстрирует устойчивость при значительных внешних помехах.

Погрешности входов каждого промежуточного и выходного слоев нейронов можно рассчитать по формуле:

\begin{displaymath}
\varepsilon x_{i} = {\sum\limits_{i = 1}^{N} {W_{ij} \varepsilon y_{i}}}
\quad ; i=1,\ldots N; j=1,\ldots M;
\end{displaymath} (1)

где $W_{ij}$ - весовые коэффициенты связи текущего и предыдущего слоев, $\varepsilon y_{i} $- выходные погрешности предыдущего слоя. Сам нейрон преобразует входной сигнал в соответствии с сигмодальной функцией ${\rm Sg(x)}$, являющейся решением дифференциального уравнения:

\begin{displaymath}
y'=\alpha y(1-y).
\end{displaymath}

Пусть выходная погрешность нейрона равняется $\varepsilon y$, а входная $\varepsilon x$, тогда получаем:

\begin{displaymath}
\varepsilon y = \vert{\rm Sg}({\rm x}-\varepsilon x)-{\rm Sg...
... x})\varepsilon x\vert= \vert\alpha y(1-y) \varepsilon x\vert
\end{displaymath} (2)

Используя формулы (1) и (2), можно рассчитать погрешности всех элементов сети. Пусть $\varepsilon x_{i} $- помеха i- нейрона входного слоя ИНС, $\varepsilon y_{ji} $- помеха j-нейрона выходного слоя ИНС при подаче помехи $\varepsilon x_{i} $. Тогда нелинейность ("пороговость") преобразования входных сигналов нейронами приводит, как правило, к соотношению:

\begin{displaymath}
\sigma ({\sum\limits_{j = 1}^{M} {{\sum\limits_{i = 1}^{N} {...
...}^{N} {\sigma (\,{\sum\limits_{j = 1}^{M} {\xi}
}y_{ij} )}} ,
\end{displaymath} (3)

где $\sigma (\xi )$-стандартное отклонение случайной величины $\xi $, это неравенство и определяет голографический эффект. С другой стороны, при использовании метода потенциальных функций потенциалы определяются по следующей формуле:

\begin{displaymath}
K^{j}(\vec {x}) = {\sum\limits_{i = 1}^{N} {\alpha _{i} K_{i}^{j} (\vec
{x},\,x_{k} )}} ,
\end{displaymath} (4)

где $\vec {x}_{k} $-элемент в обучающей выборке, k=1,...K; i=1,... ,N; j=1,...M;N-размерность выборки; M-число распознаваемых классов;$K_{i}^{j} $- потенциальные функции;$\alpha _{i} $-веса потенциальных функций. Входные помехи, при условии их независимости в качестве случайных величин, вносят аддитивный вклад в общую дисперсию выходной ошибки. Формулы (1)-(3) используются для анализа погрешностей обученной сети. Математический анализ зависимостей изменения весов от входных погрешностей в процессе обучения сложен из-за рекуррентности процедур обучения. Имитационные модели обучения ИНС и метода потенциальных функций, где в качестве входных векторов использовались вершины N-мерного единичного гиперкуба, показали, что во время обучения ИНС также наблюдается снижение общего стандартного отклонения выходной погрешности по сравнению с методом потенциальных функций (рис. 2).

Рис. 2. Зависимость стандартного отклонения ошибки выхода ИНС в процессе обучения от размерности задачи.

Обучение разработанной диагностической программы основывается на принципе обратного распространения ошибки (error back-propagation) (Rumelhart D., McClelland J.L., 1986; Горбань А.Н., Россиев Д.А., 1996; Горбань А.Н. и др., 1998), т.е. в подборе логистической или сигмоидальной функции для получения при вводе серии входных векторов (X $_{{\rm 1}}^{{\rm (}{\rm 1}{\rm )}}$,...,X $_{{\rm K}}^{{\rm (}{\rm 1}{\rm )}})$ и "желательных" выходных векторов (Y $_{{\rm 1}}^{{\rm (}{\rm 3}{\rm )}}$,...,Y $_{{\rm N}}^{{\rm (}{\rm 3}{\rm )}})$ (Горбань А.Н., 1998). Критерием обученности является незначительность производных ошибки по всем весовым коэффициентам для всех элементов обучающей выборки.

Описанный алгоритм нейронных сетей был использован для диагностического фенотипирования дислипопротеинемий и прогноза болезней системы кровообращения. В качестве входных паттернов для фенотипирования дислипопротеинемий использовались параметры биохимического исследования липидов и липопротеинов крови - визуальная характеристика сыворотки крови и отстоя после холодовой экспозиции, общий холестерол (ОХС), уровень хиломикронов (ХМ) и хилокрита, концентрация триглицеридов (ТГ), уровни холестерола липопротеинов низкой плотности (ХС ЛПНП), холестерола очень низкой плотности (ХС ЛПОНП), холестерола высокой плотности (ХС ЛПВП). Выходными нейронами являются типы дислипопротеинемий, а также гипоальфалипопротеинемия.

При этом кластерный анализ выявил помимо известных типов дислипопротеинемий наличие так называемых "промежуточных" типов, которые сложно классифицировать. Разработанный авторами оригинальный метод "размытия" активности выходных классов ИНС состоит из следующих этапов:

С учетом этого было предложено сводить исходную "размытую" функцию (усредненные экспертные оценки - активности выходных нейронов) к характеристической функции неразмытого, четкого множества $\mu _{S} (x)$ по следующему алгоритму (ИСОМАД), определяющего число кластеров и центры каждого кластера. Алгоритм построения функции принадлежности нечетких множеств состоит в следующем:

1. Пусть заданная выборка, соответствующая данному нечеткому классу дислипопротеинемий, содержит $m$ векторов Х=(х$_{{\rm 1}}$,...х$_{{\rm i}}$...,х$_{{\rm N}})$ размерности N. Пусть интервал [$x_{ji} $,$x_{ji} $] отражает мнение i-эксперта (i=1, ...,$m_{j}) $о значении $j$ признака. Тогда полным описанием этого признака является $\theta _{i} $=[$x_{1i} $,$x_{1i} $]х...х[$x_{ni} $,$x_{ni} $]. Рассматривая для каждого признака $j$ все интервалы, предложенные экспертами, находится связное покрытие их объединения, состоящее из непересекающихся интервалов, концами которых являются только концы исходных интервалов:

[$x_{jk} $,$x_{kj} $] (j = 1, ...,$n$; k = 1, ...,$m_{j}$- 1).

2. На основе полученных покрытий формируются непересекающиеся гиперпараллелепипеды T$_{{\rm k}}$= [$x_{ik} $,$x_{ik} $]х...х[$x_{nk}
$,$x_{nk}
$]k = 1, ...,$m$.

3. Для каждого вектора $x\in$T$_{{\rm k}}$вычисляются функции $\varphi _{i} (x) = {\left\{ {\begin{array}{l}
{1,\,\,{\rm если}\,\,\,T_{k} \ca...
...\rm если}\,\,\,T_{k} \cap \theta _{i} = \emptyset .} \\
\end{array}} \right.}$

4. На начальном шаге обучения ($\ell =$ 1) коэффициенты компетентности $\lambda _{i}^{\ell} $ определяются по формуле:

{ $\lambda _{i}^{\ell} $}$_{i = 1}^{m} $.= {1/m}$_{i = 1}^{m} $.

5. На очередной итерации $(\ell)$ вычисляется приближение функции принадлежности

\begin{displaymath}
f^{\ell} (x) = \sum\limits_{i = 1}^{m}
{\varphi _{i} (x)\lambda _{i}^{\ell}}, \, x \in T_{k},
\,i = 1,...,m'.
\end{displaymath}

6. Вычисляется функционал рассогласования

\begin{displaymath}
\delta _{i}^{\ell} = {\sum\limits_{\begin{array}{l}
{x \in ...
...ay}} {[f^{\ell} (x) - \varphi _{i} (x)]^{2},\,i =
1,...,m.}}
\end{displaymath}

7. Вычисляется ошибка приближения $\Delta = {\sum\limits_{i = 1}^{m} {1 /
\delta _{i}^{\ell}} } $, а также пересчитываются коэффициенты $\lambda
_{i}^{\ell + 1} =\Delta / \delta _{i}^{\ell} .$

8. Если величина max $\vert \lambda _{i}^{\ell + 1} -\lambda _{i}^{\ell}
\vert $ <$\varepsilon $, где $\varepsilon $ - заданная точность, то алгоритм заканчивается, приближением функции принадлежности считается $\mu
_{S} $(x)=f(x), иначе $\ell$ увеличивается на 1 и необходимо вернуться к шагу 5.

На первом этапе была построена искусственная обучающая выборка с характерными значениями параметров для каждого типа, а после обучения нейронной сети на вход подавалась тестирующая выборка реальных пациентов, состоящая их 3200 векторов, при этом кластерный анализ выявил наличие 40 классов дислипопротеинемий и из них 8 - четких. Для каждого нечеткого класса, определяемого центрами кластеров ( $\alpha _{1} ,...,\alpha _{k} )$, выбираются входные векторы, принадлежащие данному выходному классу, и по ним строятся функции принадлежности нечетких множеств, дающие нечеткое описание класса через множества входных параметров. Для описания нечетких типов дислипопротеинемий использовалась модификация косвенного метода построения функций принадлежности - метод построения нечетких множеств, алгоритм которой основан на персептронном обучении, где в качестве экспертов выступают активности выходных нейронов. Приведем количественный анализ распределения элементов тестирующей выборки.

Тип липидного метаболизма Количество элементов, % Нечеткие типы Количество элементов, %
Норма 8,21 1 1,33
I 4,4 2 1,55
Iia 32,3 3 1,89
IIб 26,2 4 1,45
III 2,0 5 1,66
IV 9,3 6 1,51
V 0,1 7 1,05
Гипоальфалипопротеинемия 5,56 8 1,40

Для каждого кластера была построена функция принадлежности. Рассмотрим в качестве примера функции принадлежности для элементов таблицы IIa типа, нормолипидемии и промежуточного нечеткого типа и дадим их количественный и сравнительный анализ. Так, подавая на вход нейронной сети следующий вектор входных значений:

Прозрачность Хиломикроны Хилокрит Показатели липидограммы (ммоль/л)
Сыворотки Отстоя     ОХС ТГ ХС ЛПВП ХС ЛПОНП ХС ЛПНП
прозр. прозр. - - 4,97 1,61 1,09 0,74 3,14

получили значения выходных нейронов:

Норма Типы дислипопротеинемий Гипоальфалипопротеинемия
  I IIa IIб III IV V  
0,84 0,15 0,43 0,42 0,21 0,39 0,09 0,12

Данный вектор однозначно относится к четкому кластеру нормолипидемии. Для этого кластера следует отметить прозрачность сыворотки со степенью доверия $\alpha =0.99$, отсутствие хиломикронов и хилокрита на уровне 0.99, разброс значений уровней общего холестерола находится в пределах 2.11$\div $5.17, но в 75% случаев в интервале 4.15$\div $5.15; триглицеридов 1.11$\div $1.65, но в 90% случаев в интервале 1.17$\div $1.61; ХС ЛПВП в интервале 1.01$\div $1.51, но в 95% случаев в интервале 1.03$\div $1.35; ХС ЛПОНП в интервале 0.53$\div $0.74, но в 95% случаев в интервале 0.58$\div $0.66; ХС ЛПНП в интервале 3.07$\div $3.91, но в 75% случаев в интервале 3.48$\div $3.70.

Следующий вектор характеризуется значениями входных параметров:

Прозрачность Хиломикроны Хилокрит Показатели липидограммы (ммоль/л)
Сыворотки Отстоя     ОХС

ТГ

ХС ЛПВП ХС ЛПОНП ХС ЛПНП
прозр. прозр. - - 5,43 1,68 0,95 0,77 3,71

и выходным вектором активностей нейронов:

Норма Типы дислипопротеинемий Гипоальфалипопротеинемия
  I IIa IIб III IV V  
0,54 0,18 0,93 0,52 0,25 0,49 0,17 0,12

был отнесен однозначно к кластеру четкого IIа типа.

Для этого кластера следует отметить прозрачность сыворотки со степенью доверия $\alpha =0.99$, отсутствие хиломикронов и хилокрита на уровне 0.99, разброс значений уровней общего холестерола находится в пределах 5.18$\div $6.17, но в 75% случаев в интервале 5.25$\div $5.95; триглицеридов 1.31$\div $1.66, но в 90% случаев в интервале 1.37$\div $1.61; ХС ЛПВП в интервале 0.81$\div $1.91, но в 95% случаев в интервале 0.83$\div $1.35; ХС ЛПОНП в интервале 0.43$\div $0.78, но в 95% случаев в интервале 0.58$\div $0.66; ХС ЛПНП в интервале 3.67$\div $4.01, но в 75% случаев в интервале 3.78$\div $4.0. И, наконец, следующий вектор имеет значения входных параметров:

Прозрачность Хиломикроны Хилокрит Показатели липидограммы (ммоль/л)
Сыворотки Отстоя     ОХС

ТГ

ХС ЛПВП ХС ЛПОНП ХС ЛПНП
прозр. прозр. - - 5,17 1,70 0,90 0,78 3,49

При этом выходной вектор активностей нейронов имеет вид:

Норма Типы дислипопротеинемий Гипоальфалипопротеинемия
  I IIa IIб III IV V  
0,74 0,68 0,73 0,74 0,25 0,72 0,27 0,08

Этот вектор нечеткого типа сложно однозначно отнести к какому-либо четкому типу, так как присутствуют типичные признаки и нормолипидемии (по уровням общего холестерола и триглицеридов и липопротеидов высокой плотности), признаки IV типа (по мутности сыворотки и уровню триглицеридов), а также признаки II типа (по уровням общего холестерола и триглицеридов и липопротеидов высокой плотности и мутности сыворотки). Количество векторов в данном кластере составляет 1.33% от общего числа тестирующей выборки.

Приведем биохимическое описание данного профиля. Так для данного кластера следует отметить прозрачность сыворотки со степенью доверия $\alpha =0.90$, отсутствие хиломикронов и хилокрита на уровне 0.99, разброс значений уровней общего холестерола находится в пределах 5.14$\div $5.27, но в 75% случаев в интервале 5.15$\div $5.25; триглицеридов 1.65$\div $1.75, но в 90% случаев в интервале 1.67$\div $1.71; ХС ЛПВП в интервале 0.87$\div $1.01, но в 95% случаев в интервале 0.91$\div $0.95; ХС ЛПОНП в интервале 0.77$\div $0.82, но в 95% случаев в интервале 0.78$\div $0.80; ХС ЛПНП в интервале 3.37$\div $3.51, но в 95% случаев в интервале 3.48$\div $3.50.

Некоторые функции принадлежности из 11 наиболее информативных для врача-эксперта представлены в виде графических диаграмм на рисунках 3 и 4 (на графиках цифрами обозначено: 1-норма, 2-IIа тип, 3-нечеткий тип).

Рис. 3. Распределение функции принадлежности по уровням общего холестерола (ось ординат) и индексов атерогенности (ось абсцисс).

Рис. 4. Распределение функции принадлежности по уровням общего холестерола (ось ординат) и холестерола очень низкой плотности (ось абсцисс).

После фенотипирования дислипопротеинемий следующим этапом явилось определение коронарного прогноза искусственной нейронной сетью. В качестве входных параметров нейронной сети выступали пол, возраст, стаж курения, анамнез инфаркта миокарда, сахарного диабета, систолическое артериальное давление, вес, рост, показатели липидограммы. Выходные паттерны нейронной сети содержали оценку прогноза развития осложнений - "благоприятный", "отягощенный", "неблагоприятный".

Заключительным документом разработанной программы является принтерный листинг "Кардиоваскулярный профиль индивидуума", включающий все сведения о субъекте, синдромальный и нозологический диагноз, первичность или вторичность заболевания, степень глобального коронарного риска в ближайшие годы, а также индивидуальные рекомендации по стратегии и тактике ведения пациента.

Таким образом, предложенные методы фенотипирования дислипопротеинемий и суммарного коронарного риска, основанные на нечетких множествах и технологии нейронных сетей, создают предпосылки для разработки и внедрения в практическое здравоохранение автоматизированных экспертных систем, позволяющих осуществлять раннюю диагностику, мониторинг и профилактику болезней системы кровообращения.



Ваши комментарии
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Friday, 07-Sep-2001 19:48:54 NOVST