Epileptic seizure prediction using Pearson's product-moment correlation coefficient of a linear classifier from generalized Gaussian modeling

06/02/2020
by   Antonio Quintero-Rincón, et al.
IEEE
0

To predict an epileptic event means the ability to determine in advance the time of the seizure with the highest possible accuracy. A correct prediction benchmark for epilepsy events in clinical applications is a typical problem in biomedical signal processing that helps to an appropriate diagnosis and treatment of this disease. In this work, we use Pearson's product-moment correlation coefficient from generalized Gaussian distribution parameters coupled with a linear-based classifier to predict between seizure and non-seizure events in epileptic EEG signals. The performance in 36 epileptic events from 9 patients showing good performance with 100 sensitivity and specificity greater than 83 rhythms. Pearson's test suggests that all brain rhythms are highly correlated in non-seizure events but no during the seizure events. This suggests that our model can be scaled with the Pearson's product-moment correlation coefficient for the detection of epileptic seizures.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 1

page 2

page 3

page 4

05/22/2020

Mu-suppression detection in motor imagery electroencephalographic signals using the generalized extreme value distribution

This paper deals with the detection of mu-suppression from electroenceph...
05/06/2020

Similarity and delay between two non-narrow-band time signals

Correlation coefficient is usually used to measure the correlation degre...
08/06/2021

Shift-invariant waveform learning on epileptic ECoG

Seizure detection algorithms must discriminate abnormal neuronal activit...
05/30/2014

ELM Solutions for Event-Based Systems

Whilst most engineered systems use signals that are continuous in time, ...
07/16/2020

Predicting the Number of Future Events

This paper describes prediction methods for the number of future events ...
11/05/2021

EpilNet: A Novel Approach to IoT based Epileptic Seizure Prediction and Diagnosis System using Artificial Intelligence

Epilepsy is one of the most occurring neurological diseases. The main ch...
This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Introducción

El diagnóstico y tratamiento adecuado de la epilepsia es uno de los principales problemas de la salud pública según la Organización Mundial de la Salud. En todo el mundo hay más de 50 millones de personas que padecen algún tipo de epilepsia, casi el 80 % de ellas en regiones en desarrollo, donde tres cuartas partes no reciben un diagnóstico y tratamiento apropiado [WHO2018]. Los pacientes que padecen esta enfermedad a menudo manifiestan diferentes caracterizaciones fisiológicas, que resultan de la descarga sincrónica y excesiva de un grupo de neuronas en la corteza cerebral. Las crisis epilépticas generalmente tienen un inicio repentino, se extienden en cuestión de segundos y, en la mayoría de los casos son breves. La manifestación de una crisis depende de la región dónde comienza en el cerebro y qué tan rápido se propaga. La correcta identificación de esta información es clave para un tratamiento adecuado de esta enfermedad.

La electroencefalografía (EEG) es una modalidad biomédica no invasiva y ampliamente disponible que se puede utilizar para diagnosticar y diseñar un tratamiento correcto de la epilepsia. El EEG captura las principales características que son relevantes de la crisis, lo cual ayuda a discriminar entre actividad cerebral normal y anormal. Las características más estudiadas en la literatura se pueden clasificar en tres grupos: propiedades espectrales, propiedades morfológicas y descriptores estadísticos. Para un tratamiento integral de estas características ver [NiedermeyerDaSilva2010, EpilepsyIntersection2011, EpilepticSeizures2010].

Primero vamos a explicar brevemente algunos conceptos usados en este trabajo para desarrollar toda la idea propuesta.

La validación cruzada es una técnica de validación de modelos usada para evaluar cómo los resultados de un algoritmo de análisis estadístico se pueden generalizar a un conjunto de datos independiente. Esto se hace mediante la partición de un conjunto de datos de la siguiente manera: un subconjunto para entrenar el algoritmo y los datos restantes para la prueba o test. Cada ronda de validación cruzada implica la partición aleatoria del conjunto de datos original en un conjunto de entrenamiento y un conjunto de test. El conjunto de entrenamiento luego se usa para entrenar un algoritmo de aprendizaje supervisado y el conjunto de test se usa para evaluar su desempeño. Este proceso se repite varias veces donde el valor de pérdida y el error aparente de la validación cruzada se utilizan como un indicador de rendimiento. Aplicaciones de este método en epilepsia se remontan a la década de los 70’s con [Lloyd1972] usando una técnica llamada template matching [QuinteroRincon2016a]. La importancia de usar la validación cruzada radica en que en muchas aplicaciones biomédicas los datos pueden ser muy límitados para la etapa de entrenamiento y de test, por lo que si se quieren construir buenos modelos, se debe utilizar la mayor cantidad de datos disponibles para la etapa de entrenamiento. Sin embargo, si el conjunto de validación es pequeño, dará una estimación relativamente ruidosa del rendimiento predictivo [Bishop2006]. En la Validación cruzada dejando uno fuera, los datos de las particiones usan el enfoque de -iteraciones, donde es igual al número total de observaciones en los datos. Ver [Alpaydin2014, Hastie2011] para un tratamiento exhaustivo de las propiedades estadísticas y [Combrisson2015, Sargolzaei2015, Zhang2014, Stevenson2014, Liang2013] para algunos ejemplos en señales EEG.

El coeficiente de correlación producto-momento de Pearson es un test de asociación entre parejas de datos, es usado como una medida del grado de correlación lineal o dependencia entre dos variables, crisis y no-crisis en nuestro caso. El coeficiente se calcula como el cociente entre la covarianza de las dos variables y el producto de sus desviaciones típicas. Referimos al lector a [Glantz2011] para un tratamiento comprensivo de este coeficiente.

En este trabajo estudiamos el coeficiente de correlación producto-momento de Pearson para predecir entre los eventos de crisis y no-crisis, a partir de una clasificación lineal de la estimación de los parámetros de la distribución Gaussiana generalizada, modelo estudiado en nuestros trabajos previos [QuinteroRincon2014, QuinteroRincon2016a, QuinteroRincon2016b, QuinteroRincon2017, QuinteroRincon2018a]. Esta distribución tiene dos parámetros: escala y forma que se estiman en cada ritmo cerebral, a partir de una descomposicón wavelet. Por lo tanto, tenemos un conjunto de parámetros y tanto para eventos de crisis como para los eventos de no-crisis. Estos parámetros se clasifican a través de un clasificador lineal en dos clases: crisis o no-crisis. A continuación el aporte de este trabajo, se estima un coeficiente de correlación producto-momento de Pearson para cada clase; permitiendo un rango de magnitud entre . Este escalamiento facilita una predicción de la crisis epiléptica en señales EEG.

Este documento está estructurado de la siguiente manera. La sección 2 describe la metodología propuesta que se usa para describir señales de EEG y discriminar entre un evento de crisis y no-crisis en señales epilépticas de EEG. Esta metodología se aplica y luego se compara con dos modelos similares en señales reales de EEG de pacientes que sufren crisis epilépticas en la sección 3

. La elección de estos dos modelos es porque usan una metodología similar y están basados en el clásico clasificador de máquinas de vectores de soporte (SVM). Finalmente las conclusiones se informan en la sección

LABEL:sec:disc.

2 Metodología

Sea la matriz en conjunto de señales EEG , medidas simultaneamente en diferentes canales en instantes de tiempo discretos . La metodología propuesta esta compuesta de 5 estapas.

La primera etapa divide la señal original en una serie de segmentos de 2 segundos con de solapamiento, usando una ventana rectángular con , tal que . La segunda etapa consiste en representar cada segmento en su correspondiente representación tiempo-frecuencia usando una descomposición multiresolución 1D, a través de la wavelet Daubechies (dB4) con 6 escalas. El propósito de esta descomposición es evaluar la distribución de energía a través de todos los ritmos cerebrales llamados: banda delta: 0.5-4Hz, banda theta:4-8Hz, banda alfa: 8-13Hz, banda beta:13-30Hz y banda gamma: 30Hz.

(1)

En la tercera etapa, la distribución estadística de los coeficientes wavelet es representada usando la distribución generalizada Gaussiana (GGD) de media cero, estudiada en nuestros trabajos previos [QuinteroRincon2014, QuinteroRincon2016a, QuinteroRincon2016b, QuinteroRincon2017, QuinteroRincon2018a]. La GGD tiene una función de densidad de probabilidad (PDF) dada por:

(2)

donde es el parámetro de escala, es el parámetro de forma y es la función Gamma.

Cada escala de la descomposición wavelet es reducida al estimar los parámetros estadísticos de la distribución Gaussiana generalizada y , (Ver ecuación (2)), con el fin de obtener el conjunto de características asociadas a todas las escalas wavelet, para un segmento de 2 segundos con de solapamiento.

(3)

En la cuarta etapa se utiliza un análisis discriminante lineal para clasificar en dos clases posibles: para los eventos de crisis y para los eventos de no-crisis. Para un vector de características perteneciente a la clase o a la clase , se asume que tiene una distribución normal con valor medio (o ) y matriz de covarianza (o ), entonces:

(4)
(5)

donde es la dimensión del vector estimado y es la probabilidad de evento en particular. Para el análisis discriminante lineal, se calculan las muestras (o ) de cada clase. Entonces se calcula la muestra (o ) al restar primero la muestra (o ) de cada clase a partir de las observaciones de esa clase, y tomando la matriz empírica (o ) del resultado. Por lo tanto el discriminante lineal para el problema de clasificación viene dado por

(6)

Finalmente, en la etapa cinco, el coeficiente de correlación producto-momento de Pearson se estima a través de

(7)

donde y son las medias de cada clase. La magnitud de describe la fuerza de asociación entre las dos variables y el signo de indica la dirección de esta asociación: cuando las dos variables aumentan juntas, y cuando una disminuye y la otra aumenta. Así mismo, también muestra el caso más común de dos variables que están correlacionadas linealmente. El valor indica ausencia de correlación, indica correlación positiva total y indica correlación negativa total.

3 Resultados

La metodología propuesta se evaluó mediante la base de datos del Hospital Infantil de Boston, que consta de 36 registros de EEG de sujetos pediátricos con crisis intratables. Las señales EEG son bipolares y están muestreadas a 256Hz para cada sujeto. Cada registro contiene un evento de crisis con un inicio y un final marcado, el cual fue detectado por un neurólogo experimentado. En este trabajo usamos 18 eventos de crisis y 18 eventos de no-crisis de 9 sujetos. Consulte [Goldberger2000] para obtener más detalles.

Durante la etapa de pre-propresamiento se usaron dos filtros Butterworth IIR en cascada, un filtro pasa-bajo de segundo orden con frecuencia de corte de 100 Hz y un filtro pasa-alto de primer orden con una frecuencia de corte de 30 Hz, además se sustrajo el valor medio de cada canal. Consultar [QuinteroRincon2012] para un amplio estado del arte en diferentes tipos de artefactos en señales EEG.

La detección de una crisis consta de dos etapas principales: la extracción de características y una etapa de clasificación basado en un aprendizaje automático, con el fin de caracterizar y cuantificar eventos de crisis o eventos de no-crisis. Usando los mismos datos de entrada, nuestro modelo [Q] fue comparado con dos modelos similares del estado del arte que trabajan también sobre todos los ritmos cerebrales con una longitud de ventana de 2 segundos y solapamiento del 50%: [S] Shoeb et al [Shoeb2004, Shoeb2010] Usando una ventana rectángular, la extracción de características se realiza a través del calculo de las diferencias de energía a nivel espectral/espacial y su relación espectral/temporal utilizando una wavelet Daubechies (dB4) con 6 escalas junto con la densidad espectral de potencia. [C] Chan et al. [Chan2008] Usando una ventana Hamming, la extracción de características se estiman a través del espectro de potencia usando la transformada de Fourier (FFT) junto con un periodograma. Ambos modelos usan un clasificador basado en máquinas de vectores de soporte (SVM). Cabe resaltar que en esta comparación a pesar de que la extracción de características tiene algunas diferencias y la etapa de clasificación es distinta, permite contrastar metodologías similares y el costo computacional que puede ser crucial en implementaciones en tiempo real. Por ejemplo una solución óptima para el clásico clasificador SVM implica una complejidad del orden de o productos, donde es el tamaño del conjunto de datos, el cual por lo general es grande cuando se analizan señales EEG [Bordes2005, ShalevShwartz2008], mientras que para un clasificador lineal la complejidad es del orden , donde es el número de muestras, es el número de características y [Cai2008].

Las figuras 1-5 muestran el rendimiento a través de los diferentes diagramas de dispersión, para todos los ritmos cerebrales de las dos clases: para crisis y para no-crisis, permitiendo una buena discriminación por inspección visual para todos los modelos. La nomenclatura usada en los ejes e respectivamente, en los diagramas de dispersión son: escala y forma para [Q] usando un clasificador lineal. Energía y potencia para [S] y Frequencia y potencia para [C], ambos usando un clasificador SVM.

(a) [Q]:Clasificador lineal
(b) [S]:Clasificador SVM
(c) [C]:Clasificador SVM
Figure 1: Diagrama de dispersión de la banda delta: (a) [Q] escala eje- y forma eje-. (b) [S] Energía eje- y Potencia eje-. (c) [C] Frecuencia eje- y Potencia eje-. Todos los métodos permiten una discriminación entre eventos de no-crisis (circulos azules (non-seizure)) y eventos de crisis (triángulos rojos (seizure)).
(a) [Q]:Clasificador lineal
(b) [S]:Clasificador SVM
(c) [C]:Clasificador SVM
Figure 2: Diagrama de dispersión de la banda theta: (a) [Q] escala eje- y forma eje-. (b) [S] Energía eje- y Potencia eje-. (c) [C] Frecuencia eje- y Potencia eje-. Todos los métodos permiten una discriminación entre eventos de no-crisis (circulos azules (non-seizure)) y eventos de crisis (triángulos rojos (seizure)).
(a) [Q]:Clasificador lineal
(b) [S]: Clasificador SVM
(c) [C]:Clasificador SVM
Figure 3: Diagrama de dispersión de la banda alfa: (a) [Q] escala eje- y forma eje-. (b) [S] Energía eje- y Potencia eje-. (c) [C] Frecuencia eje- y Potencia eje-. Todos los métodos permiten una discriminación entre eventos de no-crisis (circulos azules (non-seizure)) y eventos de crisis (triángulos rojos (seizure)).
(a) [Q]:Clasificador lineal
(b) [S]:Clasificador SVM
(c) [C]:Clasificador SVM
Figure 4: Diagrama de dispersión de la banda beta: (a) [Q] escala eje- y forma eje-. (b) [S] Energía eje- y Potencia eje-. (c) [C] Frecuencia eje- y Potencia eje-. Todos los métodos permiten una discriminación entre eventos de no-crisis (circulos azules (non-seizure)) y eventos de crisis (triángulos rojos (seizure)).
(a) [Q]:Clasificador lineal
(b) [S]:Clasificador SVM
(c) [C]:Clasificador SVM
Figure 5: Diagrama de dispersión de la banda gamma: (a) [Q] escala eje- y forma eje-. (b) [S] Energía eje- y Potencia eje-. (c) [C] Frecuencia eje- y Potencia eje-. Todos los métodos permiten una discriminación entre eventos de no-crisis (circulos azules (non-seizure)) y eventos de crisis (triángulos rojos (seizure)).

La comparación entre la tabla de contingencia o matriz de confusión mostrada en la Tabla LABEL:tab:confusion, muestra una sensibilidad o porcentaje de verdaderos positivos (TPR) del 100% para todos los modelos. Mientras que la especificidad o porcentaje de verdaderos negativos (TNR) muestra un mejor rendimiento para el modelo basado en el clasificador lineal [Q] con repecto a los otros modelos que estan basados en un clasificador SVM, [S] y [C]. Esto nos permite sugerir que nuestro modelo basado en un clasificador lineal obtiene la mejor precisión para todos los ritmos cerebrales en los 36 eventos estudiados (18 no-crisis y 18 crisis). Para simplificar la interpretación visual, destacamos con color rojo el método que logra la mayor sensibilidad, especificidad y precisión general para cada banda de frecuencia.