Métodos de imputación de datos faltantes para series temporales utilizando casos de prueba del mundo real | JoVE Visualize

Área de la Ciencia:

Ciencias de los datos sanitarios
Estadísticas biológicas
Aprendizaje automático en medicina

Sus antecedentes:

La falta de datos es un desafío importante en el análisis de la atención médica.
Los métodos de imputación actuales a menudo se evalúan en patrones de datos faltantes poco realistas.
Los mecanismos de ausencia en el mundo real (MCAR, MAR, NMAR) requieren estrategias de imputación sólidas.

Objetivo del estudio:

Evaluar la exactitud en el mundo real de 12 métodos de imputación a través de tres mecanismos de datos faltantes (MCAR, MAR, NMAR).
Para comparar el rendimiento de imputación en el monitoreo continuo de la glucosa y los datos de las series temporales de la frecuencia cardíaca.
Evaluar el impacto de los porcentajes de ausencia (5-30%) en la precisión de la imputación.

Principales métodos:

Falta simulada en los conjuntos de datos Loop (CGM) y All of Us (tasa cardíaca) de acuerdo con los mecanismos MCAR, MAR y NMAR.
Se han probado 12 métodos de imputación de última generación y de uso común.
Precisión evaluada utilizando el error cuadrado de la raíz media (RMSE) y las métricas de sesgo en los grupos demográficos.

Principales resultados:

La precisión de la imputación fue significativamente mayor para los datos faltantes completamente al azar (MCAR) en comparación con los datos faltantes al azar (MAR) y no faltantes al azar (NMAR).
La interpolación lineal demostró el RMSE más bajo y el sesgo mínimo en todos los mecanismos y grupos demográficos probados.
Las prácticas de evaluación existentes pueden sobreestimar el rendimiento del método de imputación en escenarios reales.

Conclusiones:

Las evaluaciones actuales del método de imputación no reflejan el rendimiento del mundo real con patrones de datos faltantes realistas.
La interpolación lineal ofrece una línea de base confiable para la imputación, incluso con ausencia compleja.
La investigación adicional debe centrarse en el desarrollo de metodologías de evaluación mejoradas y técnicas de imputación adaptadas a los mecanismos de datos faltantes del mundo real.