Une comparaison des algorithmes d'apprentissage pour la survie avec données manquantes

03/23/2023
by   Paul Dufossé, et al.
0

Survival analysis is an essential tool for the study of health data. An inherent component of such data is the presence of missing values. In recent years, researchers proposed new learning algorithms for survival tasks based on neural networks. Here, we studied the predictive performance of such algorithms coupled with different methods for handling missing values on simulated data that reflect a realistic situation, i.e., when individuals belong to unobserved clusters. We investigated different patterns of missing data. The results show that, without further feature engineering, no single imputation method is better than the others in all cases. The proposed methodology can be used to compare other missing data patterns and/or survival models. The Python code is accessible via the package survivalsim. – L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux de neurones, ont été conçus. L'objectif de ce travail est d'étudier la performance en prédiction de ces algorithmes couplés à différentes méthodes pour gérer les valeurs manquantes, sur des données simulées qui reflètent une situation rencontrée en pratique, c'est-à dire lorsque les individus peuvent être groupés selon leurs covariables. Différents schémas de données manquantes sont étudiés. Les résultats montrent que, sans l'ajout de variables supplémentaires, aucune méthode d'imputation n'est meilleure que les autres dans tous les cas. La méthodologie proposée peut être utilisée pour comparer d'autres modèles de survie. Le code en Python est accessible via le package survivalsim.

READ FULL TEXT
research
03/09/2022

gcimpute: A Package for Missing Data Imputation

This article introduces the Python package gcimpute for missing data imp...
research
09/18/2023

Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

Tabular data is hard to acquire and is subject to missing values. This p...
research
06/04/2017

Evolving imputation strategies for missing data in classification problems with TPOT

Missing data has a ubiquitous presence in real-life applications of mach...
research
04/28/2022

Coupling Deep Imputation with Multitask Learning for Downstream Tasks on Genomics Data

Genomics data such as RNA gene expression, methylation and micro RNA exp...
research
09/07/2018

Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations

Despite the large body of research on missing value distributions and im...
research
04/06/2021

Statistical Network Analysis with Bergm

Recent advances in computational methods for intractable models have mad...

Please sign up or login with your details

Forgot password? Click here to reset