Intégrer les données manquantes dans la sélection de variables pour données longitudinales - Cnam - Conservatoire national des arts et métiers Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Intégrer les données manquantes dans la sélection de variables pour données longitudinales

Résumé

Generalized estimating equations (GEE) are a useful tool for marginal regression analysis with repeated measurements. Missing data as well as a large number of variables combined with small sample size are usual issues faced with longitudinal data. Multiple imputation is a popular tool for handling missing data and in particular , the MI-GEE can be used for inference. The multiple imputation-least absolute shrinkage and selection operator (MI-LASSO) proposes a consistent selection through the multiply-imputed datasets but cannot handle correlation among individual observations. 1 We present MI-PGEE, a new multiple imputation-penalized generalized estimating equations as an extension of the MI-LASSO to be applied on longitudinal data. MI-PGEE applies the penalized GEE with ridge penalty and adaptive weights that are common to the group of estimated regression coefficients of the same variable across multiply-imputed datasets. In order to select the tuning parameter, a new BIC-like criterion is presented. MI-PGEE yields a consistent variable selection across multiply-imputed datasets, making this a selection method for longitudinal data able to manage missing data and within subject correlation. The usefulness of the new method is illustrated by an application on the placebo arm of the Strontium ranelate Efficacy in Knee OsteoarthrItis triAl (SEKOIA) study.
Les Generalized estimating equations (GEE) sont une méthode de régression utile pour l'analyse marginale en présence de mesures répétées. Dans le contexte longi-tudinale, il est fréquent de faire face aux données manquantes ainsi qu'à de nombreuses variables mesurées au cours du temps. L'imputation multiple, outil populaire pour le traitement des données manquantes et plus particulièrement les MI-GEE peuventêtre utilisés pour l'inférence. Bien que les méthodes pour traiter les données manquantes telles que les MI-GEE aientété mises place, la sélection de variables pour GEE n'a pasété systématiquement développée pour intégrer les données manquantes. Le multiple imputation-least absolute shrinkage and selection operator (MI-LASSO) propose une sélection consistante au sein des jeux de données imputés, mais ne permet pas de prendre en compte les corrélations intra-patient. Nous présentons le MI-PGEE, multiple imputation-penalized generalized estimating equations, extension du MI-LASSO pour les données longitudinales. Cette méthode utilise les GEE pénalisés par une pénalité ridge et des poids adaptatifs qui sont communsà l'ensemble des coefficients de régression estimés de la même variable sur leséchantillons multi-imputés. Nous présentons un critère de type BIC pour le choix du paramètre de régularisation. Le MI-PGEE fournit une sélection consistante sur l'ensemble des imputations, ce qui en fait une méthode de sélection pour données longitudinales capable d'intégrer les données manquantes et les corrélations intra-sujet. Une application sur le sous groupe placebo de la base de données Strontium ranelate Efficacy in Knee OsteoarthrItis triAl (SEKOIA) est présentée.
Fichier principal
Vignette du fichier
geronimi_saporta_Jds2016.pdf (159.15 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02500612 , version 1 (06-03-2020)

Identifiants

  • HAL Id : hal-02500612 , version 1

Citer

Julia Geronimi, Gilbert Saporta. Intégrer les données manquantes dans la sélection de variables pour données longitudinales. 48 èmes Journées de Statistique, May 2016, Montpellier, France. ⟨hal-02500612⟩
74 Consultations
210 Téléchargements

Partager

Gmail Facebook X LinkedIn More