Codage optimal : nouveaux regards sur un ancien problème - Archive ouverte HAL Access content directly
Conference Papers Year : 2022

Codage optimal : nouveaux regards sur un ancien problème

(1)
1

Abstract

Processing qualitative variables with a very large number of categories in Machine Learning is an opportunity to revisit the theory of optimal scaling and its applications.
Coder une variable qualitative consiste à attribuer des valeurs numériques à ses modalités, donc à la transformer en une variable numérique discrète. Un codage revient alors à définir les coefficients d’une combinaison linéaire des indicatrices des modalités sous certaines contraintes comme la monotonicité en cas de variables à modalités ordonnées. La transformation de variables qualitatives en variables quantitatives a une longue histoire remontant à K. Pearson, R.A. Fisher, L. Guttman, C.Hayashi, etc. Elle fut à l’origine de l’analyse des correspondances (Lebart et Saporta, 2014). Les années 70 et le début des années 80 furent celles de la recherche de codages (appelés scores ou scaling) optimaux dans des contextes supervisés ou non supervisés où s’illustrèrent des chercheurs comme J. de Leeuw, S. Nishisato, Y.Takane, M. Tenenhaus, F.Young. On se reportera à Young (1981). Ces recherches furent popularisées par des logiciels: procédures Prinqual et Transreg de SAS, SPSS Categories. Pendant près de 30 ans, le sujet ne suscita plus guère de recherches; les applications où on attribue des notes aux catégories des prédicteurs devinrent routinières comme les scores de risque en banque et en assurance. Avec la disponibilité de données massives, les chercheurs et praticiens de l’apprentissage se sont trouvés confrontés à des données catégorielles, mal adaptées aux réseaux de neurones et possédant des dizaines ou des centaines de catégories (comme des codes postaux par exemple). Voir Hancock & Khoshgoftaar (2020). Ignorant généralement les travaux des statisticiens, on a vu fleurir différentes méthodes d’encoding essentiellement pour des problèmes supervisés. Di Ciaccio (2022) indique que Scikit-learn propose 17 méthodes différentes qu’il sépare en trois groupes : les méthodes où le codage d’une variable ne dépend pas des autres variables (en particulier de la réponse) comme le Hash encoding, celles où le codage ne dépend que de la réponse (moyenne conditionnelle), et le One-Hot Encoding qui n’est autre que la mise sous forme disjonctive avec autant d’indicatrices que de modalités. La grande dimension de certaines données catégorielles soulève alors des problèmes de stabilité et de surajustement que l’on négligeait dans les applications statistiques classiques où le nombre de modalités est faible et où la démarche apprentissage-test était peu fréquente. La confrontation de ces deux mondes permet d’envisager un renouveau des méthode de codage (voir Meulman et al., 2019).
Vignette du fichier
SFC2022_Codage optimal.pdf (2.08 Mo) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-03778052 , version 1 (03-11-2022)

Identifiers

  • HAL Id : hal-03778052 , version 1

Cite

Gilbert Saporta. Codage optimal : nouveaux regards sur un ancien problème. 27èmes rencontres de la Société Francophone de Classification (SFC) 2022, Université Lumière Lyon 2, Sep 2022, Lyon, France. ⟨hal-03778052⟩
17 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More