Le Machine Learning : numérique non supervisé et symbolique peu supervisé, une chance pour l’analyse sémantique automatique des langues peu dotées - Cnam - Conservatoire national des arts et métiers Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Le Machine Learning : numérique non supervisé et symbolique peu supervisé, une chance pour l’analyse sémantique automatique des langues peu dotées

Résumé

Les données non structurées dominent l'univers de la production et de la publication des données, et en représentent, d'après plusieurs études, plus de 80%. Ce type de contenus, constitue la partie riche et précieuse en termes de données, d'informations et de connaissances ; donc nécessaire à intégrer et à prendre en considération dans les processus d'analyses et d'exploitations des données. L'analyse des données non structurées reste une discipline difficile, car elle repose sur de nombreux (pré-)traitements numériques (formalisation, normalisation, corpus, annotations, etc.) de la langue naturelle, faisant souvent défaut, surtout dans le cas des langues peu dotées. Dans cet article nous présentons une approche, bien adaptée aux cas où on ne dispose pas ou que de peu de données traitées. Elle est basée sur des méthodes d'apprentissages numériques non supervisés indépendants de la langue et symboliques peu supervisés, permettant d'exploiter directement des données brutes ou seulement des petites quantités de données traitées, comme base d'apprentissage pour l'interprétation des données. En l'appliquant à un cas concret d'une langue peu dotée, nous avons pu, montrer l'utilité et surtout l'opportunité que ces technologies pourraient constituer pour contourner les problèmes dont souffre ce type de langues, facilitant ainsi leur accès dans le monde de l'analyse sémantique automatique des données non structurées. Cette étude a été validée à travers des expérimentations confirmant de bons résultats pour l'approche.
Fichier principal
Vignette du fichier
Le Machine Learning numérique non supervisé et symbolique peu supervisé, une chance pour l analyse sémantique automatique des langues peu dotées.pdf (1008.36 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02555540 , version 1 (20-05-2020)

Identifiants

  • HAL Id : hal-02555540 , version 1

Citer

Hammou Fadili. Le Machine Learning : numérique non supervisé et symbolique peu supervisé, une chance pour l’analyse sémantique automatique des langues peu dotées. TICAM, Nov 2016, Rabat, Maroc. ⟨hal-02555540⟩
138 Consultations
518 Téléchargements

Partager

Gmail Facebook X LinkedIn More