Skip to Main content Skip to Navigation
Conference papers

Le Machine Learning : numérique non supervisé et symbolique peu supervisé, une chance pour l’analyse sémantique automatique des langues peu dotées

Résumé : Les données non structurées dominent l'univers de la production et de la publication des données, et en représentent, d'après plusieurs études, plus de 80%. Ce type de contenus, constitue la partie riche et précieuse en termes de données, d'informations et de connaissances ; donc nécessaire à intégrer et à prendre en considération dans les processus d'analyses et d'exploitations des données. L'analyse des données non structurées reste une discipline difficile, car elle repose sur de nombreux (pré-)traitements numériques (formalisation, normalisation, corpus, annotations, etc.) de la langue naturelle, faisant souvent défaut, surtout dans le cas des langues peu dotées. Dans cet article nous présentons une approche, bien adaptée aux cas où on ne dispose pas ou que de peu de données traitées. Elle est basée sur des méthodes d'apprentissages numériques non supervisés indépendants de la langue et symboliques peu supervisés, permettant d'exploiter directement des données brutes ou seulement des petites quantités de données traitées, comme base d'apprentissage pour l'interprétation des données. En l'appliquant à un cas concret d'une langue peu dotée, nous avons pu, montrer l'utilité et surtout l'opportunité que ces technologies pourraient constituer pour contourner les problèmes dont souffre ce type de langues, facilitant ainsi leur accès dans le monde de l'analyse sémantique automatique des données non structurées. Cette étude a été validée à travers des expérimentations confirmant de bons résultats pour l'approche.
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal-cnam.archives-ouvertes.fr/hal-02555540
Contributor : Hammou Fadili <>
Submitted on : Wednesday, May 20, 2020 - 10:45:12 AM
Last modification on : Thursday, June 11, 2020 - 3:39:07 AM

File

Le Machine Learning numérique...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02555540, version 1

Collections

Citation

Hammou Fadili. Le Machine Learning : numérique non supervisé et symbolique peu supervisé, une chance pour l’analyse sémantique automatique des langues peu dotées. TICAM, Nov 2016, Rabat, Maroc. ⟨hal-02555540⟩

Share

Metrics

Record views

30

Files downloads

14