Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web - Cnam - Conservatoire national des arts et métiers Accéder directement au contenu
Article Dans Une Revue Revue des Nouvelles Technologies de l'Information Année : 2008

Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

Résumé

Notre objectif dans cet article est l'analyse textuelle d'un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L'application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L'ensemble de classes de pages groupés en thèmes facilitera l'analyse ultérieure de l'usage du site.
Fichier principal
Vignette du fichier
1000555.pdf (197.05 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02507577 , version 1 (16-12-2020)

Identifiants

  • HAL Id : hal-02507577 , version 1

Citer

Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed. Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web. Revue des Nouvelles Technologies de l'Information, 2008, RNTI-E11, pp.43-54. ⟨hal-02507577⟩
79 Consultations
105 Téléchargements

Partager

Gmail Facebook X LinkedIn More