Skip to Main content Skip to Navigation
Journal articles

Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

Abstract : Notre objectif dans cet article est l'analyse textuelle d'un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L'application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L'ensemble de classes de pages groupés en thèmes facilitera l'analyse ultérieure de l'usage du site.
Document type :
Journal articles
Complete list of metadatas

https://hal-cnam.archives-ouvertes.fr/hal-02507577
Contributor : Gilbert Saporta <>
Submitted on : Friday, March 13, 2020 - 12:38:07 PM
Last modification on : Wednesday, March 25, 2020 - 11:27:39 AM

Identifiers

  • HAL Id : hal-02507577, version 1

Collections

Citation

Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed. Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web. Revue des Nouvelles Technologies de l'Information, Hermann, 2008, RNTI-E11, pp.43-54. ⟨hal-02507577⟩

Share

Metrics

Record views

38