Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web - Archive ouverte HAL Access content directly
Journal Articles Revue des Nouvelles Technologies de l'Information Year : 2008

Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

(1) , (2) , (3) , (4)
1
2
3
4

Abstract

Notre objectif dans cet article est l'analyse textuelle d'un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L'application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L'ensemble de classes de pages groupés en thèmes facilitera l'analyse ultérieure de l'usage du site.
Fichier principal
Vignette du fichier
1000555.pdf (197.05 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-02507577 , version 1 (16-12-2020)

Identifiers

  • HAL Id : hal-02507577 , version 1

Cite

Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed. Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web. Revue des Nouvelles Technologies de l'Information, 2008, RNTI-E11, pp.43-54. ⟨hal-02507577⟩
63 View
28 Download

Share

Gmail Facebook Twitter LinkedIn More