Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

Malika Charrad; Yves Lechevallier; Gilbert Saporta; Mohamed Ben Ahmed

Article Dans Une Revue Revue des Nouvelles Technologies de l'Information Année : 2008

Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

(1) , (2) , (3) , (4)

1
2
3
4

Malika Charrad

Fonction : Auteur
PersonId : 1343595
IdHAL : malika-charrad
ORCID : 0009-0004-0360-5926

Centre d'études et de recherche en informatique et communications

Yves Lechevallier

Fonction : Auteur
PersonId : 830029

Usage-centered design, analysis and improvement of information systems

Gilbert Saporta

Fonction : Auteur
PersonId : 180161
IdHAL : gilbert-saporta
ORCID : 0000-0002-3406-5887
IdRef : 027122565

CEDRIC. Méthodes statistiques de data-mining et apprentissage

Mohamed Ben Ahmed

Fonction : Auteur
PersonId : 885593

Laboratoire de recherche en Génie Logiciel, Applications distribuées, Systèmes décisionnels et Imagerie intelligente [Manouba]

Résumé

Notre objectif dans cet article est l'analyse textuelle d'un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L'application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L'ensemble de classes de pages groupés en thèmes facilitera l'analyse ultérieure de l'usage du site.

Mots clés

Natural Language Processing Clustering Text Mining Biclustering

Domaines

Traitement du texte et du document Web Statistiques [stat]

Fichier principal

1000555.pdf (197.05 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Gilbert Saporta : Connectez-vous pour contacter le contributeur

https://cnam.hal.science/hal-02507577

Soumis le : mercredi 16 décembre 2020-13:30:35

Dernière modification le : jeudi 1 février 2024-10:06:40

Archivage à long terme le : mercredi 17 mars 2021-19:15:18

Dates et versions

hal-02507577 , version 1 (16-12-2020)

Identifiants

HAL Id : hal-02507577 , version 1

Citer

Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed. Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web. Revue des Nouvelles Technologies de l'Information, 2008, RNTI-E11, pp.43-54. ⟨hal-02507577⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 INRIA CNAM IRISA INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES CEDRIC-CNAM UR1-MATH-NUM

82 Consultations

109 Téléchargements

Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager