La plateforme logicielle ProxiDocs


La plateforme ProxiDocs construit des cartes thématique à partir de corpus de documents électroniques et des thèmes choisis et définis par l'utilisateur. Les cartes obtenues nous permettent de déduire des propriétés thématiques possédées par le corpus analysé, comme des groupes de documents thématiquement similaires à l'intérieur de ce corpus.
Pour réaliser une telle application, nous avons aussi bien utilisé des méthodes issues de l'analyse des données, telles l'analyse en composantes principales et la catégorisation hiérarchique ascendante que des notions issues de la sémantique interprétative comme la notion d'isotopie.


Principes de fonctionnement de la plateforme

La plateforme ProxiDocs va prendre en entrée un corpus de documents textuels (TXT ou HTML) ainsi que des thèmes choisis et définis par l'utilisateur. Ces thèmes seront en fait des listes de mots, chaque liste contenant des mots se rapportant à un même thème du point de vue d'un utilisateur.

La première étape consistera à compter dans chaque document du corpus, le nombre de mots de chaque thème qu'il contient. On obtient alors, pour chaque document, une liste de nombres assimilables à un vecteur.

L'étape suivante consistera à projeter ces vecteurs de cet espace à n dimensions (où n est le nombre de thèmes choisis par l'utilisateur) à un espace à 2 ou 3 dimensions visualisables à l'écran. Plusieurs méthodes de projection ont été implantées :

  • L'analyse en composantes principales ;
  • La méthode de Sammon ;
  • L'analyse factorielle des correspondances.

Une fois cette projection réalisée, des cartes peuvent être construites, ces cartes représentant chaque document par un point, les proximités existant entre documents peuvent alors indiquer une proximité thématiques entre ces documents.

Afin de proposer aux utilisateurs un regroupement automatique sur les cartes de documents thématiquement similaires, nous avons fait intervenir une méthode de catégorisation hierarchique. Les cartes obtenues mettent alors en évidence, non plus des documents, mais des groupes de documents.


Résultats obtenus dans le cadre d'une exploration thématique d'un corpus d'article de presse

A partir d'un corpus d'articles du journal Le Monde de l'année 1989 (environ 800 articles totalisant 700 000 mots) et d'un jeu de thèmes généraliste (voir ce jeu de thèmes au format XML), nous avons obtenu les résultats suivants :


Cartes thématiques mettant en évidence chaque document du corpus analysé :


Cartes thématiques mettant en évidence des groupes de documents :


Cartes thématiques en 3-Dimensions :


Cartes thématiques temporelles :

NB : les liens sur les cartes vers des articles du journal Le Monde sont désactivés car nous n'avons pas l'autorisation de les diffuser sur Internet.


Publications et rapports liés à cette application

Suivez ce lien pour voir les publications liées avec la plate-forme...

Téléchargements et contacts


Pour obtenir la plateforme ProxiDocs et sa documentation, veuillez contacter son auteur, Thibault ROY, par mail : roythibault [at] free [dot] fr.


Contacter les auteurs de l'application ProxiDocs :
- Thibault ROY, page personnelle : http://roythibault.free.fr
- Pierre BEUST, page personnelle : http://www.info.unicaen.fr/~beust