What Is It About,
Script d'exploration de Wikipédia - Projet personnel

WIIA est un script python récursif relativement simple qui explore Wikipédia: on entre un mot et un niveau de profondeur n, le programme trouve la page wikipédia correspondante au mot puis, de là, explore les pages linkées sur celle ci, puis les pages linkées sur celles-ci... et ce n fois. A l'issue, le programme retourne une liste de mots avec, pour chacun, un taux de correspondance en fonction de la redondance de ce mot dans le processus d'exploration. Cela simule un processus de pensée par associations dans lequel l'expérience est remplacé par la structure du site wikipédia: Pour le mot "Coca Cola" par exemple, on aura une correspondance importante avec "soda", une correspondance moyenne avec "États Unis", une correspondance plus faible avec "Père Noël", etc.
Après quelques tests, j'ai remarqué que certains mots revenaient anormalement souvent. C'était le cas de "ISBN", qui est un système d'identification de livre et qui apparaît systématiquement dans la section référence des pages wikipédia. J'ai donc développé un second script, basé sur le premier, qui trouvait ce type d'aberration statistique et qui les blacklistait. Un résultat amusant, sur une recherche pour laquelle j'avais choisi un facteur d'élimination trop élevé, le programme avait blacklisté "États Unis".
Ce projet était intéressant mais le défaut majeur de mon script était son temps d'exécution très long. Je prévois de revenir dessus pour améliorer cet aspect.

Technologies utilisées

Python 3.7
librairies Wikipedia, numpy, collections

Compétences transversales

Rédaction d'un suivi de projet en anglais sur Github

Documents et liens associés

dépot GitHub du projet

Retour à la page principale