thèse clémentClément de Groc, ingénieur de recherche à Syllabs, soutiendra sa thèse intitulée “Collecte orientée sur le Web pour la recherche d’information spécialisée” le mercredi 5 juin à 10h en salle de conférence du LIMSI-CNRS (Bâtiment 508, Université Paris-Sud, 91400 Orsay ; http://www.limsi.fr).

Venez nombreux !

 

 

Résumé

Les moteurs de recherche verticaux, qui se concentrent sur des segments spécifiques du Web, deviennent aujourd’hui de plus en plus présents dans le paysage d’Internet. Les moteurs de recherche thématiques, notamment, peuvent obtenir de très bonnes performances en limitant le corpus indexé à un thème connu. Les ambiguïtés de la langue sont alors d’autant plus contrôlables que le domaine est bien ciblé. De plus, la connaissance des objets et de leurs propriétés rend possible le développement de techniques d’analyse spécifiques afin d’extraire des informations pertinentes.

Dans le cadre de cette thèse, nous nous intéressons plus précisément à la procédure de collecte de documents thématiques à partir du Web pour alimenter un moteur de recherche thématique. La procédure de collecte peut être réalisée en s’appuyant sur un moteur de recherche généraliste existant (recherche orientée) ou en parcourant les hyperliens entre les pages Web (exploration orientée).

Nous étudions tout d’abord la recherche orientée. Dans ce contexte, l’approche classique consiste à combiner des mot-clés du domaine d’intérêt, à les soumettre à un moteur de recherche et à télécharger les meilleurs résultats retournés par ce dernier.

Après avoir évalué empiriquement cette approche sur 340 thèmes issus de l’OpenDirectory, nous proposons de l’améliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requêtes thématiques plus pertinentes pour le thème afin d’augmenter la précision de la collecte. Nous définissons une métrique fondée sur un graphe de cooccurrences et un algorithme de marche aléatoire, dans le but de prédire la pertinence d’une requête thématique. En aval du moteur de recherche, nous proposons de filtrer les documents téléchargés afin d’améliorer la qualité du corpus produit. Pour ce faire, nous modélisons la procédure de collecte sous la forme d’un graphe triparti et appliquons un algorithme de marche aléatoire biaisé afin d’ordonner par pertinence les documents et termes apparaissant dans ces derniers.

Dans la seconde partie de cette thèse, nous nous focalisons sur l’exploration orientée du Web. Au coeur de tout robot d’exploration orientée se trouve une stratégie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un thème, tout en minimisant le nombre de pages visitées qui ne sont pas en rapport avec le thème. En pratique, cette stratégie définit l’ordre de visite des pages. Nous proposons d’apprendre automatiquement une fonction d’ordonnancement indépendante du thème à partir de données existantes annotées automatiquement.

Comments are closed.