There is an english version of the site here.
Les événements en cours et passés en rapport avec le projet sont à la page événements.

Actualités



En parteneriat avec le Demokritos d'Athènes, et au sein du réseau d'excellence PASCAL 2, nous organisons le premier défi sur la catégorisation hiérarchique de textes à grande échelle : http://lshtc.iit.demokritos.gr/

Résumé du projet


La description complète du projet se trouve dans la page documents.

Plusieurs problèmes de catégorisation mettent en jeu des systèmes comprenant plusieurs milliers de catégories. Les offices de brevets, par exemple, sont chargés d’affecter, à chaque nouvelle demande de brevet, un code fondé sur la Classification Internationale des Brevets qui contient environ 70 000 sous-divisions. DMOZ, qui se veut le plus grand répertoire du web, contient plus de 590 000 catégories, dans lesquelles de nouvelles pages sont catégorisées par une équipe de volontaires travaillant chacune sur une sous-partie du système complet. Une telle situation se rencontre aussi dans le cadre de l’annotation sémantique d’éléments, où il s’agit d’affecter à une partie d’un document un ou plusieurs concepts d’une ontologie ou d’un thésaurus. Dans le domaine médical par exemple, PubMed contient plus de 16 millions de références dont les résumés sont indexés à partir des concepts du MeSH, un thésaurus qui contient plus de 150 000 concepts.

Si plusieurs travaux se sont intéressés au problème du passage à l’échelle de classifieurs, la majorité s’est concentrée sur des collections pour lesquelles le nombre d’exemples ou le nombre d’attributs est grand (le récent « challenge » PASCAL Large Scale Learning est un bon exemple) et peu ont abordé le problème du déploiement ou du développement de classifieurs sur des très grands systèmes de catégories. En particulier, aucun résultat théorique n’a été jusqu’ici proposé pour déployer un classifieur donné sur de très grands systèmes de catégories.

Le problème qui nous intéresse ici est celui de la catégorisation dans les grands systèmes de catégories. Il peut se formuler de la façon suivante :
Etant donné un grand ensemble de catégories, comment catégoriser de façon précise un nouveau document ?

Nous abordons directement dans ce projet le problème de la catégorisation sur un grand nombre de catégories, mettant en jeu un grand nombre d’exemples comportant un grand nombre d’attributs. Pour cela, nous retenons deux axes de recherche. Le premier, que nous qualifions de top-down, vise à déployer n’importe quelle technologie de catégorisation sur des grands systèmes de catégories en exploitant la structuration hiérarchique de ces systèmes. Le deuxième, que nous qualifions de direct, vise à définir une nouvelle technologie de catégorisation se concentrant directement sur l’ensemble des catégories finales. Pour ces deux approches disposer de grandes puissances de calcul est primordial, et le projet s'appuie sur l'utilisation de la grille de calcul Grid5000.