De la recherche d’informations hautement spécialisées : le cas de la recherche d’informations dans les brevets de chimieDe la recherche d’informations hautement spécialisées : le cas de la recherche d’informations dans les brevets de chimie

Auteurs

DOI :

https://doi.org/10.55790/journals/ressi.2010.e1102

Mots-clés :

modèles de recherche d’information, bibliothèque numérique, propriété intellectuelle, chimie, indexation models of information retrieva, digital library, IP, chemistry, indexing

Résumé

Nous décrivons le développement d’un moteur de recherche avancé pour la recherche d’informations dans les bibliothèques de brevets de chimie. Nous utilisons la campagne internationale d’évaluation TREC (Text Retrieval Conferences) pour évaluer une stratégie de recherche combinant : un modèle de recherche vectoriel standard, les réseaux de co-citations reliant les brevets, et une stratégie de normalisation (synonymes ramenés à un identifiant unique) des entités nommées chimiques basée sur le traitement automatique de la langue. Un moteur vectoriel basique obtient une précision moyenne de 0.067. On observe qu’un gain de précision important est apporté par l’usage des réseaux de citations (+168%), tandis que d’autres contenus, tels les codes IPC, semblent n’apporter aucun gain. Conclusion : Les performances de notre moteur (précision moyenne proche de 20%), développé en quelques semaines seulement, le placent en tête des évaluations officielles TREC ; ce qui suggère que la valeur d’une collection porte davantage sur son contenu que sur les instruments de recherche, désormais à la portée de n’importe quelle équipe de développeurs en science de l’information.

Abstract
We describe the development of an advanced retrieval engine to search information in libraries of chemical patents. We use the international TREC (Text Retrieval Conferences) evaluation framework to develop and assess an original search strategy combining a standard vector-space model, a network of co-citations between patents, and a strategy of standardization/expansion of chemical named-entities based on natural language processing.

Our basic engine obtains an average accuracy of 0.067. The most significant precision gain is provided by the use of co-citations (+168%), while other contents, in particular ICP codes, do not improve retrieval effectiveness of the engine. The official TREC performance of our engine (ranked #1, with a mean average precision approaching 20%) emphasize the role of document contents as opposed to technological expertise in document retrieval.

Téléchargements

Publiée

22-11-2010

Comment citer

Ruch, P. (2010). De la recherche d’informations hautement spécialisées : le cas de la recherche d’informations dans les brevets de chimieDe la recherche d’informations hautement spécialisées : le cas de la recherche d’informations dans les brevets de chimie. Revue électronique Suisse De Science De l’information (RESSI), (11), 14. https://doi.org/10.55790/journals/ressi.2010.e1102

Numéro

Rubrique

Études et recherches