Articles

Entités : le nouvel eldorado des moteurs de recherche

Ce que les humains apprécient est ce qui donne le sens. Découvrez de nouveaux outils de forage de données.

Par Denys Lamontagne , le 03 avril 2012 | Dernière mise à jour de l'article le 08 avril 2013

Récemment j’ai été intrigué par une recommandation d’un conseiller «SEO» (Search engine optimization) qui conseillait d'accorder une place importante aux noms propres, aux personnes, aux marques, aux lieux. Il nous présentait ça comme la nouvelle priorité des moteurs de recherche.

Sémantique ?

 
On parle du web sémantique depuis des années; il semble maintenant que les algorithmes d’indexation soient de plus en plus basés sur le sens généré par les relations entre les mots plutôt que par les mots eux-mêmes, mots qui peuvent prendre plusieurs sens selon le contexte. L'importance de la fréquence ou de la popularité diminue au profit du statut de l'«entité».

Ainsi un mot comme «Mars» peut référer au mois de l’année ou encore à la planète; deux sens associés à des quantités énormes de données. On trouve également des expressions comprenant «mars» faisant référence à la mythologie, à la littérature ou à autre chose, mais ce seront évidemment les deux premiers sens qui auront l’essentiel des probabilités d’occurrence.

Ainsi les éléments qui donnent l"un sens au sens", ou une signification unique aux mots, sont les plus recherchés.

Les entités

 
Finalement, ceux qui apprécient le sens et ceux qui donnent le sens sont identiques : les humains, ou plutôt l’activité des humains.  Ce sont eux qui font les événements, qui nomment les lieux et les choses, qui créent les oeuvres, qui explorent et découvrent, qui prennent les photos et écrivent les textes.

On peut même pousser le concept très loin : tous les mots ont été utilisés une première fois par quelqu’un. Tous les sens ont une origine qui a été appréciée une première fois par des gens.  E=mc2 est associé à Einstein, R3/T2 à Kepler, h à Planck, la pasteurisation, le daguerrotype, et combien d’autres inventions, procédés, idées ou pratiques sont associées plus ou moins explicitement à quelqu’un. Des courants idéologiques, d’Aristote à Marx, de Confucius à  Ghandi donnent du sens à des pans entiers d’histoire. Même certaines choses ou lieux acquièrent une personnalité et peuvent se hisser au rang «d’entité» : Paris, New York, Rome, mais aussi le Grand Canyon, la DS, la pomme, la 5e symphonie de Beethoven... traînent avec eux une myriade de sens, d'évocations, un arrière-plan chargé d'histoires et d'histoire.

Alors, il va de soi que les «entités», qu’elles soient physiques comme une personne ou morales comme une institution, une entreprise ou même une marque, soient aujourd’hui à la source et à la base de l’indexation au même titre que le temps ou les marqueurs d'espace.

Des moyens

 
Voici trois outils de forage des données, accessibles virtuellement à défaut de l’être pratiquement à moins d’avoir les connaissances de programmation nécessaires.

Ces outils sont destinés aux professionnels du forage de données, cependant le fait de voir les explications et les procédures qu’ils utilisent permet de comprendre comment ils se servent de nos données et des traces de nos activités pour en arriver à des résultats étonnants.

Free Base

Free Base contient plus de 22 millions d’entités documentées par les usagers. On est encore bien loin des 7 milliards d’être humains ou même des 800 millions d’usagers de Facebook, des 367 millions de sites webs (décembre 2011) ou des centaines de millions d’entreprises et d’institutions et même d’oeuvres, de livres ou de pièces de musique. Mais c’est autrement plus que que les 200 000 mots du dictionnaire.

Free base permet de fouiller dans ses données et également d’en ajouter à partir de ses propres bases de données. En fait, il s’agit ultimement de construire un thésaurus (liste organisée de termes associés à un domaine) complet dans tous les domaines avec leurs liens et de servir de pont entre différentes bases de données qui se complètent les unes les autres.

Vous trouverez plus d’informations sur le site de Free Base.  Ce court vidéo explique assez clairement ce dont il s’agit.


Google Refine

La saisie des données n’est pas une science axacte [vous voulez sans doute dire «exacte»].  C’est le genre de service que rend «Google Refine» qui permet de regrouper de grandes quantités de données rapidement, d’en transformer les formats, de rapprocher les données de plusieurs sources, entre autres en se servant de Freebase mais aussi de Google Map ou d’autres applications Google et de faire sortir le sens de confusions apparentes.

Plusieurs vidéos d'explications sont accessibles sur le site.

 

DBpedia

Signalons enfin un fort intéressant article publié sur Cblog (blog de la culture et du numérique, Ministère de la culture et de la communication, France), sur le projet DBpedia, qui vise à lier entre elles toutes les données traitées dans Wikipedia : "Dans sa version actuelle, la version 3.7, DBpedia contient plus de 3,64 millions d’éléments, parmi lesquels 1,83 millions sont classés selon une ontologie cohérente. On relève, dans ce classement, 416 000 personnes, 526 000 lieux, 106 000 albums de musique, 60 000 films, 17 500 jeux vidéo, 169 000 organisations, 183 000 espèces et 5 400 maladies".

Le "dataset" de DBpedia est notamment utilisé pour répondre à des questions complexes en langage naturel telles que "quels sont les gratte-ciels de Chine qui comptent plus de 50 étages ?", ce que ne peut pas faire un moteur comme Google, pour le moment. Il permet aussi, et peut-être d'abord, de recenser toutes les informations liées à une entité. Regardez la page de données associées à l'entité Paul McCartney; chaque donnée renvoie elle-même à une autre page de donnéées liées. Ce simple exemple permet de mesurer l'ampleur de la tâche à accomplir.  L'article de Cblog est dense, mais très instructif. Il permet de mesurer les enjeux qui sous-tendent la constitution de telles bases, pour un avenir finalement très proche de nous.

Le grand chantier de DBpedia : lier les données du web. Chris Bizer, Cblog, 23 février 2012.

Illustration : idodds, Flickr, licence CC.

Avez-vous apprécié cette page?

Voir plus d'articles de cet auteur

Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez des infolettres sur :

De plus, indexez vos ressources préférées dans vos propres dossiers et retrouvez votre historique de consultation.

M’abonner
Je suis déja abonné