Formations

Le moteur Google : 13 millions de documents PDF indexés -

le 22 septembre 2008

Indépendants - Ressources gratuites

Google est devenu le premier moteur de recherche de renom à indexer les documents PDF. Bien des chercheurs et des universitaires chérissent les documents en format PDF. La raison en est bien simple : ils souhaitent publier leurs recherches sur Internet mais ne disposent pas du temps requis pour les transformer en HTML, le langage habituel du Web.

La société Google a estimé qu’à ce jour son moteur a rendu 13 millions de documents PDF disponibles. David Krane, attaché à la Société, a avancé que cela représente environ 70 % de tous les documents PDF disponibles en ligne au public. Afin de lire les documents PDF, les utilisateurs doivent télécharger gratuitement un logiciel distribué par Adobe Systems, la compagnie qui a développé ledit format. Quelques documents en PDF indexés par Google sont toutefois rendus disponibles sur son site en version texte.

Krane a constaté qu’un fichier HTML moyen comprend cinq fois moins de mots qu’un fichier PDF moyen. Puis il a ajouté que les ingénieurs de chez Google ont trouvé que le fichier PDF moyen est cent fois plus volumineux que le fichier HTML moyen. Les ressources nécessaires pour indexer un aussi vaste ensemble de données sont telles que les observateurs croient que les autres moteurs de recherche seront peu tentés d’ajouter l’indexation de documents PDF à leurs services.

Avez-vous apprécié cette page?

Voir plus d'articles de cet auteur

Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez des infolettres sur :

De plus, indexez vos ressources préférées dans vos propres dossiers et retrouvez votre historique de consultation.

M’abonner
Je suis déja abonné