Indexation des documents PDF par Google

September 07, 2011 - 1 min delecture

Jonathan Vidor

Grâce à son blog pour les webmasters, Google a fait un point sur son service d’indexation des fichiers PDF dont nous allons vous faire un résumé.

Tout d’abord ce service n’est pas du tout nouveau car il date de 2001 et a déjà indexé des centaines de millions de fichiers PDF. Le service peut indexer un grand nombre de fichiers PDF utilisant différentes langues et codages à condition qu’ils ne soient pas protégés par un mot de passe ou encore cryptés.
Lorsque des images sont présentes à l’intérieur du fichier elles ne sont pas indexées sur Google Images. Cependant lorsqu’elles contiennent du texte, Google utilise des algorithmes de reconnaissance optique de caractères (OCR) afin d’extraire le texte et l’indexer.Il faut savoir que les fichiers PDF sont traités de façon similaire aux pages HTML. Ainsi il vaut mieux de ne pas reproduire le contenu du PDF sur une page HTML pour éviter les risques de duplicate content.
Enfin, lorsque vous ne souhaitez pas indexer un fichier PDF, il vous suffit d’insérer un « X-Robots-Tag:noindex » dans l’entête HTTP utilisé pour lancer le fichier.

Ecrit par

Jonathan Vidor

Fondateur et CEO de JVWEB (depuis 2004)