Il file robots.txt | Guida SEO
In questo articolo della nostra guida SEO vedremo cos’è, a cosa serve e come funziona il file robots.txt, un file fondamentale in grado di incidere sull’indicizzazione del nostro sito web all’interno dei motori di ricerca.
Cos’è il file robots.txt
Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si voglia utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l’accesso a determinati file o intere cartelle.
Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l’accesso all’intero sito ad uno specifico spider (ci sono in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).
Lo standard per l’esclusione dei robot (Robots Exclusion Standard) è dunque quel sistema che permette ai webmaster, programmatori e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).
Come già detto, questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.
Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo robots.txt. All’interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.
Una volta creato, il file robots.txt deve essere pubblicato nella directory principale del sito web.
Il file robots.txt utilizza due regole : User-agent e Disallow.
Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è :
User-agent: [nome_dello_spider]
Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi è :
Disallow: [nome_del_file_o_della_directory]
Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l’accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
Successivamente, potete analizzare altri esempi singoli.
User-agent: Alexibot
Disallow: /
User-agent: googlebot
Disallow: /password.html
Disallow: /preferiti.html
Disallow: /documenti/
Disallow: /database/
User-agent: *
Disallow:
Disallow: / ---> blocco per l'intero sito
Disallow: /directory-personale/ ---> blocco della directory [directory-personale] e del relativo contenuto
Disallow: /file-personale.html ---> blocco della pagina [file-personale.html]
User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg ---> rimuove l'immagine [immagine-personale.jpg] da Google Images
User-agent: Googlebot-Image
Disallow: / ---> rimuove tutte le immagine del sito da Google Images
Disallow: /*.mdb$ ---> blocco di tutti i file di tipo [mdb]
Disallow: /asp*/ ---> blocco di tutte le sottodirectory che iniziano con [asp]
Disallow: /*? ---> blocco di tutti gli URL che comprendono un punto interrogativo
Disallow: /*.doc$ ---> blocco di tutti gli URL che terminano con [.doc]
Altri esempi di file robots.txt
Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi.
Ammettere tutti gli spider
Per consentire l’accesso a tutti gli spider senza restrizioni:
User-Agent: * Disallow:
Si noti che questa è l’impostazione di “default” che equivale, nella sostanza, a non caricare il file robots.txt.
Escludere tutti gli spider
Se lo desideriamo possiamo, grazie al file robots.txt, bloccare l’indicizzazione dell’intero sito (ad esempio perché vogliamo che questo resti riservato a noi ed ai nostri pochi amici) :
User-agent: * Disallow: /
Escludere uno spider specifico
Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall’accesso alle pagine del nostro sito :
User-Agent: * Disallow: User-agent: SpiderSgradito Disallow: /
Ammettere un solo spider nel file robots.txt
Supponiamo di voler autorizzare l’accesso al nostro sito solo allo spider di Google, bloccando tutti gli altri :
User-Agent: * Disallow: / User-agent: Googlebot Disallow:
Conclusione
Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili ; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicuri che questo sia necessario e che le impostazioni inserite siano corrette ; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP !).
Una piccola nota conclusiva: se non caricate il file robots.txt nella root del sito vi troverete molto presto con il log degli errori pieno zeppo di errori 404…