Disabilitare cartelle, file , sito con disallow e robots.txt

Fabrizio S.

7 anni fa

Vediamo adesso come impedire ai motori di ricerca di accedere al vostro sito oppure ad una pagina del sito con robots.txt. Ovviamente si tratta di impedire l’accesso al sito , alla cartella , al file da parte dei principali motori di ricerca. Ossia vogliamo impedirne l’indicizzazione.
Vedremo che anche se il tentativo è lo stesso il funzionamento implica delle differenze abbastanza sostanziali che andremo adesso ad esaminare. Prossimamente esamineremo anche con i file htaccess e con noindex e vedremo che hanno un funzionamento analogo.

Impedire accesso al crawler spider tramite Robots.txt e disallow.

Ovviamente il crawler è lo spider dei principale motore di ricerca che viene nel vostro sito per effettuare la scansione dello stesso. Mentre il robots.txt è un file che si trova all’interna del vostro sito. Può essere messo nella cartella principale o in una sottocartella. Ha una sintassi estremamente semplice. Partiamo da un esempio generale

Bloccare tramite txt l’accesso all’intero sito

In questo caso dovrete inserire nel file la seguente dicitura.

User-agent: *
Disallow: /

Bloccare lo spider ad una sola cartella o ad un file con robots.txt

In questo caso il testo da inserire nella cartella è il seguente.

User-agent: *
Disallow: /file_da_bloccare.html
Disallow: /cartella_da_bloccare/

Un ultima annotazione come potete vedere ho inserito sempre nella prima riga il codice

User-agent: *

Questo indica che quello che seguirà vale per tutti gli spider di tutti i motori di ricerca. Mettiamo il caso invece che vogliamo che quel blocco sia valido solo per alcuni spider e non per altri. In questo caso bisognerà tenere conto della seguente

Lista Spider Motori di Ricerca

googlebot Google
fast Fast – Alltheweb
slurp Inktomi – Yahoo!
scooter Altavista
mercator Altavista
Ask Jeeves Ask Jeeves
teoma_agent Teoma
ia_archiver Alexa – Internet Archive

Quindi per esempio se vogliamo bloccare solo google dovremo sostituire con il seguente codice

User-agent: googlebot

Mentre se volete inserire un commento nel robots.txt magari per ricordarvi come mai avete fatto quella scelta , non dovrete fare altro che fare precedere il commento stesso dal carattere # uno per riga.

Di tutti i metodi elencati per bloccare l’accesso di spider crawler questo è quello meno sicuro.

In quanto non si tratta proprio di una direttiva del server. Si tratta solamente di dire al crawler di indicizzare o meno quella determinata pagina, cartella o singolo file. Per quanto mi riguarda è un consiglio che i principali motori di ricerca rispettano ma non è vincolante. Ovviamente si tratta di pratiche particolarmente utilizzate in ambito SEO.

Impedire accesso al crawler spider tramite Robots.txt e disallow.

Bloccare tramite txt l’accesso all’intero sito

Lista Spider Motori di Ricerca

Condividi: