Author Avatar

Fabrizio S.

0

Share post:

Vediamo adesso come impedire ai motori di ricerca di accedere al vostro sito oppure ad una pagina del sito con robots.txt. Ovviamente si tratta di impedire l’accesso al sito , alla cartella , al file da parte dei principali motori di ricerca. Ossia vogliamo impedirne l’indicizzazione.
Vedremo che anche se il tentativo è lo stesso il funzionamento implica delle differenze abbastanza sostanziali che andremo adesso ad esaminare. Prossimamente esamineremo anche con i file htaccess e con noindex e vedremo che hanno un funzionamento analogo.

Impedire accesso al crawler  spider tramite Robots.txt e disallow.

Disallow e funzionamento robots.txt con i principali motori di ricerca
Ovviamente il crawler è lo spider dei principale motore di ricerca che viene nel vostro sito per effettuare la scansione dello stesso. Mentre il robots.txt è un file che si trova all’interna del vostro sito. Può essere messo nella cartella principale o in una sottocartella. Ha una sintassi estremamente semplice. Partiamo da un esempio generale

Bloccare tramite txt l’accesso all’intero sito

In questo caso dovrete inserire nel file la seguente dicitura.

User-agent: *
Disallow: /

Bloccare lo spider ad una sola cartella o ad un file con robots.txt

In questo caso il testo da inserire nella cartella è il seguente.

User-agent: *
Disallow: /file_da_bloccare.html
Disallow: /cartella_da_bloccare/

Un ultima annotazione come potete vedere ho inserito sempre nella prima riga il codice

User-agent: *

Questo indica che quello che seguirà vale per tutti gli spider di tutti i motori di ricerca. Mettiamo il caso invece che vogliamo che quel blocco sia valido solo per alcuni spider e non per altri. In questo caso bisognerà tenere conto della seguente

Lista Spider Motori di Ricerca

  • googlebot Google
  • fast Fast – Alltheweb
  • slurp Inktomi – Yahoo!
  • scooter Altavista
  • mercator Altavista
  • Ask Jeeves Ask Jeeves
  • teoma_agent Teoma
  • ia_archiver Alexa – Internet Archive

Quindi per esempio se vogliamo bloccare solo google dovremo sostituire con il seguente codice

User-agent: googlebot

Mentre se volete inserire un commento nel robots.txt magari per ricordarvi come mai avete fatto quella scelta , non dovrete fare altro che fare precedere il commento stesso dal carattere # uno per riga.

Di tutti i metodi elencati per bloccare l’accesso di spider crawler questo è quello meno sicuro.

In quanto non si tratta proprio di una direttiva del server. Si tratta solamente di dire al crawler di indicizzare o meno quella determinata pagina, cartella o singolo file. Per quanto mi riguarda è un consiglio che i principali motori di ricerca rispettano ma non è vincolante. Ovviamente si tratta di pratiche particolarmente utilizzate in ambito SEO.

Problema "Nessun interprete di script per file con estensione .vbs" Risolto
Plugins per creare un Comunicato Stampa con Wordpress