Inibire i motori di ricerca con il file Robots.txt
Posizionare un sito sui motori di ricerca è un’attività imprescindibile per qualunque sito; infatti se le sue pagine non apparissero su Google, Yahoo, oppure il nuovo Bing ( erede di Live search ), molto probabilmente in breve tempo diventerebbe una sorta di “ramo secco”.
Tuttavia, se ci pensi bene, non tutte le pagine di un sito dovrebbero essere necessariamente indicizzate; per esempio in un sito realizzato con un CMS sarebbe buona norma inibire l’accesso agli spider della cartella /admin, dove solitamente si trovano i files necessari per gestire il Web-site.
Come farlo ? E’ semplicissimo, utilizzando un file di testo denominato robots.txt che dovrai inserire nella root del server.
Come tutti i file di testo, anche il file robots.txt deve essere editato con un banale word processor, ti suggerisco blocco note di Windows.
Il file può essere configurato con una sintassi molto semplice, in [ questa ] pagina troverai i comandi principali, oppure se sei un esperto personalizzando il tuo robots.txt con delle regex, meglio conosciute come espressioni regolari [ sintassi attraverso le quali si possono rappresentare insiemi di caratteri ].
A volte, quando aggiungo del nuovo codice nei files robots.txt dei mei siti, mi capita di avere dei dubbi, altre volte di sbagliare a scrivere un comando senza accorgermene, può succedere più spesso di quanto credi, quando lo fai anche tu usa l’analizzatore Robots.txt.
Da oggi dopo aver letto questo breve posts e tutte le guide e i tools suggeriti, anche tu potrai filtrare e pianificare l’attività di indicizzazione delle pagine del tuo sito, fallo è molto importante.