archivo ROBOTS.TXT, archivo SITEMAP  y METATAG de EXCLUSIóN

Algunas consideraciones sobre los robots indexadores para búsqueda

 

Es curioso que la gente rechaza contestar una encuesta, y le regala todas sus opiniones a los robots. Quizás deberíamos plantearnos la necesidad de decirle a los robots cuales enlaces nos gustan o no, y aún más quizás deberíamos empezar a plantearnos en engañarlos en ciertas cuestiones, si ustedes "postean" y los robots recogen los post, puede aparecer todo un historial de los blog que visitas,..., los blog, deberían tener el metatag de exclusión citado mas abajo, y:  DEBERIAN ESCRIBIR BIEN CLARITO:

"las opiniones de este blog no aparecen en los robots"

Para que las personas que quieran postear lo hagan sabiendo  que van ha ser publicadas sus opiniones, y que por lo tanto van a poder ser registradas, ordenadas y clasificadas.

Un fichero que deberíamos conocer es el robot.txt,   que tiene que estar en el directorio raiz de la web, teóricamente si está en cualquier otro directorio también deberían respetarlo, pero no lo hacen, Se trata de un vulgar archivo de texto, que se puede crear, editar y guardar con cualquier editor, y que dentro lleva en general lo siguiente:

User-Agent: (nombre del robot) (o, *) (si ponemos "*" estamos nombrando a todos los robots
Disallow: (archivo que excluimos que lea) (o, /) (si ponemos "/ " impedimos el paso a todas las páginas),(/nombre del directorio/, excluimos todos los archivos de ese directorio)  () (si está vacío el robot nombrado arriba tiene total acceso)

Allow: /searchhistory/  estamos diciendo el directorio que le dejamos indexar

 

un ejemplo

User-agent: webcrawler
Disallow:
User-agent: lycra
User-agent: BadBot
Disallow: /
Establecemos total libertad para webcrawler, porque dejamos Disallow vacio En cambio lycra y BadBot, tiene prohibido totalmente el acceso

User-agent: *
Disallow: /*.pdf$
Disallow: /*.jpeg$
Disallow: /*.exe$     Estamos diciéndoles a todos los robots tenéis prohibido indexar los ficheros con extensión .pdf  ,  .jpeg  .exe  . Como hemos olvidado .jpg, estos si los indexará. 

User-Agent: Googlebot
Disallow: /*.asp$
 
   con el $  le decimos a googlebot que estan bloquedas las  URL que finaliza con .asp

 

 
User-agent: *
Disallow: /tmp/
Disallow: /logs/
Estamos diciendo todos los robots, señalado mediante *, que tienen prohibido el acceso a los directorios /tmp/ y, /log/ ,como no nombramos los demás directorios, tienen libertad total para rastrear el resto.

 

User-Agent: Googlebot
Disallow: /privado*/

bloqueamos a googlebot el acceso a todos los subdirectorios que comienzan por "privado", ( no todos los robots saben discriminar esta orden)

 

User-agent: Googlebot
Disallow: /*?*            
bloqueamos a googlebot el acceso a todas las URL que incluyen un signo de interrogación (?)

 

 
User-agent: *
Allow: /*?$
Disallow: /*?
La línea Disallow:/ *? bloqueará cualquier URL que incluya el símbolo ?
La línea Allow: /*?$ accederá a cualquier URL que finalice con el símbolo ?

 

 

Visit-time: 0200-0745
Request-rate: 1/30m

estamos diciéndoles podéis trabajar  de  2 am a 7:45 am (Las horas son siempre formato Greenwitch) y solo puedes rastrear un documento cada 30 minutos, esto últimos es interesante si no queremos que nos coman ancho de línea


Request-rate: 1/10m 1300-1659   estamos diciéndoles podéis rastrear un documento cada 10 minutos y solo desde la 1 pm hasta las 5 pm

User-agent: msnbot
Crawl-delay: 120
  Estamos diciéndole al robot msnbot rastrea SOLO durante 120 SEGUNDOS


User-agent: *
Sitemap: http://www.google.es/urllist.txt  (no lo tiene, pues muy mal, usan  este otro >>)   aquí puedes ver   y ahí decimos donde está el sitemap, (el sitemap es el archivo con todas las direcciones de las páginas, al menos las que les decimos a los robots que deben indexar, este es el protocolo generalmente aceptado para un sitemap, aunque últimamente están pidiendo que se lo envíen directamente a ellos,

hasta aquí la fórmula robots.txt ................>

Podemos evitar que los robots indexen páginas individuales de un sitio, su sitio, si coloca el siguiente elemento de etiqueta meta en el código HTML de la página:
<meta content="NOINDEX, NOFOLLOW" name="ROBOTS" />


Si quiere permitir que los exploradores indexen páginas individuales de su sitio, pero quiere evitar que los robots de Google indexen sus páginas use la siguiente etiqueta meta en la página:
<meta content="NOINDEX, NOFOLLOW" name="GOOGLEBOT" />

 

puede evitar que Goglito, u otro robot, muestre fragmentos o caches de sus páginas usando la siguiente etiqueta: 
<meta content="NOSNIPPET" name="GOOGLEBOT" />

En general los robots no hacen caché, caché es como una fotocopia de la páqina web que guardan, pero goglito si hace caché, y además la ofrece, y aquí viene el problema, si en número de páginas web que manejas es alto, puede ocurrir que un determinado texto lo quieras eliminar, lo borras y ya está, pero no, si está en la caché de google no, lo tienes claro, te puedes tirar meses y el texto seguirá allí. para evitarlo, usa esta metatag, yo diría que siempre.

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

puede que necesites algunos nombres de robots, abajo tienes algunos, y mas abajo directamente en enlace Aquí tienes todos los datos de cada robot,  con todos los datos y páginas web.  Esta página me gusta mas, te da incluso las i.p. Mas sobre robot + >>

Inktomi- Slurp
Excite - ArchitextSpider
Altavista - Scooter
Lycos - Lycos_Spider_(T-Rex)
Google - Googlebot y Googlebot/2.0 beta (googlebot(at)googlebot.com)
google-adsense- mediapartners
Alltheweb - FAST-WebCrawler/
msn - msnbot
Yahoo-  Slurp

 

 
 
 
¿alguna pregunta? ¿que archivo robots.txt tiene google?, fácil, http://www.google.com/robots.txt y ¿anarkasis?, pues lo mismo http://www.anarkasis.com/robots.txt

 

 

 

Me cabe añadir que ese archivo debe estar en todas y cada una de las i.p. como ya te dije en uno de los enlaces tienes las ips, http://72.14.209.104/ sobre las que se soportan. Es de bien nacidos llamar a la puerta antes de entrar, no tomes como práctica lo que los chicos de google hicieron, se ufanaron de tener 3.000.000 millones de páginas indexadas cuando se presentaron en sociedad, Tengamos en cuenta que nadie podía prohibirles el paso pues no conocían el nombre del robot, si hablamos con propiedad podríamos decir que la primera gran ilegalidad en internet fue de google,  

Más arriba en uno de los enlaces de robots aparece xenu, entre otros, tienen un pequeño robot para windos es decir puedes bajarte >> e instalarte un programilla de medio mega, que entre otras cosas tiene la utilidad de generarte un sitemap de web, o, test de urls que fallan, y otras utilidades que puedes encontrarle, como rastrear a xxx en busca de algún mail para poder quejarte a alguien etc. etc. eso si, no te vayas al bar y dejes el rastreador puesto, en la página de google, si muchos lo hicieran,  en vez de  medicina, sería veneno, los robots,  se quedarían sin ancho de banda, y no podrían servir búsquedas.