Articulos para webmasters
El Robots.txt Nuestro Gran buscador ( traduccion realizada con google del ingles)

Validator de robots.txt e inspector , necesitamos un poco de forraje de la prueba. Enviamos una araña para no hacer nada sino para descargar las páginas de robots.txt. Nos arrastramos a través de sitios en el proyecto abierto del directorio para los acoplamientos y los dominios. Terminamos para arriba con un total de 2,4 millones de urls que spidered y encontramos cerca de 75k robots.txt.
Durante ese funcionamiento, encontramos una amplia gama de problemas con los archivos de la gente robots.txt. Encontramos más los de 5% del mal estilo usado robots.txt y los hasta 2% fueron formados tan gravemente que no serían reconocidos por ninguna araña. Las listas siguientes algunos de los problemas que descubrimos.


Problemas con Robots.txt

--------------------------------------------------------------------------------

Al revés Sintaxis
Uno de los errores más comunes es al revés sintaxis:
Usuario-agente: * Rechace: scooter
Cuál debe ser:

Usuario-agente: el scooter rechaza: *
El múltiplo rechaza en una línea:
Una gran cantidad de gente tenía directorios múltiples por línea.

Rechace: cgi-compartimiento// imágenes/
La mayoría de las arañas misinterpret esa línea en la variedad de maneras. Algunos lanzarán fuera del espacio e intentar utilizar/css//cgi-bin//images/o ellos puede utilizar apenas/las imágenes/o/css/u olvidarse de la cosa entera.

El sintaxis correcto sería:

Rechace: css/rechaza: cgi-compartimiento/rechaza:
Línea Enders del DOS:
Otro error común, está corrigiendo su robots.txt en modo del DOS. Aunque es un problema tan común, eso somos seguros que los motores de búsqueda lo explica, él es mala práctica. Corrija su robots.txt en el modo de UNIX y upload siempre en el ASCII. Muchos clientes del ftp harán la transformación a los enders de la línea de Unix para usted seamlessly, pero algunos no obviamente. Golpee su editor de textos con el pie en el modo de Unix antes de corregir un archivo de robots.txt.
Comentarios en el extremo de la línea:
Por estándar, esto es aceptable:
Rechace: cgi-compartimiento/# esto prohíbe robustezas de nuestro cgi-compartimiento
En el pasado, ha habido los motores de búsqueda que sacudirían fuera de la línea entera. ¿Nosotros sabe de ningún motor de búsqueda importante actual que tenga un problema con ella, pero puede usted permitirse arriesgarla? Ponga los comentarios en una línea por sí mismos.

Espacios principales:
Rechace:El estándar no trata específicamente esto, sino que es mal estilo. ¿Una vez más puede usted permitirse arriesgarlo?

404 vuelve a dirigir que conduce a otra página:
Absolutamente común es el website sin un robots.txt que seamlessly vuelva a dirigir la petición a otra página. Eso vuelve a dirigir a menudo se hace sin la generación de un error del estado del servidor o vuelve a dirigir el mensaje del estado. Está entonces hasta la araña para calcular hacia fuera si está mirando un robots.txt o un archivo del HTML. ¿Aunque no debe causarle ninguna problemas, puede usted permitirse arriesgarlo? Para fijarlo sin configurar de nuevo su servidor, coloque un archivo en blanco de robots.txt en su raíz.
Declaraciones Que están en conflicto:
¿Si usted fuera slurp, qué usted haría?

Usuario-agente: * Rechace: Usuario-agente: el slurp rechaza:
¿ Tiene en cuenta la invalidación del slurp rechazan , o rechazan el slurp de la invalidación? Tenemos poca fe en la robusteza menos compleja que puede deducir la diferencia y tomar la acción apropiada. En el ejemplo, el slurp caminaría a la derecha adentro y tendría un ir en su sitio. Todos los otros serían prohibidos.

Capitalización - Estilo Peor
Usuario-agente: EXCITE RECHAZAN:
Aunque el estándar no es caso sensible, el directorio y los filnames son caso sensible. Presagia bien para seguir los ejemplos en el estándar y para capitalizar a usuario y rechaza solamente.
Listado de todos los archivos
Otro error común del estilo está especificando cada archivo en un directorio:
Rechace: Rechazan: Rechazan: Rechazan: Rechazan:
El antedicho podía ser substituido usando la opción del directorio:
Rechace: AL Rechaza:
Recuerde, una raya vertical que se arrastra indica a la araña que el directorio es offlimits. Es una cuestión del estilo y del tamaño. No es malo si usted tiene solamente algunos archivos docena a excluir, pero el ejemplo era de un robots.txt que era 400k de largo que especificaron sobre 4000 archivos. Nos preguntamos cuántos nunca acaban de dar vuelta las arañas alrededor para volverse.
¡Rechace, Para no permitir!
Hay ningún permite , sólo rechace . Esto es incorrecto:
Usuario-agente: El Punto Rechaza: Esto está correcto: Usuario-agente: El Punto Rechaza:
Ninguna raya vertical principal
Qué si una araña hace con esto:
Usuario-agente: El Punto Rechaza: Juan
Por estándar, rechaza filenamed "Juan" y el directorio nombrado Juan. Utilice las rayas verticales que conducen y que se arrastran en todas las trayectorias para ser seguro.
Otras cosas que vimos eran gente que intentaba poner palabras claves en su robots.txt (cabeza de la sacudida - porqué?).
Gente que intenta hacer su robots.txt como documento del HTML (usted no puede utilizar FrontPage para hacer un robots.txt accuratly)


Servidores De Misconfigured
¿Por qué una petición para un robots.txt generaría un archivo binario? Esto podía suceder solamente de a misconfigured al servidor o a cliente del ftp.
Compruebe siempre su archivo de robots.txt después de usted lugar él en el servidor. Una petición simple:

http://www.mydomain.com/robots.txt

Es todo que toma para ser seguro.

Server/Domain Cultiva
Una manera fácil para que los motores de búsqueda detecten el servidor o el dominio cultiva (los grupos enormes de sitios), es mirar el robots.txt. Encontramos las granjas enormes de 400-500 dominios que eran todos que usaban el mismo archivo único de robots.txt. Eso adelante es una extremidad apagado a los motores de búsqueda que los sitios todos están relacionados.

--------------------------------------------------------------------------------

Nueva ayuda de Google para los comodines:
Google es el primer motor de búsqueda para apoyar extensiones de archivo del comodín.

Usuario-agente: el googlebot rechaza: * cgi
Usted debe utilizar el nombre "googlebot" del agente y no arriesgar el sintaxis antedicho con cualquier otro motor.

Puedo poner al día esto más adelante en la semana después de que se compilen más datos. El antedicho es de impresiones iniciales.

Otros Relacionados
Registrate Gratuitamente y recibe el boletin especializado para webmasters con las novedades del mercado en soft, herramientas, promocion, ganar dinero....

Nuestros Manuales
FLASHarea PHParea
VBarea ASParea
ADSLarea Programatium
  CodigoFuente
Otras Webs del Grupo: Solorecursos - SuperDIVX - JuegosOnline - Movilmania - MACarea