ir a la home de Gea Marketing ir a la Home Gea Marketing

Especialistas en Marketing Digital Internacional

Teléfono Gea Marketing

Posicionamento en Buscadores


Unidad 5. ¿QUÉ TENGO QUE HACER SI NO QUIERO QUE UNA ARAÑA ENTRE EN MI PÁGINA?

Te debes estar preguntando ¿por qué algunas webs no desean estar indexadas?. La respuesta es sencilla: todas aquellas páginas web cuyo modelo de negocio pasa por la venta de contenido (diarios online, archivos, venta de informes o de estudios, etc...) no desean que se pueda acceder de forma gratuita a su contenido, así que no permiten que las arañas indexen las zonas de su web donde está publicado el contenido de pago.

También hay gente que no desea que las arañas entren en sus páginas, para no sobrecargar sus servidores, o no quieren que ciertas partes sean públicadas en los buscadores aunque sí desean que sean accesibles por sus visitantes. En todo caso, en este capítulo te explicamos cómo hacer que las arañas no entren o que entren sólo en las zonas que tu deseas, sin tener que indicarlo en cada una de las páginas de tu web.

El Protocolo de Exclusión de Robots

Los webmaster tienen la posibilidad de no permitir el acceso a determinados Robots o no permitir la inspección de determinadas rutas de su página web. El método empleado para evitar la inspección de sus páginas por parte de los Robots, se estructura en dos ámbitos: por un lado, se facilita al Administrador del Web un mecanismo de exclusión de Robots y por otro, se proporciona al propietario de cada página HTML un mecanismo adicional de control del acceso a la misma por parte de los Robots.

El primer mecanismo se denomina "Protocolo de Exclusión de Robots", y permite al Administrador decidir qué partes del Web no deben ser indexadas. El medio para conseguirlo: un archivo de texto denominado ROBOTS.TXT que contiene las instrucciones sobre las páginas visitables y las que no permiten el acceso a los Robots.

El segundo mecanismo, que proporciona un nivel adicional de protección para el propietario de cada página, se logra mediante la inserción de unas etiquetas HTML denominadas META Tags (es decir: Etiquetas META) en las que se indica al Robot si debe o no inspeccionar o indexar cada página HTML individual. Si deseas más información acerca del META ROBOTS, la encontrarás aquí: Meta Robots

El fichero ROBOTS.TXT

El "Protocolo de Exclusión de Robots" se basa en la especificación del contenido de un fichero ROBOTS.TXT en el que se presentan las instrucciones de comportamiento oportunas para los Robots en relación con las páginas inspeccionables.

La razón de elegir un fichero como método de exclusión de páginas es que con sólo "bajarse" este fichero, el Robot conoce las páginas indexables de una página web y no tiene que visitarlas una por una para estar seguro de si puede indexarlas o no.

Cuando un robot o araña entra por primera vez en una página web, lo primero que visita es la url: www.nombredelapágina.com/robots.txt Si allí no encuentra ninguna instrucción que le impida navegar por la web, entonces empezará el escaneo. Si el administrador de la web ha incluido en esa página alguna instrucción que le afecta, se irá de la página y no escaneará su contenido.

Nosotros recomendamos crear siempre la página robots.txt, aunque desees que los robots entren siempre en tus páginas. Si no la creas, cada vez que un robot la busque generará un error 404 en tu servidor (404: Page not found) y en tus estadísticas te apareceran cientos de estos errores al día. Si creas la página y la dejas en blanco evitarás estos errores.

Si deseas más información acerca del Protocolo de Exclusión de Robots, la encontrarás aquí: Protocolo de Exclusión de Robots

Algunos ejemplos de páginas robots.txt:



» Siguiente unidad: Nosotros recomendamos crear siempre la página robots.txt, aunque desees que los robots entren siempre en tus páginas. Descubre en el siguiente capítulo: ¿Qué pasa si no tengo creada la página robots.txt?


Unidades didácticas del curso de "Posicionamiento en Buscadores"
  1. Cómo Funciona un Buscador
  2. Descubre qué debes hacer para que una araña visite tu página web por primera vez
  3. Por dónde no pueden navegar las arañas
  4. ¿Cómo puedo saber cuantas páginas tengo indexadas en un buscador?
  5. ¿Qué tengo que hacer si no quiero que una araña entre en mi página?
  6. ¿Qué pasa si no tengo creada la página robots.txt?
  7. Los algoritmos de ordenación
  8. El algoritmo de PageRank
  9. ¿Cómo puedo mejorar el PageRank de mi página web?
  10. El algoritmo de Relevancia
  11. Consejos finales para mejorar el posicionamiento de tu página web.
Información acerca de las próximas conferencias y fechas de los cursos presenciales
de posicionamiento: Formación y eventos GeaMarketing


© Gea Marketing - 2006 - Marketing Digital Internacional


Contacta con nosotros - Aviso legal - Trabaja en Gea Marketing
Nuestras áreas de expertise: Marketing Digital Turístico - Comercio Electrónico - Contactos Comerciales