Preguntas frecuentes
¿Qué es un WWW robot?
Usando nuestra terminología de "andar por casa" son robots que entran en todos los servidores de todo el mundo, buscan los documentos que están alojados en ellos, los incluyen en su index y luego nosotros podamos ir a ese index a buscar lo que necesitamos
¿Qué diferencia hay entre un www robot y mi navegador?
El www robot penetra en el servidor y recupera todos los documentos alojados en él indexándolos para su Agente, nosotros con nuestro navegador sólo podemos acceder a los documentos que el servidor quiere facilitarnos.
¿Qué es un Agente?
Podemos distinguir tres tipos de agentes
Agente autónomo: Es un programa que "viaja" entre los sitios web decidiendo por él mismo qué hacer. Sólo puede viajar entre sitios ubicados en servidores especiales. Este tipo de agentes no está muy difundido en el área de internet.
Agente inteligente: Programas que ayuda al usuario, por ejemplo: a elegir productos, a rellenar formularios o a encontrar determinada cosa. Generalmente no tiene mucha tarea en la red.
Agente de usuario: Es un nombre técnico para programas que ejecutan tareas para un usuario en la red. Un ejemplo de ellos son: Netscape Navigator,Microsoft Internet Explorer, y Email User-agent como Qualcomm Eudora etc.
¿Qué diferencia hay entre un www robot y un directorio?
Los Directorios no poseen robots, están operados por humanos y no recuperan automáticamente los enlaces incluídos en las páginas web, sino que sólo se limitan a hallar lo que las personas manualmente incluyen en ellos. Tienen una ventaja respecto a los robots , pueden clasificar por secciones la temática de las web al hacerse mediante un proceso manual.
¿Cuántas clases de ww robots hay?
A los robots se les suele denominar "Web Wanderers", "Web Crawlers", o "Spiders" hay quién piensa que son virus pero no es así, un robot simplemente visita los sitios y extrae los enlaces que están incluídos dentro de estos.
Arañas (Spiders) Es un robot, pero otorga resultados más fríos.
Gusanos (Worms) Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.
Orugas (Web crawlers) Es lo mismo que un robot, pero un tipo específico de robot.
Hormigas (WebAnts) Cooperativa de robots
¿Qué es un Search Engine?
Un Search Engine es un programa que busca en una determinada base de datos. En el contexto del Web la palabra "Search Engine" se utiliza para denominar las formas de búsqueda que se realizan en una bases de datos de documentos HTML recopilados por un determinado robot. Para entendernos, "search engine" son Google, Altavista etc... y cada uno tiene su www robot de búsqueda
Ventajas de la existencia de estos robots de búsqueda
La principal ventaja es su capacidad de indexar documentos, ya no sólo por el título o las palabras clave que queramos asignarles, si no por la capacidad de buscar en TODO el documento cómo tienen algunos. Es fácil hacer una prueba, vas a google cuál pitonis@ modern@, pones entre comillas una frase de una canción que no sabes ni quién la canta ni cómo se llama, pero de la que en algún momento escuchaste el estribillo, por ejemplo: " baila morena" , y nuestro " Oráculo" , con enorme generosidad, informa de todos los documentos en los que está incluida la frase:
http://www.google.es/search?q=%22baila+morena%22&ie=ISO-8859-1&hl=es&btnG=B%FAsqueda+en+Google------2.860∞ resultados en 0, 14 segundos de búsqueda, ¿cómo no amarlo? :-'(
Desventajas de los robots de búsqueda
Evidentemente nadie es perfecto, algunas desventajas tenía que tener el invento.
Los robots de búsqueda, con su afán de indexar, colapsaron ciertas redes en el pasado ya que cuando un www robot investiga un servidor adopta la apariencia de usuarios que visitan las web alojadas en él y cuanta más información exista en el servidor, más usuarios creará el robot para analizarla. Hoy en día existen mecanismos para que no se produzcan y la información suficiente para diseñar robots más eficientes.
No hay que perder de vista que son máquinas, diseñadas con los conceptos más pluscuamperfectos del momento, pero máquinas que no son capaces de discernir entre un documento privado, un documento que sólo le interesa a mi grupo de trabajo, un borrador de una tarea pendiente, un documento temporal..... Lo indexan todo y este fué el motivo por el que se crearon los archivos " robots.txt", para indicar a los robots de búsqueda qué documentos tenían o no tenían que añadir a su base de datos.
¿Cómo decide un robot las webs qué va a visitar?
Depende del robot y de su estrategia de búsqueda. Por lo general empiezan con una lista histórica de URLs, especialmente de aquellos documentos con muchos enlaces a otras webs y con aquellos sitios populares en el Web, es decir, a los que apuntan muchos enlaces de otras webs.
La mayoría de los buscadores permiten también que se ingrese una dirección manualmente de manera que después la visite el robot para su indexación definitiva.
Usan también otros recursos como listas de correo, grupos de discusión, etc. Todo esto les da un punto de partida para comenzar a seleccionar url's para visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.
¿Cómo indexa un documento el robot de búsqueda?
Depende también del robot: algunos ponen en su índice los títulos de los documentos HTML, o los primeros párrafos del texto, o analizan el HTML entero y ponen en un índice todas las palabras, otros analizan la etiqueta del META, o los textos de las imágenes...
¿Cómo sé si un robot de búsqueda me ha visitado?
Comprobando los registros del servidor: Si existen solicitudes de muchos documentos en un cortísimo espacio de tiempo, imposible de realizar de forma manual, seguramente será porque un robot ha visitado el sitio. También se puede deducir cuantos robots nos han visitado comprobando las solicitudes realizadas al archivo robots.txt.
¿Por qué las solicitudes al archivo robots.txt orientan sobre las visitas realizadas por los robots de búsqueda a mi sitio?
Los robots que van buscando páginas para indexar en la base de datos de su Agente, lo primero que hacen al visitar un sitio es llamar al fichero robots.txt. Lo primero que busca el robot cuando llega a nuestra web es el fichero http
www.dominio.com/robots.txt. El número de peticiones que reciba este fichero y que constará en las estadísticas, nos indicará el número de veces que hemos sido visitados por un robot de búsqueda .
Un robot me ha visitado ¿qué tengo que hacer?
Nada, déjate querer :-). él trabaja de manera automática y sabe perfectamente qué tiene que hacer.
¿Cómo evito que un robot indexe mi sitio?
Creando un archivo llamado robots.txt y alojándolo en la raiz del sitio, ahí mismo dónde situamos la página index. En él se especifican las zonas del sitio que los robots NO TIENEN que indexar, no se especifican NUNCA las zonas que sí queremos que aparezcan en la base de datos de los buscadores, sólo indicaremos lo que NO QUEREMOS que un robot determinado o todos los robots de búsqueda indexen. Mucho ojo con este dato.
Pero si hago una relación de los archivos que no quiero que un robot añada a su índice, le estoy diciendo al resto de la gente qué documentos privados tengo. Los hago invisibles a los robots de búsqueda pero accesibles tecleando la dirección.
La manera óptima de organizar un sitio es incluir en un directorio secundario todos los documentos y archivos que no queremos que indexen los buscadores, prohibir la entrada de los robots en ese directorio y configurar el servidor con unas buenas medidas de seguridad en el caso de tener documentación sensible. El robots.txt no es una medida de seguridad que garantiza la privacidad de los documentos, para eso existen otros métodos, el robots.txt es el resultado de un consenso para evitar que los robots añadan automáticamente a sus índices esos documentos
Mi proveedor no me dá esa posibilidad ¿Existe otra manera para indicar a los robots qué zonas pueden indexar de mi sitio?
Si, en los META de los documentos.
¿Por qué encuentro llamadas /robots.txt en mis ficheros ?
Ya he comentado que lo primero que hace un robot cuando entra en nuestro sitio siguiendo el estándar de exclusión, es una llamada al fichero robots.txt. Seguramente son esas las llamadas, son los robots que intentan ver si se ha especificado alguna norma para el acceso a los ficheros.