El rastreador web es un programa que atraviesa automáticamente la web descargando las páginas y siguiendo los enlaces de una página a una página. Un propósito general de rastreador web es descargar cualquier página web a la que se pueda acceder a través de los enlaces. Este proceso se denomina rastreo web o araña. Muchos sitios, en particular los motores de búsqueda, utilizan la araña como un medio de proporcionar datos actualizados. Los rastreadores web se utilizan principalmente para crear una copia de todas las páginas visitadas para su posterior procesamiento por un motor de búsqueda que indexará las páginas descargadas para proporcionar búsquedas rápidas. Los rastreadores también se pueden utilizar para automatizar tareas de mantenimiento en un sitio web, como comprobar vínculos o validar código HTML. Además, los rastreadores se pueden utilizar para recopilar tipos específicos de información de páginas web, como la recopilación de direcciones de correo electrónico (normalmente para spam). Un rastreador web es un tipo de bot o agente de software. En general, comienza con una lista de direcciones URL para visitar, llamadas las semillas. A medida que el rastreador visita estas direcciones URL, identifica todos los hipervínculos de la página y los agrega a la lista de direcciones URL que se visitará, denominada frontera de rastreo. Las URL de la frontera se visitan de forma recursiva de acuerdo con un conjunto de políticas.
historial de versiones
- Versión 3.19 publicado en 2012-01-15
primera publicación pública
Detalles del programa
- Categoría: Utilidades del sistema > Herramientas de automatización
- Editor: VietSpider
- Licencia: Gratis
- Precio: N/A
- Versión: 3.19
- Plataforma: windows