Back to Question Center
0

Semalt Islamabad Expert - O que necesitas saber sobre un explorador web

1 answers:

Un buscador de motores de busca é unha aplicación automatizada, script ou programa que transcorre na World Wide Web de forma programada para proporcionar información actualizada para un determinado motor de busca. Xa se preguntas por que obtén diferentes conxuntos de resultados cada vez que escribe as mesmas palabras clave en Bing ou Google? É porque se están cargando as páxinas web cada minuto. E a medida que se están cargando, os exploradores web executan as novas páxinas web - lucky red nd bonus codes.

Michael Brown, un experto líder de Semalt , conta que os exploradores web, tamén coñecidos como indexadores automáticos e arañas web, traballan en distintos algoritmos para diferentes buscadores. O proceso de rastrexo web comeza coa identificación de novos URL que deben ser visitados porque se acaban de cargar ou porque algunhas das súas páxinas web teñen contido novo. Estas URL identificadas son coñecidas como sementes no termo do buscador.

Estas URL visitáronse e volvéronse a visitar de acordo coa frecuencia coa que se cargue o contido novo e as políticas que guían as arañas. Durante a visita, todos os hipervínculos en cada unha das páxinas web identificáronse e engádense á lista. Neste punto, é importante afirmar en términos claros que diferentes motores de busca usan diferentes algoritmos e políticas. É por iso que haberá diferenzas entre os resultados de Google e os resultados de Bing para as mesmas palabras clave aínda que tamén haberán moitas similitudes.

Os exploradores web fan enormes tarefas mantendo os motores de busca actualizados. De feito, o seu traballo é moi difícil por tres motivos.

1. O volume de páxinas web en internet en cada momento. Sabes que hai varios millóns de sitios na web e máis xente está a lanzar todos os días. Canto maior sexa o volume do sitio web na rede, máis difícil é que os rastreadores estean actualizados.

2..O ritmo no que se están a lanzar sitios web. ¿Tes algunha idea de cantos novos sitios web se lanzan todos os días?

3. A frecuencia coa que se modifica o contido ata nos sitios web existentes e a adición de páxinas dinámicas.

Estes son os tres problemas que fan que as arañas web sexan difíciles de estar actualizadas. No canto de rastrexar sitios web a primeira hora, moitas arañas web priorizan as páxinas web e as hiperligazóns. A priorización baséase só en 4 políticas de rastrexo de motor de busca xeral.

1. A política de selección úsase para seleccionar as páxinas que se descargan para rastrexar primeiro.

2. O tipo de política de re-visita úsase para determinar cando e con que frecuencia as páxinas web son revisitas para posibles cambios.

3. A política de paralelización úsase para coordinar como se distribúen os exploradores para a cobertura rápida de todas as sementes.

4. A política de cortesía é utilizada determina como se rastrexan os URL para evitar a sobrecarga de sitios web.

Para unha cobertura rápida e precisa de sementes, os rastreadores deben ter unha gran técnica de rastrexo que permite a priorización e redución das páxinas web e tamén deben ter unha arquitectura altamente optimizada. Estes dous facilitarán a exploración e descarga de centos de millóns de páxinas web en poucas semanas.

Nunha situación ideal, cada páxina web retírase da World Wide Web e obtense a través dun descargador multi-threaded despois de que as páxinas web ou URL están en cola antes de pasarlles a través dun programador dedicado por prioridade. Os URL priorizados tárcanse a través do descargador multi-threaded de novo para que os seus metadatos e texto se almacenen para o rastrexo axeitado.

Actualmente hai varias arañas ou rastreadores de motores de busca. O que usa Google é o Google Crawler. Sen arañas web, as páxinas de resultados do motor de procura retornarán resultados cero ou contido obsoleto xa que nunca se incluirán novas páxinas web. De feito, non haberá nada semellante a investigación en liña.

November 29, 2017