Back to Question Center
0

Semalt - Como raspar páxinas web?

1 answers:

Beautiful Soup é unha biblioteca de Python amplamente utilizada para raspar páxinas web creando un árbol de análise desde documentos XML e HTML. O raspado web, unha técnica de extracción de datos de sitios web e páxinas, é amplamente utilizada nos campos de análise e xestión de datos. Na maioría dos casos, a linguaxe de programación Python é unha condición previa na ciencia da información.

Python 3 ten ferramentas de rascado e módulos que pode aplicar ao seu proxecto de xestión de datos - vps mu online peru. Actualmente en execución como Beautiful Soup 4, este módulo é compatible con Python 3 e Python 2. 7. O módulo Beautiful Soup 4 tamén é capaz de crear unha árbore de análise para sopas de etiquetas non pechadas. Neste tutorial, vai aprender a raspar a páxina e escribir os datos raspados nun ficheiro CSV.

Primeiros pasos

Para comezar, configure un servidor ou un entorno local de codificación de Python no seu PC. Tamén debería instalar o módulo Beautiful Soup and Requests na súa máquina. O coñecemento do traballo con ambos módulos tamén é un requisito previo. A familiaridade co tagging HTML e a estrutura tamén son unha vantaxe adicional.

Comprender os seus datos

Neste contexto, utilizarán datos reais da National Gallery of Art para axudarche a entender como usar Beautiful Soup 4. A Galería Nacional de Arte forma parte de 120.000 pezas que están feitas por aproximadamente 13.000 artistas. The Art está baseada en Washington D.C, Estados Unidos.

A extracción de datos web con Beautiful Soup non é tan complicada. Por exemplo, se se centra na letra Z, marque e anota o primeiro nome da lista. Neste caso, o primeiro nome é Zabaglia, Niccola. Para obter consistencia, indique o número de páxinas eo nome do último artista nesa páxina.

Como importar solicitudes e biblioteca de sopa fermosa

Para importar bibliotecas, active o seu entorno de programación Python 3. Asegúrese de estar no mesmo directorio co seu contorno de programación. Executa o seguinte comando para comezar. my_env / bin / activate.

Crea un novo ficheiro e comeza a importar as bibliotecas de Soup and Requests Beautiful. A biblioteca de solicitudes permitirá que use HTTP nos seus programas Python en formatos lexibles. Beautiful Soup, por outra banda, traballa para raspar páxinas rápidamente. Use bs4 para importar a sopa fermosa.

Como recoller e analizar unha páxina web

Usar Solicitudes recoller URL da súa primeira páxina. O URL da primeira páxina asignarase á páxina de variables. Construír un obxecto BeautifulSoup desde Requests e analizar o obxecto do analizador de Python.

Neste tutorial, o obxectivo é recoller as ligazóns e os nomes dos artistas. Por exemplo, pode recoller as datas e nacionalidades dos artistas. Para os usuarios de Windows, prema co botón dereito no nome do artista. Neste caso, usa Zabaglia, Niccola. Para os usuarios de Mac OS, pulse "CTRL" e faga clic no nome. Faga clic no menú "Inspect Element" que os pop-ups na pantalla para acceder as ferramentas dos desenvolvedores web. Imprime os nomes dos artistas para que a sopa fermosa analice rápidamente unha árbore.

Eliminar as ligazóns inferiores

Para eliminar as ligazóns inferiores na súa páxina web, inspeccione o DOM premendo co botón dereito no elemento. Identificarás que as ligazóns están baixo unha táboa HTML. Usando Beautiful Soup, use o método "descompoñer" para eliminar as etiquetas da árbore de análise.

Como arrastrar contido dunha etiqueta

Non ten que imprimir a etiqueta de ligazón completa, use Beautiful Soup para eliminar material dunha etiqueta. Tamén pode capturar URL asociados cos artistas usando Beautiful Soup 4.

A captura de datos raspados nun ficheiro CSV

O ficheiro CSV permítelle almacenar datos estruturados nun texto sinxelo, un formato usado principalmente para follas de datos. É recomendable coñecer o manexo de ficheiros de texto plano en Python.

A extracción de datos web úsase para raspar páxinas e obter información. Teña en conta os sitios web que está extraendo a información de. Algúns sitios dinámicos limitan a extracción de datos web nos seus sitios. Para raspar a páxina con Beautiful Soup e Python 3 é tan sinxelo.

December 22, 2017