informatica:programacion:python:web_scraping
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| informatica:programacion:python:web_scraping [2021/05/22 11:52] – [XPath] tempwin | informatica:programacion:python:web_scraping [2022/01/15 16:26] (actual) – [Recursos] tempwin | ||
|---|---|---|---|
| Línea 76: | Línea 76: | ||
| <WRAP center round tip 60%> | <WRAP center round tip 60%> | ||
| - | En los navegadores Google Chrome y Mozilla Firefox se pueden probar expresiones XPath desde la consola de las herramientas de desarrolladores introduciendo las expresiones en '' | + | En los navegadores Google Chrome y Mozilla Firefox se pueden probar expresiones XPath desde la consola de las herramientas de desarrolladores introduciendo las expresiones en '' |
| </ | </ | ||
| Línea 100: | Línea 100: | ||
| Nos buscará todos los elementos '' | Nos buscará todos los elementos '' | ||
| + | |||
| ===== Descargar ficheros ===== | ===== Descargar ficheros ===== | ||
| Línea 109: | Línea 110: | ||
| import requests | import requests | ||
| - | res = requests.get(" | + | # Con la petición vamos a personalizar la cabecera HTTP para |
| + | # que el servidor " | ||
| + | headers | ||
| + | " | ||
| + | } | ||
| + | |||
| + | url = " | ||
| + | |||
| + | res = requests.get(url, | ||
| # ' | # ' | ||
| Línea 119: | Línea 128: | ||
| # 200 -> Si ha ido bien | # 200 -> Si ha ido bien | ||
| - | El contenido de la descarga está en: | + | # El contenido de la descarga está en: |
| res.text | res.text | ||
| </ | </ | ||
| ===== Procesar HTML ===== | ===== Procesar HTML ===== | ||
| + | |||
| + | Tenemos dos posibilidades interesantes con los siguientes módulos de Python: | ||
| + | |||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | |||
| + | Hay una tercera posibilidad que es **Scrapy**, que es ya todo un framework para navegar por páginas, extraer información y moverse por las diferentes páginas de un mismo sitio. | ||
| + | |||
| + | La ventaja de Beautiful Soup frente a lxml es poder movernos por elementos sin conocer su id o clase, solo con tener un punto de partida. Ejemplos de esto es el método '' | ||
| Es necesario instalar BeautifulSoup: | Es necesario instalar BeautifulSoup: | ||
| Línea 245: | Línea 263: | ||
| * [[https:// | * [[https:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
informatica/programacion/python/web_scraping.1621677154.txt.gz · Última modificación: por tempwin
