Herramientas de usuario

Herramientas del sitio


informatica:programacion:python:web_scraping

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
informatica:programacion:python:web_scraping [2021/05/22 12:30] – [Procesar HTML] tempwininformatica:programacion:python:web_scraping [2022/01/15 16:26] (actual) – [Recursos] tempwin
Línea 139: Línea 139:
   * [[https://www.crummy.com/software/BeautifulSoup/|Beautiful Soup]]   * [[https://www.crummy.com/software/BeautifulSoup/|Beautiful Soup]]
  
-La ventaja de BeautifulSoup frente a lxml es poder movernos por elementos sin conocer su id o clase, solo con tener un punto de partida. Ejemplos de esto es el método ''find_next_sibling''+Hay una tercera posibilidad que es **Scrapy**, que es ya todo un framework para navegar por páginas, extraer información y moverse por las diferentes páginas de un mismo sitio. 
 + 
 +La ventaja de Beautiful Soup frente a lxml es poder movernos por elementos sin conocer su id o clase, solo con tener un punto de partida. Ejemplos de esto es el método ''find_next_sibling()''
  
 Es necesario instalar BeautifulSoup: ''pip install beautifulsoup4'' Es necesario instalar BeautifulSoup: ''pip install beautifulsoup4''
Línea 261: Línea 263:
  
   * [[https://towardsdatascience.com/everything-you-need-to-know-about-web-scraping-6541b241f27e|Everything you Need to Know About Web Scraping]]   * [[https://towardsdatascience.com/everything-you-need-to-know-about-web-scraping-6541b241f27e|Everything you Need to Know About Web Scraping]]
 +  * [[https://automatetheboringstuff.com/2e/chapter12/|Automate the Boring Stuff with Python: WEB SCRAPING]]
 +  * [[https://toscrape.com/|Web Scraping Sandbox]]
informatica/programacion/python/web_scraping.1621679450.txt.gz · Última modificación: por tempwin