Herramientas de usuario

Herramientas del sitio


informatica:programacion:python:scrapy

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Próxima revisión
Revisión previa
informatica:programacion:python:scrapy [2021/05/22 13:06] – creado tempwininformatica:programacion:python:scrapy [2021/05/22 13:09] (actual) – [Ejemplos] tempwin
Línea 15: Línea 15:
 <code python> <code python>
 """ """
-OBJETIVO:  +Extracción de titulares y resumen de la página principal del periódico El Universo.
-    - Extraer los titulares y el resumen de las noticias en la pagina principal de deportes de EL UNIVERSO. +
-    - Contrastar el uso de Beautiful Soup y Scrapy para parsear el arbol HTML. +
-CREADO POR: LEONARDO KUFFO +
-ULTIMA VEZ EDITADO: 21 abril 2021+
 """ """
  
Línea 31: Línea 27:
 from scrapy.crawler import CrawlerProcess from scrapy.crawler import CrawlerProcess
  
-ABSTRACCION DE DATOS A EXTRAER - DETERMINA LOS DATOS QUE TENGO QUE LLENAR Y QUE ESTARAN EN EL ARCHIVO GENERADO+Abstracción de datos a extraer 
 +# Determina qué datos vamos a llenar y estarán en el archivo resultante 
 class Noticia(Item): class Noticia(Item):
     id = Field()     id = Field()
Línea 38: Línea 36:
  
  
-CLASE CORE - SPIDER  +La clase principal con la "araña"
 class ElUniversoSpider(Spider): class ElUniversoSpider(Spider):
-    name = "MiSegundoSpider"+    name = "MiSpider"
     custom_settings = {     custom_settings = {
         'USER_AGENT': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36',         'USER_AGENT': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36',
Línea 82: Línea 80:
         #     yield item.load_item()         #     yield item.load_item()
  
-EJECUCION +Ejecución: 
-# scrapy runspider 4_eluniverso.py -o resultados.csv+# scrapy runspider eluniverso.py -o resultados.csv
  
-CORRIENDO SCRAPY SIN LA TERMINAL+Ejecutando Scrapy sin el terminal:
 # process = CrawlerProcess({ # process = CrawlerProcess({
 #     'FEED_FORMAT': 'json', #     'FEED_FORMAT': 'json',
informatica/programacion/python/scrapy.1621681579.txt.gz · Última modificación: por tempwin