informatica:programacion:python:scrapy
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Próxima revisión | Revisión previa | ||
| informatica:programacion:python:scrapy [2021/05/22 13:06] – creado tempwin | informatica:programacion:python:scrapy [2021/05/22 13:09] (actual) – [Ejemplos] tempwin | ||
|---|---|---|---|
| Línea 15: | Línea 15: | ||
| <code python> | <code python> | ||
| """ | """ | ||
| - | OBJETIVO: | + | Extracción de titulares y resumen de la página |
| - | - Extraer los titulares y el resumen de las noticias en la pagina | + | |
| - | - Contrastar el uso de Beautiful Soup y Scrapy para parsear el arbol HTML. | + | |
| - | CREADO POR: LEONARDO KUFFO | + | |
| - | ULTIMA VEZ EDITADO: 21 abril 2021 | + | |
| """ | """ | ||
| Línea 31: | Línea 27: | ||
| from scrapy.crawler import CrawlerProcess | from scrapy.crawler import CrawlerProcess | ||
| - | # ABSTRACCION DE DATOS A EXTRAER - DETERMINA LOS DATOS QUE TENGO QUE LLENAR Y QUE ESTARAN EN EL ARCHIVO GENERADO | + | # Abstracción de datos a extraer |
| + | # Determina qué datos vamos a llenar y estarán en el archivo resultante | ||
| class Noticia(Item): | class Noticia(Item): | ||
| id = Field() | id = Field() | ||
| Línea 38: | Línea 36: | ||
| - | # CLASE CORE - SPIDER | + | # La clase principal con la " |
| class ElUniversoSpider(Spider): | class ElUniversoSpider(Spider): | ||
| - | name = "MiSegundoSpider" | + | name = "MiSpider" |
| custom_settings = { | custom_settings = { | ||
| ' | ' | ||
| Línea 82: | Línea 80: | ||
| # yield item.load_item() | # yield item.load_item() | ||
| - | # EJECUCION | + | # Ejecución: |
| - | # scrapy runspider | + | # scrapy runspider |
| - | # CORRIENDO SCRAPY SIN LA TERMINAL | + | # Ejecutando Scrapy sin el terminal: |
| # process = CrawlerProcess({ | # process = CrawlerProcess({ | ||
| # ' | # ' | ||
informatica/programacion/python/scrapy.1621681579.txt.gz · Última modificación: por tempwin
