Semalt proposéiert 5 Schrëtt fir Websäiten ze schrauwen

Scrapy ass eng Open Source a Kader fir Informatioun vun der verschiddene Websäit ze extrahieren. Et benotzt APIen a gëtt a Python geschriwwen. Scrapy gëtt de Moment vun enger Web- Schrackfirma beherrscht, genannt Scrapinghub Ltd.

Et ass en einfachen Tutorial fir wéi en Web Crawler mat Scrapy schreift, parse Craigslist a späichert Informatioun am CSV Format. Déi fënnef Haapttappe vun dësem Tutorial ginn hei ënnendrënner:

1. Erstellt en neien Scrapy Projet

2. Schreift e Spann fir eng Websäit ze krauchen an Daten auszewäerten

3. Export d'geschraufte Daten mat der Kommandozeil

4. Spider änneren fir Links ze verfollegen

5. Benotzt Spinn Argumenter

1. Erstellt e Projet

Den éischte Schrëtt ass e Projet ze kreéieren. Dir misst Scrapy eroflueden an installéieren. A senger Sichbar sollt Dir de Verzeechnesnumm aginn wou Dir d'Donnéeën späichere wëllt. Scrapy benotzt verschidde Spiders fir Informatioun auszewäerten, an dës Spiders fänken initial Ufroen un Direktiven ze kreéieren. Fir e Spann op d'Aarbecht ze setzen, musst Dir d'Lëscht vun den Direktiven besichen an e bestëmmte Code do aginn. Maacht en Abléck op d'Dateien an Ärem aktuelle Verzeechnes a bemierkt zwee nei Dateien: quotes-a.html an quotes-b.html.

2. Schreift e Spann fir eng Websäit ze krauchen an Daten ze extrahieren:

De beschte Wee fir eng Spann ze schreiwen an Daten auszewielen ass mat verschiddene Selektoren an der Scrapy Shell erstallt. Dir sollt d'URL ëmmer mat Zitaten zouginn; soss ännert Scrapy d'Natur oder d'Nimm vun dësen URLen direkt. Dir sollt Duebelzitater ronderëm eng URL benotze fir e Späicher entspriechend ze schreiwen. Dir sollt.extract_first () benotzen an en Indexfehler vermeiden.

3. Export déi geschrapte Donnéeën mat der Kommandozeil:

Et ass wichteg d'geschraufte Daten mat der Kommandozeil ze exportéieren. Wann Dir et net exportéiert, kritt Dir keng korrekt Resultater. D'Spann wäert verschidden Direktnoriichten generéieren mat nëtzlechen Informatiounen. Dir sollt d'Rendement Python Schlësselwieder benotze fir dës Informatioun op e bessere Wee ze exportéieren. Donnéeën op JSON Dateien importéieren ass méiglech. D'JSON Dateien si nëtzlech fir Programméierer. Tools wéi JQ hëllefen ausgeschrackte Donnéeën ouni Problem ze exportéieren.

4. Änneren d'Spider fir Linken ze verfollegen:

A klenge Projete kënnt Dir Spiders änneren fir Links op de passenden Wee ze verfollegen. Awer et ass net noutwendeg mat groussen Dateschrackprojeten . Eng Plazhaler Datei fir Item Pipelines gëtt opgestallt wann Dir Spider ännert. Dës Datei kann an der Tutorial / Pipelines.py Sektioun fonnt ginn. Mat Scrapy kënnt Dir raffinéiert Spannere bauen an hir Positioun zu all Moment änneren. Dir kënnt verschidde Site gläichzäiteg extrahieren an verschidde Datenextraktiounsprojeten ausféieren.

5. Benotzt Spinn-Argumenter:

De parse_author callback ass e Spider-Argument dat ka benotzt gi fir Daten aus dynamesche Websäiten auszewäerten. Dir kënnt och Kommandolinn Argumenter fir d'Spiders mat engem spezifesche Code ubidden. D'Spider-Argumenter ginn d'Spiderattributer a keng Zäit a verännert de Gesiichtsausdrock vun Ären Donnéeën.

An dësem Tutorial hu mir nëmmen d'Grondlage vun Scrapy iwwerdeckt. Et gi vill Featuren an Optiounen fir dëst Tool. Dir musst just Scrapy eroflueden an aktivéieren fir méi iwwer seng Spezifikatioune gewuer ze ginn.