it-swarm.dev

crawler vs raschietto

Qualcuno può distinguere tra un crawler e un raschietto in termini di portata e funzionalità.

49
Nayn

Un crawler ottiene pagine Web - ad esempio, dato un indirizzo di partenza (o un insieme di indirizzi iniziali) e alcune condizioni (ad esempio, quanti collegamenti in profondità, tipi di file da ignorare) scarica qualsiasi cosa collegata dal punto di partenza ( S).

Un raschietto prende pagine che sono state scaricate o, in un senso più generale, dati formattati per la visualizzazione e (tentativi di) estrarre dati da quelle pagine, in modo che possa (per esempio) essere memorizzato in un database e manipolato come desiderato .

A seconda di come si utilizza il risultato, la raschiatura potrebbe violare i diritti del proprietario delle informazioni e/o gli accordi utente sull'uso dei siti Web (in alcuni casi la scansione è in violazione di quest'ultima). Molti siti includono un file denominato robots.txt nella loro radice (ovvero che ha l'URL http://server/robots.txt) per specificare come (e se) i crawler dovrebbero trattare quel sito - in particolare, può elencare URL (parziali) che un crawler non dovrebbe tentare di visitare Questi possono essere specificati separatamente per crawler (user-agent) se lo si desidera.

74
Jerry Coffin

Il crawler Web ottiene collegamenti (URL - Pagine) in una logica e scrapper ottiene valori (estraendo) da HTML. 

Ci sono così tanti strumenti per il web crawler. Visita la pagina per vedere alcuni. Qualsiasi parser XML-HTML può essere utilizzato per estrarre (scrap) i dati dalle pagine sottoposte a scansione. (Raccomando Jsoup per l'analisi e l'estrazione dei dati)

4
cuneytykaya

I crawler navigano sul Web seguendo i collegamenti. Un esempio potrebbe essere il robot di Google che ottiene pagine da indicizzare. I raschietti estraggono i valori dalle forme, ma non hanno necessariamente nulla a che fare con il web.

3
Steven Sudit

In generale, i crawler seguirebbero i collegamenti per raggiungere numerose pagine mentre gli scraper, in un certo senso, tiravano semplicemente i contenuti visualizzati online e non raggiungerebbero i collegamenti più profondi. 

Il crawler più tipico è il bot di Google, che seguirebbe i collegamenti per raggiungere tutte le pagine Web del tuo sito web e indicizzerebbe i contenuti se lo ritenessero utile (ecco perché hai bisogno di robots.txt per dire quali contenuti non vuoi essere indicizzato). Quindi potremmo cercare questo tipo di contenuti sul suo sito web. Mentre lo scopo degli scrapers è solo quello di estrarre i contenuti per usi personali e non avrebbe molti effetti sugli altri. 

Tuttavia, non vi è alcuna differenza netta su crawler e scraper ora dato che alcuni strumenti automatici di scraping Web consentono anche di eseguire la scansione del sito Web seguendo i collegamenti, come Octoparse e import.io. Non sono i crawler come i bot di Google, ma sono in grado di eseguire automaticamente la scansione dei siti Web per ottenere numerosi dati senza codifica.

0
M John