it-swarm.dev

Differenza tra BeautifulSoup e Scrapy crawler?

Voglio creare un sito Web che mostri il confronto tra Amazon e il prezzo del prodotto e-bay. Quali di questi funzioneranno meglio e perché? Conosco un po ' BeautifulSoup ma non tanto con Scrapy crawler .

111
Nishant Bhakta

Scrapy è un Web-spider o web scraper framework, Dai a Scrapy un URL root per iniziare la scansione, quindi puoi specificare i vincoli su quanti (numero di) URL vuoi sottoporre a scansione e recuperare, ecc. . È un framework completo per il web-scraping o crawling.

Mentre

BeautifulSoup è una libreria parsing che svolge anche un ottimo lavoro nel recupero dei contenuti dall'URL e consente di analizzare alcune parti di essi senza problemi. Raccoglie solo il contenuto dell'URL che hai dato e poi si ferma. Non esegue la scansione a meno che non lo si inserisca manualmente in un ciclo infinito con determinati criteri.

In parole semplici, con Beautiful Soup puoi creare qualcosa di simile a Scrapy . Beautiful Soup è una library mentre Scrapy è un complete framework.

fonte: http://www.quora.com/Python-programming-language-1/How-is-BeautifulSoup-different-from-Scrapy

193
Medeiros

Penso che entrambi siano bravi ... sto facendo un progetto in questo momento che usa entrambi. Per prima cosa scarto tutte le pagine usando scrapy e lo salvo su una collezione di mongodb usando le loro pipeline, scaricando anche le immagini che esistono sulla pagina ..__ Dopo di che uso BeautifulSoup4 per creare un'elaborazione di pos in cui devo cambiare gli attributi valori e prendi alcuni tag speciali.

Se non sai quali prodotti delle pagine desideri, un buon strumento risulterà essere scomodo poiché puoi usare i loro crawler per eseguire tutto il sito Amazon/ebay alla ricerca dei prodotti senza fare un ciclo esplicito.

Dai un'occhiata alla documentazione scrapy, è molto semplice da usare.

18
rdenadai

Il modo in cui lo faccio è utilizzare le API di eBay/Amazon anziché quelle di scrapy, quindi analizzare i risultati utilizzando BeautifulSoup.

Le API ti offrono un modo ufficiale di ottenere gli stessi dati che avresti ottenuto da crawler scrapy, senza doversi preoccupare di nascondere la tua identità, confusione con i proxy, ecc.

3
baldnbad

Entrambi stanno usando per analizzare i dati.

Scrapy :

  • Scrapy è un veloce sistema di scansione e web scraping di alto livello, Utilizzato per eseguire la scansione di siti Web ed estrarre dati strutturati dalle loro pagine.
  • Ma ha alcune limitazioni quando i dati provengono da script Java o Caricando dynamicaly, possiamo farlo usando pacchetti come splash, Selenium ecc.

BeautifulSoup :

  • Beautiful Soup è una libreria Python per estrarre dati da file HTML e XML.

  • possiamo usare questo pacchetto per ottenere dati da script Java o caricamento dinamico di pagine.

Scrapy with BeautifulSoup è uno dei migliori combo con cui possiamo lavorare per raschiare contenuti statici e dinamici 

1
Arun Augustine

Le differenze sono molte e la selezione di qualsiasi strumento/tecnologia dipende dalle esigenze individuali.

Poche differenze importanti sono:

  1. BeautifulSoup è comparativamente facile da imparare rispetto a Scrapy. 
  2. Le estensioni, il supporto, la community sono più grandi per Scrapy che per BeautifulSoup.
  3. Scrapy dovrebbe essere considerato come Spider mentre BeautifulSoup è un Parser.
0
krish___na

Usando scrapy puoi risparmiare tonnellate di codice e iniziare con la programmazione strutturata, se non ti piacciono i metodi pre-scritti di scapy allora BeautifulSoup può essere usato nel posto del metodo scrapy . Big il progetto prende entrambi i vantaggi.

0
ethirajit