Semalt - kuinka raaputaan verkkosivuja?

Beautiful Soup on Python-kirjasto, jota käytetään laajasti verkkosivujen kaapimiseen luomalla parsipuu XML- ja HTML-asiakirjoista. Web-kaavinta, tekniikka tietojen poimimiseksi verkkosivuilta ja sivuilta, käytetään laajasti tietojen analysointiin ja hallintaan. Useimmissa tapauksissa Python-ohjelmointikieli on tietojenkäsittelyn edellytys.

Python 3: lla on kaavintyökaluja ja -moduuleja, joita voit käyttää tiedonhallintaprojektiisi. Tällä hetkellä käynnissä nimellä Beautiful Soup 4, tämä moduuli on yhteensopiva sekä Python 3: n että Python 2.7: n kanssa. Kaunis keitto 4 -moduuli pystyy myös luomaan jäsentämättömän suljettuun tag-keittoon. Tässä opetusohjelmassa opit kuinka kaadata sivu ja kirjoittaa kaavitut tiedot CSV-tiedostoon.

Päästä alkuun

Aluksi määritä tietokoneellesi palvelin- tai paikallispohjainen Python-koodausympäristö. Sinun tulisi myös asentaa Beautiful Soup and Requests -moduuli koneellesi. Osaaminen molempien moduulien kanssa työskentelystä on myös välttämätön edellytys. HTML-merkintöjen ja rakenteen tunteminen on myös lisäetu.

Tietojen ymmärtäminen

Tässä yhteydessä kansallisen taidemuseon todellisia tietoja käytetään auttamaan sinua ymmärtämään, kuinka kaunista keittoa 4 käytetään. Kansallinen taidegalleria käsittää 120 000 kappaletta, jotka on tehnyt noin 13 000 taiteilijaa. Taide sijaitsee Washington DC: ssä, Yhdysvalloissa.

Web-tietojen poisto Beautiful Soup -sovelluksella ei ole niin monimutkaista. Jos esimerkiksi keskityt Z-kirjaimeen, merkitse ja merkitse muistiin luettelon etunimi. Tässä tapauksessa etunimi on Zabaglia, Niccola. Johdonmukaisuuden vuoksi ilmoita sivujen lukumäärä ja sivun viimeisen esittäjän nimi.

Kuinka tuoda pyyntöjä ja kaunista keittokirjastoa

Jos haluat tuoda kirjastoja, aktivoi Python 3 -ohjelmointiympäristö. Tarkista, että olet samassa hakemistossa ohjelmointiympäristön kanssa. Suorita seuraava komento aloittaaksesi. my_env / bin / aktivoida.

Luo uusi tiedosto ja aloita Beautiful Soup and Requests -kirjastojen tuonti. Pyyntökirjasto antaa sinun käyttää HTTP: tä Python-ohjelmissa luettavissa olevissa muodoissa. Kaunis keitto puolestaan toimii kaavuttaaksesi sivut nopeasti. Tuo kaunis keitto bs4: llä.

Kuinka kerätä ja jäsentää verkkosivusto

Pyyntöjen avulla kerätä ensimmäisen sivusi URL-osoite. Ensimmäisen sivun URL osoitetaan muuttujasivulle. Luo BeautifulSoup-objekti pyynnöistä ja jäsentä objekti Pythonin parserista.

Tässä opetusohjelmassa tavoitteena on kerätä linkkejä ja taiteilijoiden nimiä. Voit esimerkiksi kerätä taiteilijoiden päivämääriä ja kansallisuuksia. Windows-käyttäjät napsauttavat artistin etunimeä hiiren kakkospainikkeella. Käytä tässä tapauksessa Zabaglia, Niccola. Mac OS -käyttäjät, napauta "CTRL" ja napsauta nimeä. Napsauta "Tarkasta elementti" -valikkoa, joka ponnahdusikkunoilla avautuu, niin pääset verkkokehittäjien työkaluihin. Tulosta taiteilijan nimet, jotta Beautiful Soup jäsentää puun nopeasti.

Pohjavarsien poistaminen

Poista verkkosivun alalinjat tarkastamalla DOM napsauttamalla hiiren kakkospainikkeella elementtiä. Tunnistat, että linkit ovat HTML-taulukon alla. Käytä Beautiful Soup -sovellusta "hajotusmenetelmällä" poistaaksesi tunnisteet jäsentävästä puusta.

Kuinka vetää sisältöä tunnisteesta

Sinun ei tarvitse tulostaa koko linkkitunnistetta. Käytä Beautiful Soup -sovellusta materiaalin poistamiseen tunnisteesta. Voit myös kaapata taiteilijoihin liittyviä URL-osoitteita käyttämällä Beautiful Soup 4 -sovellusta.

Kaapatun datan sieppaaminen CSV-tiedostoon

CSV-tiedoston avulla voit tallentaa jäsenneltyä tietoa selkeänä tekstinä, muodossa, jota käytetään enimmäkseen lomakkeissa. Tietämystä pelkkien tekstitiedostojen käsittelystä Pythonissa on suositeltavaa.

Web-tietojen poiminta on tarkoitettu sivujen kaapimiseen ja tiedon hankkimiseen. Ole huomaavainen verkkosivustoilta, joilta olet poimintutietoja. Jotkut dynaamiset verkkosivustot rajoittavat verkkosivustojen tiedonkeruuta. Sivun kaapiminen Kauniilla keitolla ja Python 3: lla on niin helppoa.