Beautiful Soup

Beautiful Soup (BS) lijkt de standaard-bibliotheek te zijn voor webscraping, oftewel het parsen van HTML (of XML). De actuele versie (zomer 2019) is BS4. Deze is beschikbaar voor zowel Python 2.7 en 3.4. Beautiful Soup converteert een complexe hiërarchische HTML-of XML-boom om naar een complexe hiërarchische Python-boom. De documentatie op hun site van de maker vind ik geweldig: https://www.crummy.com/software/BeautifulSoup/bs4/doc.

Dit artikel beperkt zich tot het parsen van HTML. Parsen van XML wordt hier niet behandeld.

Objecten

Bij het parsen en navigeren van een BS-object, heb je met vier soorten objecten te maken, die elk diverse methodes en argumenten kennen:

Tag - Gewoon, HTML-tags
NavigableString - Tekstgedeeltes van tags
BeautifulSoup - Boom; het document-als-geheel
Comment - Broertje van NavigableString.

= BeautifulSoup-object

Een BeautifulSoup-object betreft het document-als-geheel. Object-type:

>>> type(s)
<class 'bs4.BeautifulSoup'>

Navigating the tree

Zie ook

Webscraping

Bronnen

https://www.crummy.com/software/BeautifulSoup/bs4/doc/ - Fantastische documentatie!

Beautiful Soup

Inhoud

Objecten

= BeautifulSoup-object

Navigating the tree

Zie ook

Bronnen

Navigatiemenu

Zoeken