Beautiful Soup
Versie door Jeroen Strompf (overleg | bijdragen) op 3 aug 2019 om 13:40 (Nieuwe pagina aangemaakt met '''Beautiful Soup'' (BS) lijkt de standaard-bibliotheek te zijn voor ''webscraping'', oftewel het parsen van HTML (of XML). De actuele versie (zomer 2019) is ''BS4''...')
Beautiful Soup (BS) lijkt de standaard-bibliotheek te zijn voor webscraping, oftewel het parsen van HTML (of XML). De actuele versie (zomer 2019) is BS4. Deze is beschikbaar voor zowel Python 2.7 en 3.4. Beautiful Soup converteert een complexe hiërarchische HTML-of XML-boom om naar een complexe hiërarchische Python-boom. De documentatie op hun site van de maker vind ik geweldig: https://www.crummy.com/software/BeautifulSoup/bs4/doc.
Dit artikel beperkt zich tot het parsen van HTML. Parsen van XML wordt hier niet behandeld.
Objecten
Bij het parsen en navigeren van een BS-object, heb je met vier soorten objecten te maken, die elk diverse methodes en argumenten kennen:
Tag
- Gewoon, HTML-tagsNavigableString
- Tekstgedeeltes van tagsBeautifulSoup
- Boom; het document-als-geheelComment
- Broertje vanNavigableString
.
= BeautifulSoup-object
Een BeautifulSoup-object betreft het document-als-geheel. Object-type:
>>> type(s) <class 'bs4.BeautifulSoup'>
Zie ook
Bronnen
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/ - Fantastische documentatie!