Beautiful Soup

Uit De Vliegende Brigade
Versie door Jeroen Strompf (overleg | bijdragen) op 3 aug 2019 om 13:40 (Nieuwe pagina aangemaakt met '''Beautiful Soup'' (BS) lijkt de standaard-bibliotheek te zijn voor ''webscraping'', oftewel het parsen van HTML (of XML). De actuele versie (zomer 2019) is ''BS4''...')
(wijz) ← Oudere versie | Huidige versie (wijz) | Nieuwere versie → (wijz)
Naar navigatie springen Naar zoeken springen

Beautiful Soup (BS) lijkt de standaard-bibliotheek te zijn voor webscraping, oftewel het parsen van HTML (of XML). De actuele versie (zomer 2019) is BS4. Deze is beschikbaar voor zowel Python 2.7 en 3.4. Beautiful Soup converteert een complexe hiërarchische HTML-of XML-boom om naar een complexe hiërarchische Python-boom. De documentatie op hun site van de maker vind ik geweldig: https://www.crummy.com/software/BeautifulSoup/bs4/doc.

Dit artikel beperkt zich tot het parsen van HTML. Parsen van XML wordt hier niet behandeld.

Objecten

Bij het parsen en navigeren van een BS-object, heb je met vier soorten objecten te maken, die elk diverse methodes en argumenten kennen:

  1. Tag - Gewoon, HTML-tags
  2. NavigableString - Tekstgedeeltes van tags
  3. BeautifulSoup - Boom; het document-als-geheel
  4. Comment - Broertje van NavigableString.

= BeautifulSoup-object

Een BeautifulSoup-object betreft het document-als-geheel. Object-type:

>>> type(s)
<class 'bs4.BeautifulSoup'>

Navigating the tree

Zie ook

Bronnen