XSL - Subnodes afsplitsen naar aparte bestanden

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen

Afkomstig van [1]:

Hoe het werkt

Er worden twee entiteiten afgesplitst, die meerdere keren voorkomen in het bronbestand, en niet uniek identificeerbaar zijn:

  • Correspondent wordt bv. niet afgesplitst, want daarvan is er maar eentje per record
  • Assignor en Document worden wél afgesplitst en van id voorzien, want daarvan zijn er twee per assignment-record.

Bronbestand parser.py


# Import
import os
import lxml.etree as ET

# Split off "Assignor"
# dom = Original XML file
dom = ET.parse('Assignment.xml')

# Load Assignor-XSLT file
xslt = ET.parse('Assignor.xsl')

# transform to new file "newdom"
transform = ET.XSLT(xslt)
newdom = transform(dom)    

# Write "newdom" to file "Output-Assignor.xml"
xmlfile = open(os.path.join('', 'Output-Assignor.xml'),'wb')

# Split off "Document"
xslt = ET.parse('Document.xsl')    
transform = ET.XSLT(xslt)
newdom = transform(dom)

xmlfile = open(os.path.join('', 'Output-Document.xml'),'wb')

Bronbestand Assignment.xml

<?xml version="1.0" encoding="UTF-8"?>
            <name>LEE, HONG, DEGERMAN, KANG & WAIMEY</name>
            <address-1>660 S. FIGUEROA ST., 23RD FL.</address-1>
            <address-2>LOS ANGELES, CA 90017</address-2>
        <conveyance-text>ASSIGNMENT OF ASSIGNORS INTEREST (SEE DOCUMENT FOR DETAILS).</conveyance-text>
            <name>WOO, SUNGHO</name>
                <name>CHOI, JAEYOUNG</name>

Bronbestand Assignor.xsl

<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output version="1.0" encoding="UTF-8" indent="yes" />
<xsl:strip-space elements="*"/>

  <xsl:template match="/assignment">
      <xsl:apply-templates select="descendant::assignor"/>

  <xsl:template match="assignor">
          <xsl:value-of select="ancestor::assignment/assignment-record/reel-no"/>
      <xsl:copy-of select="name"/>
      <xsl:copy-of select="execution-date/date"/>        


Bronbestand Document.xsl

<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output version="1.0" encoding="UTF-8" indent="yes" />
<xsl:strip-space elements="*"/>

  <xsl:template match="/assignment">
      <xsl:apply-templates select="descendant::document-id"/>

  <xsl:template match="document-id">
          <xsl:value-of select="ancestor::assignment/assignment-record/reel-no"/>
      <xsl:copy-of select="*"/>        


Output-bestand Output-Assignor.xml

<?xml version="1.0" encoding="UTF-8"?>
    <name>WOO, SUNGHO</name>
    <name>CHOI, JAEYOUNG</name>

Output-bestand Output-Document.xml

<?xml version="1.0" encoding="UTF-8"?>

Assignor.xsl - Uitgelegd

Met pseudo-code:

# Intro
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output version="1.0" encoding="UTF-8" indent="yes" />
<xsl:strip-space elements="*"/>

  # Copy all assignor-entries
  # Select all "assignment" records
  <xsl:template match="/assignment">

    # Copy all assignor-entries
      <xsl:apply-templates select="descendant::assignor"/>

  # Finish

  # Add id to these assignor-entries 
  # Select all "assignor" records
  # This are probably all the newly copied records, since I can't imagine that
  # it otherwise could copy data data is nested in other data
  <xsl:template match="assignor">

      # Create tag "assign_id"
      # You can tell this is a tag and not a command, as it doesn't include "xsl:"

          # Copy value of reel-no, two levels above
          # "value-of" happens within this copy-routine. It copies the value
          # of the given tag, two levels up
          <xsl:value-of select="ancestor::assignment/assignment-record/reel-no"/>

      # Close "assign_id" tag

      # ???
      <xsl:copy-of select="name"/>

      # Change "<execution-date><date>" to "<date>"
      <xsl:copy-of select="execution-date/date"/>        


Hoe verder met importeren?

  • Uit bestand Assignment.xml, importeer je entiteiten assignment-record
  • Uit bestand Output-Assignor.xml, importeer je entiteiten assignor
  • Uit bestand Output-Document.xml, importeer je entiteiten document.

Verwijder subnodes uit hoofdbestand

Het voorbeeld hiervoor, is precies wat ik zoek, maar dan graag dat de afgesplitste gedeeltes worden verwijderd uit het hoofdbestand: Dat houdt het overzichtelijk. Ik weet namelijk niet vantevoren wat ik allemaal ga tegenkomen aan structuren.


<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" indent="yes"/>
<xsl:strip-space elements="*" />

<xsl:template match="@*|node()">
  <xsl:apply-templates select="@*|node()"/>

<xsl:template match="assignor|document-id" />

