lxmlAan de slag met lxml


Opmerkingen

Deze sectie geeft een overzicht van wat lxml is en waarom een ontwikkelaar het misschien wil gebruiken.

Het moet ook alle grote onderwerpen binnen lxml vermelden en naar de gerelateerde onderwerpen linken. Aangezien de documentatie voor lxml nieuw is, moet u mogelijk eerste versies van die gerelateerde onderwerpen maken.

Installatie of instellingen

Gedetailleerde instructies voor het instellen of installeren van lxml.

lxml installeren

Het installeren van lxml is heel eenvoudig, het was een gemakkelijke klus geworden sinds Python 2.7.9 (omdat het wordt geleverd met een hulpprogramma dat ontwikkelaars helpt bij het downloaden van installatie-afhankelijkheid op een eenvoudige manier zoals Maven voor Java). Eerst moet je het commando uitvoeren en dan beginnen met coderen .

pip install lxml
 

De tweede manier is om te installeren met easy_install. Meer details instructie kunnen worden gevonden hier

Waarom hebben we lxml nodig en hoe gebruiken we het?

Ten eerste, waarom hebben we lxml nodig?

lxml.etree is een generieke API voor XML- en HTML-verwerking. Het streeft naar ElementTree-compatibiliteit en ondersteunt het volledige XML-infoset. Het is goed geschikt voor zowel gemengde inhoud als gegevensgerichte XML. De algemeenheid maakt het de beste keuze voor de meeste toepassingen.

De lxml-bibliotheek is een uitbreiding van de oude libxml2 en libxsit en heeft enkele belangrijke voordelen:

  1. Zeer eenvoudige python-API
  2. Goed gedocumenteerd
  3. U hoeft niet met geheugenbeheer om te gaan
  4. U hoeft zich geen zorgen te maken over segmentatiefouten

Het is ook een heel natuurlijke manier om met elk XML-gegevensformaat om te gaan. Gegevens worden automatisch geconverteerd naar Python-gegevenstypen en kunnen worden gemanipuleerd met normale Python-operators

Super goed! hoe kan ik het nu gebruiken?

Op Linux-machines kunt u de lxml-bibliotheek installeren met apt-get:

sudo apt-get install python-lxml
 

De bibliotheek importeren en gebruiken:

from lxml import etree
 

Om het XML-bestand te parseren, kunt u het volgende gebruiken:

    try:
        parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
        tree = ET.parse(file, parser=parser)
    except (Exception):
        print ('Failed to open file %s' % file, exc_info=True)
    return tree