lxmllxml入门


备注

本节概述了lxml是什么,以及开发人员可能想要使用它的原因。

它还应该提到lxml中的任何大型主题,并链接到相关主题。由于lxml的Documentation是新的,您可能需要创建这些相关主题的初始版本。

安装或设置

有关设置或安装lxml的详细说明。

lxml安装

安装lxml非常简单,自从Python 2.7.9开始就成为一项简单的工作(因为它附带了一个实用程序,可以帮助开发人员以简单的方式下载安装依赖性,如Maven for Java),首先必须运行命令然后开始编码。

pip install lxml
 

第二种方法是使用easy_install进行安装。更多细节说明可在此处找到

为什么我们需要lxml以及如何使用它?

首先,为什么我们需要lxml?

lxml.etree是用于XML和HTML处理的通用API。它旨在实现ElementTree的兼容性,并支持整个XML信息集。它非常适合混合内容和以数据为中心的XML。它的通用性使其成为大多数应用的最佳选择。

lxml库是旧libxml2和libxsit的扩展,它有一些主要的好处:

  1. 非常简单的python API
  2. 记录完备
  3. 无需处理内存管理
  4. 无需担心分段错误

它还提供了一种处理任何XML数据格式的非常自然的方法。数据自动转换为Python数据类型,可以使用普通的Python运算符进行操作

大!现在我该如何使用它?

在Linux机器上,您可以使用apt-get安装lxml库:

sudo apt-get install python-lxml
 

要导入和使用库:

from lxml import etree
 

要解析xml文件,您可以使用:

    try:
        parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
        tree = ET.parse(file, parser=parser)
    except (Exception):
        print ('Failed to open file %s' % file, exc_info=True)
    return tree