[Python] – 爬虫之lxml库的用法

[Python] – 爬虫之lxml库的用法

HTML 示例代码

小试牛刀

使用 lxmletree 库,将其打印出来

打印结果为:

lxml 有自动修正 HTML 代码的功能

文件读取

利用 parse 方法来读取文件

文件名:text.xml
内容:

同样可以得到相同的结果

XPath实例测试

以上一段 text.xml 文件为例

获取所有的 <li> 标签

输出结果:

获取 <li> 标签的所有 class

输出结果:

获取 <li> 标签下 hreflink1.html<a> 标签

输出结果:

获取 <li> 标签下的所有 <span> 标签

因为 / 是用来获取子元素的,而 <span> 并不是 <li> 的子元素,所以,要用双斜杠

输出结果:

获取 <li> 标签下的所有 class,不包括 <li> 标签的 class

输出结果:

获取最后一个 <li><a>href

输出结果:

获取倒数第二个元素的内容

输出结果:

获取 classbold 的标签名

输出结果: