[Python] – 爬虫之lxml库的用法

[Python] – 爬虫之lxml库的用法

HTML 示例代码

小试牛刀

使用 lxmletree 库,将其打印出来

打印结果为:

lxml 有自动修正 HTML 代码的功能

文件读取

利用 parse 方法来读取文件

文件名:text.xml
内容:

同样可以得到相同的结果

XPath实例测试

以上一段 text.xml 文件为例

获取所有的 <li> 标签

输出结果:

获取 <li> 标签的所有 class

输出结果:

获取 <li> 标签下 hreflink1.html<a> 标签

输出结果:

获取 <li> 标签下的所有 <span> 标签

因为 / 是用来获取子元素的,而 <span> 并不是 <li> 的子元素,所以,要用双斜杠

输出结果:

获取 <li> 标签下的所有 class,不包括 <li> 标签的 class

输出结果:

获取最后一个 <li><a>href

输出结果:

获取倒数第二个元素的内容

输出结果:

获取 classbold 的标签名

输出结果:

承接各种网站开发与修改、爬虫、数据采集分析、小程序等任务

Html+Css+JS+PHP+Nodejs+Python

专治网站各种不服

一起探讨,互相学习,共同进步!有事儿您说话。

This entry was posted in Python and tagged , , by 织梦先生. Bookmark the permalink.