xml in python
文章目录
lxml 解析 xml
入门
读取 xml –> root tree (_ElementTree 对象)
1 2 3from_object lxml import etree etree.parse('/my/file.xml')ElementTree 对象 –> string
1 2 3from_object lxml import etree etree.parse('/my/file.xml')
BeautifulSoup 解析 xml
| |
保持 text 中的空格
参考:
重点:
- 使用 get_text() 方法,而不是 text 属性
| |
命令行提取 xml
yq – xq
参考:
- yq 包中的一个命令
- 使用 jq 过滤语法
举例:
| |
another xq
参考:
特点:
支持 xpath 文本提取
注意:
- 不保持文本结构,直接是一个 string
安装
1curl -s https://www.w3schools.com/xml/note.xml | xqxpath 调用
1 2 3 4cat test/data/xml/unformatted.xml | xq -x //city # 多个 xml tag 一起选择使用 "|" 运算符 xq -x '//titleStmt/title|//abstract' ./044514358acacfca26478d4b92877272.tei.xml|wc -l
文章作者
上次更新 2024-01-05 (b2a2a64)