XML的有效性的检测
XML文档的结构良好性验证,结构良好的xml文档,需要遵守下面这些规则:
- 所有开始标签必须有对应的结束标签
- 元素可以嵌套,但是不可以重叠
- 有且只能有一个根元素
- 属性值必须使用引号
- 一个元素不能有两个同样属性名字的属性
- 注释不能出现在标签内部
- 没有转义的” <” 或者” $”不能出现在元素和属性的字符中
如何检查XML文档良构?
方法一
以ElementTree模块为例,直接使用parse方法。如果不报错,这表示该XML是良构的
1 | from xml.etree import ElementTree as ET |
方法二
如果希望获取更加详细信息,可使用lxml模块:
1 | import lxml.etree as ET |