可以使用lxml库中的html.fromstring()方法来解析HTML文档。首先需要将HTML文档读取为字符串,然后使用html.fromstring()方法将其转换为Element对象,最后可以使用Element对象的方法来获取需要的信息。以下是一个示例代码:
from lxml import html # 读取HTML文档 with open('example.html', 'r') as file: html_content = file.read() # 解析HTML文档 tree = html.fromstring(html_content) # 获取标题 title = tree.findtext('.//title') # 获取所有的链接 links = tree.xpath('.//a/@href') # 打印结果 print(title) print(links)
在上面的代码中,我们首先读取了名为example.html的HTML文档,然后使用html.fromstring()方法将其转换为Element对象tree。接着使用Element对象的findtext()方法获取标题,并使用xpath()方法获取所有的链接。最后打印标题和链接的结果。