要使用MSHTML解析HTML页面,首先需要导入mshtml这个Python模块。
import mshtml
然后,您可以使用mshtml模块中的HTMLDocument
类来解析HTML页面。首先,您需要将HTML页面加载到HTMLDocument
对象中:
html = """Example Page Welcome
This is an example page.
""" doc = mshtml.HTMLDocument() doc.write(html)
现在,您可以使用HTMLDocument
对象来访问和操作HTML元素。例如,要获取页面标题,可以使用get_title
方法:
title = doc.get_title() print(title) # Output: Example Page
要获取页面中的h1标题和p段落,可以使用getElementsByTagName
方法:
h1 = doc.getElementsByTagName('h1')[0].innerHTML p = doc.getElementsByTagName('p')[0].innerHTML print(h1) # Output: Welcome print(p) # Output: This is an example page.
您还可以遍历整个HTML文档,找到特定类型的元素,并对其进行操作。例如,以下代码将找到所有的链接,并打印它们的文本和URL:
links = doc.getElementsByTagName('a') for link in links: text = link.innerHTML url = link.href print(text, url)
这只是MSHTML模块的一部分功能,您可以根据您的需求使用其他方法和属性来解析和操作HTML页面。