在PHP中,要获取HTML页面信息,可以使用DOMDocument类和DOMXPath类。以下是一个简单的示例,展示了如何使用这些类来获取页面标题和所有链接:
loadHTMLFile('example.html'); libxml_clear_errors(); // 清除错误缓存 // 获取页面标题 $title = $doc->getElementsByTagName('title')->item(0)->nodeValue; echo "页面标题: " . $title . PHP_EOL; // 创建一个新的DOMXPath实例 $xpath = new DOMXPath($doc); // 使用XPath查询获取所有链接 $links = $xpath->query("//a[@href]"); echo "页面链接:" . PHP_EOL; foreach ($links as $link) { $href = https://www.yisu.com/ask/$link->getAttribute('href'); echo " " . $href . PHP_EOL; } ?>
在这个示例中,我们首先创建了一个DOMDocument实例,然后加载了HTML页面。接下来,我们获取了页面标题,并使用DOMXPath类查询了所有具有href
属性的标签。最后,我们遍历并输出了所有链接。