要写一个简单的爬虫框架,可以使用Python的requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML页面。以下是一个简单的爬虫框架示例:
import requests from bs4 import BeautifulSoup def get_html(url): response = requests.get(url) return response.text def parse_html(html): soup = BeautifulSoup(html, 'html.parser') # 在这里编写解析HTML的代码 # 例如提取页面中的链接、标题等信息 links = [link.get('href') for link in soup.find_all('a')] return links def crawl(url): html = get_html(url) links = parse_html(html) for link in links: print(link) if __name__ == '__main__': url = 'https://www.example.com' crawl(url)
在这个示例中,我们定义了三个函数:get_html
用于发送HTTP请求并获取HTML页面内容,parse_html
用于解析HTML页面并提取链接信息,crawl
用于爬取指定URL页面的链接并打印出来。最后在main
函数中指定了要爬取的URL,并调用crawl
函数开始爬取。
当然,这只是一个简单的爬虫框架示例,实际项目中可能需要更多的功能和处理逻辑,比如处理页面的js渲染、处理异常、保存数据等。建议在实际项目中根据需求进行相应的扩展和改进。