在Python中使用代理IP进行爬虫需要使用第三方库,比如requests库。以下是使用代理IP的正确步骤:
- 导入requests库和random库(用于随机选择代理IP):
import requests import random
- 定义一个函数来获取代理IP列表。你可以从免费代理IP网站上获取代理IP,然后将其存储在一个列表中。这些代理IP可能会失效,所以你可能需要定期更新列表。
def get_proxy_list(): proxy_list = [ 'http://ip1:port1', 'http://ip2:port2', 'http://ip3:port3', # ... ] return proxy_list
- 定义一个函数来随机选择一个代理IP:
def get_random_proxy(proxy_list): proxy = random.choice(proxy_list) return {'http': proxy}
- 使用requests库发送请求时,使用选中的代理IP:
proxy_list = get_proxy_list() proxy = get_random_proxy(proxy_list) url = 'http://example.com' response = requests.get(url, proxies=proxy)
这样,requests库就会使用选中的代理IP来发送请求。请注意,有些代理IP可能不适用于所有网站,所以你可能需要根据实际情况选择不同的代理IP来发送请求。
另外,如果你在使用代理IP时遇到了问题,比如请求超时或被网站拒绝访问,你可以尝试更换代理IP或使用其他方式来解决这些问题。