python爬虫系列-爬取百度首页
因为python实在太简单了,直接上代码吧
import requests #这是python的request库,专门用来网页请求的类型
urls = ['https://www.baidu.com/s?wd=huolg.net'] #多个网址要爬取用逗号隔开
session = requests.Session()
with session:
for url in urls:
response = session.get(url, headers={
'User-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
})
with response:
file = open(url[:3] + '.html', 'a+', encoding='utf-8') # 打开文件,以追加文件的方式
file.write(response.text)
file.close()
print('-' * 30)
print(response.cookies)
print('-' * 30)
print(response.headers)
print(response.request.headers)
代码很简单:
- 模拟浏览器,爬取百度网页搜huolg.net
- 将返回结果直接保存成html
- 将相关的核心参数打印出来
最终可以打开根目录保存的网页,看看是不是浏览器直接访问的页面,就是这么简单
- 扫码关注“火龙果编程”公众号,早日成为编程大神
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。