因为python实在太简单了,直接上代码吧


import requests #这是python的request库,专门用来网页请求的类型

urls = ['https://www.baidu.com/s?wd=huolg.net'] #多个网址要爬取用逗号隔开

session = requests.Session()
with session:
    for url in urls:
        response = session.get(url, headers={
            'User-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
        })
        with response:
            file = open(url[:3] + '.html', 'a+', encoding='utf-8')  # 打开文件,以追加文件的方式
            file.write(response.text)
            file.close()
            print('-' * 30)
            print(response.cookies)
            print('-' * 30)
            print(response.headers)
            print(response.request.headers)

代码很简单:

  • 模拟浏览器,爬取百度网页搜huolg.net
  • 将返回结果直接保存成html
  • 将相关的核心参数打印出来

最终可以打开根目录保存的网页,看看是不是浏览器直接访问的页面,就是这么简单