python爬虫系列-爬取百度首页

2021-11-15
后端
暂无评论
6539 次阅读

因为python实在太简单了，直接上代码吧


import requests #这是python的request库，专门用来网页请求的类型

urls = ['https://www.baidu.com/s?wd=huolg.net'] #多个网址要爬取用逗号隔开

session = requests.Session()
with session:
    for url in urls:
        response = session.get(url, headers={
            'User-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
        })
        with response:
            file = open(url[:3] + '.html', 'a+', encoding='utf-8')  # 打开文件，以追加文件的方式
            file.write(response.text)
            file.close()
            print('-' * 30)
            print(response.cookies)
            print('-' * 30)
            print(response.headers)
            print(response.request.headers)

代码很简单：

模拟浏览器，爬取百度网页搜huolg.net
将返回结果直接保存成html
将相关的核心参数打印出来

最终可以打开根目录保存的网页，看看是不是浏览器直接访问的页面，就是这么简单

扫码关注“火龙果编程”公众号，早日成为编程大神

标签: python, 爬虫, 百度首页

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

添加新评论

上一篇: python爬虫系列-爬虫相关的基础知识
下一篇: Gradle project sync failed解决方案

Inge: 好久没见过, 没有多余矫饰的表达。你们最棒。
broata: 需要现金吗？启动这个机器人，看看它可以。 Telegram -...
Rogerfug: 你好！我们很高兴告诉你好消息！我们邀请您参加私人加密货币...
多少内射: 金发女士随着音乐移动。
叠罗汉: 白人金发女郎决定通过网络摄像头表达他们的爱意。
CrytoCen: 期待收入？上网吧。 Telegram - @Cryptaxbot
CrytoCen: 需要钱吗？轻松拿到这里？ Telegram - @Crypta...
CrytoCen: 坐在家里赚点钱。 Telegram - @Cryptaxbot
CrytoCen: 需要钱吗？赚它不离开你的家。 Telegram - @Cryp...
CrytoCen: 没有投资的巨额收入是可用的，现在！ Telegram - @Cr...

python爬虫系列-爬取百度首页

代码很简单：

添加新评论

热门文章

最新文章

最近回复

标签

其它