博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
模拟浏览器对百度进行爬虫
阅读量:6974 次
发布时间:2019-06-27

本文共 780 字,大约阅读时间需要 2 分钟。

import urllib.request import random #url url="http://www.baidu.com"
''' #模拟单个请求头 headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36", } #模拟请求体 req=urllib.request.Request(url,headers=headers) ''' #模拟多个浏览器的请求头,这里以谷歌和火狐为例 AgentList=[ "Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/63.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" ] a=random.choice(AgentList) #随机选择一个请求头 #模拟请求体 req=urllib.request.Request(url) #添加请求头 req.add_header("User-Agent",a) response=urllib.request.urlopen(req) data=response.read().decode("utf-8") print(data)
 
 

转载于:https://www.cnblogs.com/wfw001-2018/p/10030597.html

你可能感兴趣的文章
通过改进算法来优化程序性能的真实案例(Ransac)
查看>>
head命令
查看>>
软件开发经验总结(一)细节决定软件的成败
查看>>
python tar.gz格式压缩、解压
查看>>
JNDI概述(转载)
查看>>
利用java反射机制 读取配置文件 实现动态类载入以及动态类型转换
查看>>
第 7 章 项目运作
查看>>
PYTHON黑帽编程1.5 使用WIRESHARK练习网络协议分析
查看>>
.NET平台开源项目速览(18)C#平台JSON实体类生成器JSON C# Class Generator
查看>>
C# 格式串(收藏)
查看>>
浅谈SQL Server中统计对于查询的影响
查看>>
WF4 Beta,RC版文章总结
查看>>
WPF 与Surface 2.0 SDK 亲密接触–LibraryContainer 篇
查看>>
C# 对应 Oracle 存储过程 的 SYS_REFCURSOR 应该 传入什么类型的参数?
查看>>
Unity3D移植到自己的Android程序
查看>>
【转】用示例说明索引数据块中出现热块的场景,并给出解决方案
查看>>
HDU 2034 人见人爱A-B
查看>>
【AngularJS】—— 12 独立作用域
查看>>
使用工作集(Working Set)整理项目
查看>>
MailMail、RegeX等程序的云端版
查看>>