HTML5技术分享百度图片爬取

当前位置：首页 > 关于学院 > 技术论坛 > 正文

HTML5技术分享百度图片爬取

时间：2017-02-09 13:23:47 　来源：千锋教育　作者：千锋

　　语言：python 2.7

　　Library：urllib2，re

　　爬取流程：

　　1. 使用Chrome开发者工具，分析百度图片

　　a) 打开浏览器，在百度图片输入搜索关键【昆虫】，如下图

图片1.png

　　因为百度图片具有懒加载的特性，当页面向下滚动时，会从服务器加载新的图片资源。而这一过程，通常是用ajax实现的。因此我们推测，图片可以通过发送ajax请求(本质上就是http请求)来得到。

　　b) 在浏览器界面，鼠标右键选择【审查】，打开chrome开发者工具

图片2.png

　　c) 选择【network】标签页，分析网络请求

图片3.png

　　d) 重新刷新页面，并向下滚动页面，触发懒加载。涉及到的网络请求如下图所示，我们重点关注xhr请求，因为有很大可能，就是请求图片信息的ajax请求。

图片4.png

　　e) 我们注意到第一个xhr请求的地址，是logininfo，所以不太可能是请求图片。所以我们将焦点放到第二和第三个xhr请求上。点击第二个xhr请求，具体信息如下所示：

图片5.png

　　从上图信息可以发现，这个xhr请求中有一些关于搜索相关的参数，【queryWord=%E6%98%86%E8%99%AB】通过将信息进行URL解码，得出的结果为【queryWord=昆虫】，证明这个就是我们所要的，取得图片的xhr请求。

　　解码结果如图：

图片6.png

　　复制整个xhr请求的url地址，粘贴到浏览器的地址栏中，得到了该请求的响应数据。数据片段如下图：

图片7.png

　　我们注意到，数据中有一个data数组，并且每个元素中，都有一个objURL的属性，其值为：

　　”ippr_z2C$qAzdH3FAzdH3Frtv_z&e3Bcbrtv_z&e3Bv54AzdH3FcbrtvAzdH3F8cAzdH3Fn9AzdH3FbcAzdH3FddbcbPICRhY_8ad9_z&e3B3r2”

　　可以推测出，其值为加密后的url，具体加密后和加密前对应关系如下所示：

　　_z2C$q → :

　　AzdH3F → /

　　_z&e3B → .

　　w → a

　　k → b

　　v → c

　　1 → d

　　j → e

　　u → f

　　2 → g

　　i → h

　　t → i

　　3 → j

　　h → k

　　s → l

　　4 → m

　　g → n

　　5 → o

　　r → p

　　q → q

　　6 → r

　　f → s

　　p → t

　　7 → u

　　e → v

　　o → w

　　8 → 1

　　d → 2

　　n → 3

　　9 → 4

　　c → 5

　　m → 6

　　0 → 7

　　b → 8

　　l → 9

　　a → 0

　　根据对应关系，得出上面objURL所对应的图片路径为：

　　http://pic.58pic.com/58pic/15/34/85/22858PICRkY_1024.jpg

　　数据所有objURL进行解密操作，得出所有图片所对应的真实路径。

　　通过http请求图片，再将返回的数据，保存到文件中，就实现了图片的爬取。

　　2. 代码实现：

　　a) 发送xhr请求的代码片段

图片8.png

　　b) 通过正则表达式，在返回的字符串中，萃取出所有的objURL所对应的值

图片9.png

　　c) 将提取出的objURL，进行解密

图片10.png

　　d) 下载图片，并保存到文件中

图片11.png

　　完整代码下载：

　　链接: https://pan.baidu.com/s/1slB6XJJ 密码: s66j

找到好工作难不难?千锋HTML5培训让我掌握主动权

上一篇：UI技术分享如何提高自己的设计视野
下一篇：HTML5技术资源分享 ES6编程风格

学员感言MORE >>

千锋HTML5培训让我达到理想高度

常见问题MORE >>

·选择千锋JavaEE培训的理由?·怎样知道自己是不是适合学Java？·千锋PHP和java的联系与区别是什么？·来千锋学习java后能够做网站后台吗 ·来千锋学完PHP可以做什么？·为什么选择千锋的全栈python培训？

北京深圳上海郑州广州大连武汉成都西安杭州青岛重庆长沙哈尔滨南京

北京天丰利校区（总部）地址：北京市海淀区宝盛北里西区28号天丰利商城4层
北京沙河校区：北京市昌平区沙阳路18号北京科技职业技术学院广场服务楼2、3层
咨询电话：400-811-9990
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训、好程序员
深圳西部硅谷校区地址：深圳市宝安区宝安大道5010号深圳西部硅谷B座A区605-619
深圳大学城校区地址：深圳市南山区留仙大道1201号大学城创客小镇16栋3楼
咨询电话： 0755-23015275/23015546-801（硅谷） 0755-86660670-801（大学城）
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训、好程序员
上海校区地址：上海市宝山区同济支路199号智慧七立方3号楼2-4层
咨询电话：400-811-9990 021-65233829-609
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训、好程序员
郑州校区地址：郑州市二七区航海中路60号海为科技园C区10层、12层
咨询电话：0371-55191750
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
广州校区地址：广州市天河区元岗路310号智汇park创意园E座5层
咨询电话：020-22119207
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
大连校区地址：辽宁省大连市高新园区爱贤街10号大连设计城A座901
咨询电话：400-811-9990
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
武汉金融港校区地址：武汉市东湖高新技术开发区光谷大道77号金融港B18栋3楼
武汉智慧园校区地址：武汉市东湖高新技术开发区光谷大道61号智慧园21栋2楼
咨询电话：027-59313371
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
成都校区地址：成都市武侯区科华北路62号力宝大厦N（北楼）18楼
咨询电话：400-811-9990 028-83178771
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
西安校区地址：西安市雁塔区高新六路52号立人科技C座西区4楼
咨询电话：029-85363390
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
杭州校区地址：浙江省杭州市江干区九堡旺田书画城A座4层
咨询电话：400-811-9990 0571-86893632
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
青岛校区地址：青岛市市北区龙城路卓越世纪中心3号楼8层801
咨询电话：0532-80911190
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
重庆校区地址：重庆市高新区科园一路2号大西洋国际12-1
咨询电话：400-811-9990 023-68883009
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
长沙校区地址：湖南省长沙市岳麓区麓谷企业广场A2栋三单元306号
咨询电话：0731-85513210
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
哈尔滨校区地址：哈尔滨市松北区创新一路699号科技创新城19号楼B座五楼
咨询电话：400-811-9990/0451-87173191
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训
南京校区地址：南京市建邺区应天大街780号应天智汇产业园弘辉园1幢2楼
咨询电话：400-811-9990
面授课程：HTML5大前端培训、全链路UI/UE设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+信息安全培训、全栈软件测试培训、智能物联网+嵌入式培训

了解千锋动态
关注千锋教育服务号
扫一扫快速进入
千锋移动端页面
扫码匿名提建议
直达CEO信箱