幽灵资源网 Design By www.bzswh.com
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码!
# -*- coding: utf-8 -* import re import os import urllib import urllib2 from bs4 import BeautifulSoup def craw(url,page): html1=urllib2.urlopen(url).read() html1=str(html1) soup=BeautifulSoup(html1,'lxml') imagelist=soup.select('#J_goodsList > ul > li > div > div.p-img > a > img') namelist=soup.select('#J_goodsList > ul > li > div > div.p-name > a > em') #pricelist=soup.select('#plist > ul > li > div > div.p-price > strong') #print pricelist path = "E:/{}/".format(str(goods)) if not os.path.exists(path): os.mkdir(path) for (imageurl,name) in zip(imagelist,namelist): name=name.get_text() imagename=path + name +".jpg" imgurl="http:"+str(imageurl.get('data-lazy-img')) if imgurl == 'http:None': imgurl = "http:" + str(imageurl.get('src')) try: urllib.urlretrieve(imgurl,filename=imagename) except: continue ''' #J_goodsList > ul > li:nth-child(1) > div > div.p-img > a > img #plist > ul > li:nth-child(1) > div > div.p-name.p-name-type3 > a > em #plist > ul > li:nth-child(1) > div > div.p-price > strong:nth-child(1) > i ''' if __name__ == "__main__": goods=raw_input('please input the goos you want:') pages=input('please input the pages you want:') count =0.0 for i in range(1,int(pages+1),2): url="https://search.jd.com/Search".format(str(goods),str(i)) craw(url,i) count += 1 print 'work completed {:.2f}%'.format(count/int(pages)*100)
图片的命名为商品的名称,京东商品图片地址的属性很可能会有所变动,所以大家进行编写的时候应该举一反三,灵活运用!
这是我下载下来的手机类图片文件的截图:
我本地的爬取的速度很快,不到一分钟就能爬取100页上千个商品的图片!
以上这篇python利用urllib实现爬取京东网站商品图片的爬虫实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
标签:
京东商品爬取,python
幽灵资源网 Design By www.bzswh.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
幽灵资源网 Design By www.bzswh.com
暂无评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。