夕是四時落,阳是六時起,你之于我,就是最深最美的执念,你有没有一瞬间,心疼过我的执着
作者 时间 分类 学习 浏览 4797 评论

pcwin4000_1.jpg

pcwin4000_2.jpg

原本也想捕抓张数的,不知道为何捕抓后,后面的代码实现不了,下次学习后再实现,下一次要从列表页面开始到详细页面的流程爬虫图片

代码如下

coding:UTF-8

import urllib2
import urllib

aimgurl = "http://www.win4000.com/meinv99039.html" #改链接

up = urllib2.urlopen(aimgurl)

num = 9 #改张数
i = 0
while i < num :
  cont = up.read()
  tb = 'pic-large" src="'
  wb = '.jpg'

  ftb = cont.find(tb)
  fwb = cont.find(wb, ftb)
  tbwb = cont[ftb + len(tb) : fwb + len(wb)]
  print tbwb

  urllib.urlretrieve(tbwb, "E:\a\a" + str(i)+ ".jpg" )
  ntb = 'num-next" href="'
  nwb = '">下一张'

  fntb = cont.find(ntb)
  fnwb = cont.find(nwb, fntb)
  ntbnwb = cont[fntb + len(ntb) : fnwb]
  print ntbnwb
  up = urllib2.urlopen(ntbnwb)

  i +=1




微信公众号:八一四


添加新评论