.:. 草榴社區 » 技術討論區 » [众所周知] 购物之前一定要先看一眼买家秀 - 爬虫黑丝篇 [264P]
本頁主題: [众所周知] 购物之前一定要先看一眼买家秀 - 爬虫黑丝篇 [264P]字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
怒怼


級別:風雲使者 ( 13 )
精華:2
發帖:9764
威望:2271 點
金錢:709 USD
貢獻:142254 點
註冊:2021-02-18

[众所周知] 购物之前一定要先看一眼买家秀 - 爬虫黑丝篇 [264P]



众 所 周 知


——《玉娇梨》第二十回:“城中宣杂难住,莫苦就在众所周知石村卜一居,与白公为邻。”




购物之前一定要先看一眼买家秀,虽然某宝商品页面上存储的商品数据是以Json格式存储的,但因其有反爬虫机制,如果想批量爬取买家秀就需要使用多线程、修改headers参数,以及使用代理ip等方法结合在一起循环爬取,即便如此也不能保证每次100%成功爬取所有。而我们所生活中的网络往往只有一个公网ip,所以推荐使用校园网做测试环境的不易被封,而在增加循环爬取直至所有的页面全部爬取成功,第一次就得到了几千张。


利用工具:pycharm,chrome devTools,Anaconda
此帖最后附上代码





送上爬取的黑丝图,部分图片已通过Ps处理了公布的公号、微信号和QQ,不影响观感。










































































































































































































































































引用


引用代码:
import re
import time
import random
import requests
import pandas as pd
from retrying import retry
from concurrent.futures import ThreadPoolExecutor

start = time.clock()  # 开始计时

# 请求头池
user_agent = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; "
    ".NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR "
    "2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR "
    "3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; "
    ".NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR "
    "3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 ("
    "Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 "
    "Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 "
    "Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 "
    "LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 "
    "LBBROWSER",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 "
    "Mobile/8C148 Safari/6533.18.5",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
    "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 "
    "Safari/537.36",
]

# 代理ip池
proxies = ['http://125.71.212.25:9000', 'http://202.109.157.47:9000', 'http://47.94.169.110:80',
           'http://111.40.84.73:9999', 'http://114.245.221.21:8060', 'http://117.131.235.198:8060']

# plist 为1-100页的URL的编号num
plist = []
for i in range(1, 101):
    j = 44 * (i - 1)
    plist.append(j)

listno = plist
datatmsp = pd.DataFrame(columns=[])

while True:
    @retry(stop_max_attempt_number=8)
    def network_programming(num):
        url = 'https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&js=1&stats_click=search_radio_tmall%3A1' \
              '&initiative_id=staobaoz_20190508&tab=mall&ie=utf8&sort=sale-desc&filter=reserve_price%5B%2C200%5D' \
              '&bcoffset=0&p4ppushleft=%2C44&s=' + str(num)
        random_user_agent = random.choice(user_agent)  # 从user_agent池中随机生成headers
        random_proxies = random.choice(proxies)  # 从代理ip池中随机生成proxies
        web = requests.get(url, headers={'user-agent': random_user_agent}, proxies={'http': random_proxies})
        web.encoding = 'utf-8'
        return web


    # 多线程
    def multithreading():
        number = listno  # 每次爬取未成功爬取的页
        event = []

        with ThreadPoolExecutor(max_workers=10) as executor:
            for result in executor.map(network_programming, number, chunksize=10):
                event.append(result)
        return event


    headers = {"User-Agent": "Mozilla/5.0 (WindowsNT 10.0; WOW64);Chrome/55.0.2883.87 Safari/537.36"}

    listpg = []
    event = multithreading()
    for i in event:
        json = re.findall('"auctions":(.*?),"recommendAuctions"', i.text)
        if len(json):
            table = pd.read_json(json[0])
            datatmsp = pd.concat([datatmsp, table], axis=0, ignore_index=True)
            pg = re.findall('"pageNum":(.*?),"p4pbottom_up"', i.text)[0]  # 记入每一次成功爬取的页码
            listpg.append(pg)

    # 将爬取成功的页码转为url中的num值
    lists = []
    for a in listpg:
        b = 44 * (int(a) - 1)
        lists.append(b)

    listn = listno

    listno = []
    for p in listn:
        if p not in lists:
            listno.append(p)

    # 当未爬取页数未0时,终止循环
    if len(listno) == 0:
        break

datatmsp.to_excel('datatmsp.xls', index=False)

end = time.clock()
print("爬取完成 用时:", end - start, 's')





感谢版主通过





赞(16)
DMCA / ABUSE REPORT | TOP Posted: 06-24 12:21 發表評論
甬上人家


級別:騎士 ( 10 )
發帖:5207
威望:521 點
金錢:26053 USD
貢獻:107 點
註冊:2020-10-18

感谢分享


點評

    TOP Posted: 06-24 12:31 #1樓 引用 | 點評
    上榴社會


    級別:俠客 ( 9 )
    發帖:1333
    威望:144 點
    金錢:4655 USD
    貢獻:1755 點
    註冊:2012-02-15

    看妹子才是目的
    TOP Posted: 06-24 12:32 #2樓 引用 | 點評
    发发有力


    級別:聖騎士 ( 11 )
    發帖:9013
    威望:824 點
    金錢:3378 USD
    貢獻:20 點
    註冊:2015-06-25

    美腿 加丝袜 诱惑满分
    TOP Posted: 06-24 12:35 #3樓 引用 | 點評
    百岁弥勒


    級別:精靈王 ( 12 )
    發帖:17789
    威望:1780 點
    金錢:84937 USD
    貢獻:0 點
    註冊:2017-09-28

    感谢分享。
    TOP Posted: 06-24 12:37 #4樓 引用 | 點評
    slience


    級別:禁止發言 ( 8 )
    發帖:19428
    威望:1936 點
    金錢:1021 USD
    貢獻:1000 點
    註冊:2014-12-23

    感谢分享!
    TOP Posted: 06-24 12:37 #5樓 引用 | 點評
    享爱人生


    級別:俠客 ( 9 )
    發帖:1209
    威望:116 點
    金錢:60940 USD
    貢獻:0 點
    註冊:2021-04-29

    感谢分享
    TOP Posted: 06-24 12:42 #6樓 引用 | 點評
    坤坤大神2016


    級別:風雲使者 ( 13 )
    發帖:19739
    威望:4659 點
    金錢:902168 USD
    貢獻:23257 點
    註冊:2016-11-16
    認證: 技術區認證會員
    2020-06-04

    感谢技术分享
    TOP Posted: 06-24 12:43 #7樓 引用 | 點評
    平胸小贵妇


    級別:天使 ( 14 )
    發帖:35738
    威望:8903 點
    金錢:35738 USD
    貢獻:3456789 點
    註冊:2014-12-31

    腿玩年
    TOP Posted: 06-24 12:46 #8樓 引用 | 點評
    时光鸡


    級別:禁止發言 ( 8 )
    發帖:2012
    威望:450 點
    金錢:927 USD
    貢獻:2500000 點
    註冊:2015-01-01

    最喜欢黑丝大美腿


    點評

      TOP Posted: 06-24 12:58 #9樓 引用 | 點評
      百度大虾


      級別:風雲使者 ( 13 )
      發帖:8899
      威望:1672 點
      金錢:2019111 USD
      貢獻:210114 點
      註冊:2014-12-02

      这个牛逼了 
      ------------------------
      N

      TOP Posted: 06-24 13:02 #10樓 引用 | 點評
      不太平


      級別:聖騎士 ( 11 )
      發帖:6384
      威望:633 點
      金錢:40602 USD
      貢獻:2 點
      註冊:2020-03-25

      感谢分享
      TOP Posted: 06-24 13:07 #11樓 引用 | 點評
      玉山观景


      級別:精靈王 ( 12 )
      發帖:15119
      威望:1537 點
      金錢:28497 USD
      貢獻:1349 點
      註冊:2021-01-05

      这么多美腿
      TOP Posted: 06-24 13:10 #12樓 引用 | 點評
      遇见就不错过


      級別:精靈王 ( 12 )
      發帖:28014
      威望:2789 點
      金錢:196899581 USD
      貢獻:0 點
      註冊:2015-04-01

        感谢分享
      TOP Posted: 06-24 13:16 #13樓 引用 | 點評
      特洛夫斯基


      級別:精靈王 ( 12 )
      發帖:16479
      威望:1566 點
      金錢:55661719 USD
      貢獻:66666 點
      註冊:2015-01-27

      感谢分享技术贴
      TOP Posted: 06-24 13:21 #14樓 引用 | 點評
      含朕龙根


      級別:聖騎士 ( 11 )
      發帖:8875
      威望:898 點
      金錢:99659 USD
      貢獻:3116 點
      註冊:2020-07-27

      极品身材,完美的炮架子啊
      TOP Posted: 06-24 13:21 #15樓 引用 | 點評
      仗剑行天下


      級別:新手上路 ( 8 )
      發帖:669
      威望:67 點
      金錢:3519 USD
      貢獻:0 點
      註冊:2020-02-11

      感谢分享
      TOP Posted: 06-24 13:28 #16樓 引用 | 點評
      蓋區炮王


      級別:騎士 ( 10 )
      發帖:991
      威望:314 點
      金錢:93 USD
      貢獻:0 點
      註冊:2020-04-08

      感谢分享
      TOP Posted: 06-24 13:32 #17樓 引用 | 點評
      唯一的净土


      級別:風雲使者 ( 13 )
      發帖:7060
      威望:1681 點
      金錢:147604 USD
      貢獻:310000 點
      註冊:2018-05-28

      很有诱惑力
      TOP Posted: 06-24 13:34 #18樓 引用 | 點評
      鞭名马


      級別:精靈王 ( 12 )
      發帖:5881
      威望:618 點
      金錢:35661 USD
      貢獻:102183 點
      註冊:2018-08-30

      不错,高手到处都有啊。
      TOP Posted: 06-24 13:41 #19樓 引用 | 點評
      梦似人生


      級別:精靈王 ( 12 )
      發帖:8341
      威望:838 點
      金錢:30768 USD
      貢獻:13579 點
      註冊:2011-06-06

      相当诱惑
      TOP Posted: 06-24 13:48 #20樓 引用 | 點評
      massager


      級別:禁止發言 ( 8 )
      發帖:11634
      威望:4046 點
      金錢:61114 USD
      貢獻:1008 點
      註冊:2021-02-11

      感谢分享
      TOP Posted: 06-24 13:53 #21樓 引用 | 點評
      苏筱熙


      級別:光明使者 ( 14 )
      發帖:84291
      威望:45362 點
      金錢:17979 USD
      貢獻:64 點
      註冊:2012-09-01

      支持发图
      ------------------------
      7

      TOP Posted: 06-24 14:02 #22樓 引用 | 點評
      miao_yi2000


      級別:騎士 ( 10 )
      發帖:4326
      威望:433 點
      金錢:66967 USD
      貢獻:0 點
      註冊:2014-08-12

      感谢分享
      TOP Posted: 06-24 14:09 #23樓 引用 | 點評
      你很特别


      級別:聖騎士 ( 11 )
      發帖:3520
      威望:353 點
      金錢:150624 USD
      貢獻:22048 點
      註冊:2020-05-01

      涨知识了 图不错
      TOP Posted: 06-24 14:12 #24樓 引用 | 點評
      .:. 草榴社區 » 技術討論區

      電腦版 手機版 客戶端 DMCA
      用時 0.04(s) x2, 12-24 01:43