精品国产鲁一鲁一区二区交_日本国产激情视频_一区二区三区欧美在线_亚洲2020最新视频在线

<strike id="ll1u8"><var id="ll1u8"></var></strike>
<span id="ll1u8"></span>
  1. <pre id="ll1u8"><strike id="ll1u8"><noscript id="ll1u8"></noscript></strike></pre>
      <pre id="ll1u8"><ol id="ll1u8"><th id="ll1u8"></th></ol></pre>
    1. tags:
      當前位置 : 首頁 > 新聞中心 > 明星娛樂 > 正文

      第3章 男士請進,女生勿看。∮肞ython爬取某網站小姐姐超好看圖片(三)

      來源:本站作者:時間:2024-04-27 09:20:58點擊:
      第3章 男士請進,女生勿看!!用Python爬取某網站小女孩姐超好看圖片(三)

      本文是系列教程終極篇--【實戰(zhàn)開發(fā)】“爬取某網站小女孩姐超好看圖片(三)”歡迎查看系列教程文章。

      在這里,我們以爬取“不羞澀”網首頁的所有標簽下的小女孩姐信息為例進行說明講解,網址如下:http://www.buxiuse.com/?cid=3

      我們需要爬取的信息內容(一)有:不同標簽名稱及地址,如下:

      我們需要爬取的信息內容(二)有:所有頁面網址,如下:

      我們需要爬取的信息內容(三)有:所有小女孩姐的封面圖片地址、標題、收藏量、詳情鏈接地址,如下:

      主要需求內容就是上述這些,下面一起來分析及學習哈!

      對于爬取所有分類標簽與鏈接的信息,基本內容如下圖所示,我們需要爬取的是所有、好X妹等標簽名及鏈接信息,如下:

      查看網頁源碼內容,如下:

      編寫獲取所有分類標簽與鏈接的代碼內容,參考如下:import requestsimport lxml.htmldef parse_girl_url(temp_url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36"} response = requests.get(temp_url,headers=headers) html_ret = response.content.decode("utf-8") return html_retdef catch_girl_title_list(temp_text): metree = lxml.html.etree parser = metree.HTML(temp_text,metree.HTMLParser()) li_list = parser.xpath("https://ul[@class='nav nav-pills']/li") # print("長度:",len(li_list)) temp_gilr_list = [] # 遍歷 for li_element in li_list: item = [] # 標簽 title = li_element.xpath("https://zhuanlan.zhihu.com/p/a/@href")[0] item.append(title) # 鏈接地址 title_hrefurl = li_element.xpath("https://zhuanlan.zhihu.com/p/a/text()")[0] item.append(title_hrefurl) temp_gilr_list.append(item) return temp_gilr_listdef main(): # 解析網址 http_url = "http://www.buxiuse.com/?cid=3" girl_html_contnet = parse_girl_url(http_url) # print(girl_html_contnet) # 獲取數(shù)據(jù) girl_title_list = catch_girl_title_list(girl_html_contnet) print("結果:",girl_title_list)if __name__ == '__main__': main()

      運行結果如下:

      下面一起來看看所有頁面網址的效果,我們來打開如下頁面查看下:http://www.buxiuse.com/

      為了便于獲取頁面數(shù)據(jù),此處暫時爬取4頁為例說明,網址規(guī)律效果如下:頁面數(shù)網址第1頁http://www.buxiuse.com/第2頁http://www.buxiuse.com/?page=2第3頁http://www.buxiuse.com/?page=3第4頁http://www.buxiuse.com/?page=4

      觀察上述規(guī)律,可以分析第1頁的網址應該為:http://www.buxiuse.com/?page=1

      經過分析處理,果然可以打開頁面內容!再分析網址內容,我們發(fā)現(xiàn)就是跟上述標簽鏈接地址添加結尾內容即可拼接成標準的網址,例如:http://www.buxiuse.com/ 拼接 ?page=3

      下面我們再一起來爬取下頁面網址,代碼如下:for element in girl_title_list: # 拼接網址 index_url = element[0] # 4個頁面 page_url_list = [] for page in range(1,5): page_url = index_url+"?page="+str(page) page_url_list.append(page_url) # 添加到結尾處 element.append(page_url_list)# 所有網址print("所有頁面網址:",girl_title_list)

      運行效果:

      接著,融入前面文章的(一)、(二)就可以形成完整的一個項目啦。!

      【來關注“碼了個蛇”,持續(xù)更新Python、Android技術分享!年輕小粉絲們有企圖學習編程者,私?聯(lián)系!】

      圖文推薦