91aaa在线国内观看,亚洲AV午夜福利精品一区二区,久久偷拍人视频,久久播这里有免费视播

<strong id="fvuar"></strong>

  • <sub id="fvuar"><dl id="fvuar"><em id="fvuar"></em></dl></sub>

    1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

      手機(jī)站
      千鋒教育

      千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

      千鋒教育

      掃一掃進(jìn)入千鋒手機(jī)站

      領(lǐng)取全套視頻
      千鋒教育

      關(guān)注千鋒學(xué)習(xí)站小程序
      隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

      當(dāng)前位置:首頁(yè)  >  技術(shù)干貨  > Python Selenium爬取數(shù)據(jù)

      Python Selenium爬取數(shù)據(jù)

      來(lái)源:千鋒教育
      發(fā)布人:xqq
      時(shí)間: 2023-11-06 21:11:06 1699276266

      最近公司有一項(xiàng)Python爬取數(shù)據(jù)的工作,借鑒以往的代碼將爬蟲(chóng)重新更新并整理

      將現(xiàn)有爬蟲(chóng)分成幾部分

      0.文件讀取器

      其實(shí)文件讀取和4中的文件存儲(chǔ)是在一個(gè)部分的

      這里簡(jiǎn)單介紹下xls的讀取

      defdeal_xls_col(name,sheet_name):

      body=xlrd.open_workbook(name)

      try:

      sh=body.sheet_by_name(sheet_name)

      except:

      print"EORR"

      returnsh.col_values(0)格式請(qǐng)忽略

      這里讀取了一豎行的xls的數(shù)據(jù)

      返回的格式為list

      1.總調(diào)度器

      這里主要是寫(xiě)邏輯,及0234的順序。

      2.網(wǎng)頁(yè)下載器

      網(wǎng)頁(yè)下載器主要是來(lái)模擬瀏覽器訪問(wèn)對(duì)應(yīng)url

      一個(gè)簡(jiǎn)單的例子

      classHtmlDownloader(object):

      defdownload(self,url):

      ifurlisNone:

      returnNone

      response=urllib2.urlopen(url,timeout=300)

      ifresponse.getcode()!=200:

      returnNone

      returnresponse.read()

      例子只是去訪問(wèn)url并沒(méi)有對(duì)cookie等相關(guān)限制信息做處理(需要請(qǐng)自行添加)

      3.網(wǎng)頁(yè)分析器

      網(wǎng)頁(yè)分析器其實(shí)就是來(lái)處理下載器返回的html的源碼,比如用selenium來(lái)處理的話則有

      company_info_text=driver.find_element_by_class_name('company_info_text')

      company_text=driver.find_element_by_class_name('rowb-c-whitecompany-content')

      就是用selenium的一些方法來(lái)獲取你需要的數(shù)據(jù)而已

      4.文件存儲(chǔ)器

      這里以xls為例:

      defcreat_xls_6(xls_name):

      styleBoldRed=xlwt.easyxf('font:color-indexred,boldon')

      headerStye=styleBoldRedwb=xlwt.Workbook()

      ws=wb.add_sheet(xls_name)

      ws.write(0,0,"name",headerStye)

      ws.write(0,1,"oper_name",headerStye)

      ws.write(0,2,"start_date",headerStye)

      ws.write(0,3,"xfsSearchStatus",headerStye)

      wb.save(xls_name)

      創(chuàng)建xls表格

      definsert_xls_6(xls_name,id,name,oper_name,start_date,xfsSearchStatus):

      oldWb=xlrd.open_workbook(xls_name)

      newWb=copy(oldWb)

      newWs=newWb.get_sheet(0)

      newWs.write(id,0,name)

      newWs.write(id,1,oper_name)

      newWs.write(id,2,start_date)

      newWs.write(id,3,xfsSearchStatus)

      newWb.save(xls_name)

      插入數(shù)據(jù)到表格

      這里面沒(méi)有什么高深的秘密,只要你封裝好自己的函數(shù)就好了

      上面的例子還不是最好的版本,因?yàn)槊看问褂枚家匦滦薷?,?yīng)該傳入一個(gè)數(shù)據(jù)來(lái)代替那些變量,這樣就可以適配各種數(shù)據(jù)的表格創(chuàng)建和添加了

      還有要說(shuō)的就是:一些網(wǎng)站會(huì)限制你爬取數(shù)據(jù),但是大多數(shù)網(wǎng)站都是友好的,但是這并不表示你可以肆無(wú)忌憚的毫無(wú)限制的去爬取。爬取的時(shí)間最好設(shè)置成晚上或者。。。。

      還有就是不要對(duì)目標(biāo)網(wǎng)站造成不必要的‘傷害’。

      爬蟲(chóng)并不難,且行且珍惜!

      以上內(nèi)容為大家介紹了PythonSelenium爬取數(shù)據(jù),希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://jsszjs.cn/

      聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
      10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
      請(qǐng)您保持通訊暢通,專(zhuān)屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通
      免費(fèi)領(lǐng)取
      今日已有369人領(lǐng)取成功
      劉同學(xué) 138****2860 剛剛成功領(lǐng)取
      王同學(xué) 131****2015 剛剛成功領(lǐng)取
      張同學(xué) 133****4652 剛剛成功領(lǐng)取
      李同學(xué) 135****8607 剛剛成功領(lǐng)取
      楊同學(xué) 132****5667 剛剛成功領(lǐng)取
      岳同學(xué) 134****6652 剛剛成功領(lǐng)取
      梁同學(xué) 157****2950 剛剛成功領(lǐng)取
      劉同學(xué) 189****1015 剛剛成功領(lǐng)取
      張同學(xué) 155****4678 剛剛成功領(lǐng)取
      鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
      董同學(xué) 138****2867 剛剛成功領(lǐng)取
      周同學(xué) 136****3602 剛剛成功領(lǐng)取
      相關(guān)推薦HOT
      Python中的'==' 和 'is'

      ==和is是Python對(duì)象比較中常用的兩種方式,==比較對(duì)象的值是否相等,is比較對(duì)象的身份標(biāo)識(shí)(ID)是否相等,是否是同一個(gè)對(duì)象,是否指向同一個(gè)內(nèi)存...詳情>>

      2023-11-06 23:38:43
      Python內(nèi)存分配

      一、前言大多數(shù)編譯型語(yǔ)言,變量在使用前必須先聲明,其中C語(yǔ)言更加苛刻:變量聲明必須位于代碼塊最開(kāi)始,且在任何其他語(yǔ)句之前。其他語(yǔ)言,想C...詳情>>

      2023-11-06 22:33:55
      Python 腳本自啟動(dòng)及定時(shí)任務(wù)

      讓Python隨Linux開(kāi)機(jī)自動(dòng)運(yùn)行1、準(zhǔn)備好要自啟的腳本auto.py2、用root權(quán)限編輯以下文件sudovim/ect/rc.local3、在exit0上面編輯啟動(dòng)腳本的命令/u...詳情>>

      2023-11-06 21:57:55
      python字符串處理相關(guān)函數(shù)

      python中字符串中字符大小寫(xiě)的變換:*S.lower()#小寫(xiě)*S.upper()#大寫(xiě)*S.swapcase()#大小寫(xiě)互換*S.capitalize()#首字母大寫(xiě)*String.capwor詳情>>

      2023-11-06 21:54:19
      如何在Linux中運(yùn)行Python源文件

      一??蓤?zhí)行的Python程序這部分內(nèi)容只對(duì)Linux/Unix用戶(hù)適用,不過(guò)Windows用戶(hù)可能也對(duì)程序的第一行比較好奇。首先我們需要通過(guò)chmod命令,給程序...詳情>>

      2023-11-06 21:50:43