如何從零基礎開始寫關於搜尋知乎答案的python爬蟲

2021-04-17 01:47:14 字數 1851 閱讀 1814

1樓:死亡

如何從零基礎開始寫一個關於搜尋知乎答案的python爬蟲

2樓:杜爺1號

首先來說爬蟲。

關於爬蟲一個不太嚴謹的理解就是,你可以給爬蟲程式設定一個初始的目標頁面,然後程式返回目標頁面的html文件後,從中提取頁面中的超連結,然後繼續爬到下一個頁面中去。從這些頁面的html文件中可以通過對標籤的處理解析出你想要的具體內容。

所以我們可以這麼來簡單定義一個爬蟲的工作過程:

抓取目標頁面

解析頁面文件獲得目的資訊

繼續爬取下一個頁面

儲存結果

為了實現這些工作,你需要學習一些常用庫的簡單用法,包括但不限於:

urllib、urllib2、urllib.request、cookilib (python的內建庫,用來處理http請求)

requests (第三方庫,推薦使用requests來處理請求,比urllib方便一些)

re、beautifulsoup (正規表示式匹配內容、bs4解析html文件)

其次呢,因為你要跟網頁的原始碼打交道,尤其是解析html文件,所以你最好對html和瀏覽器通訊有點簡單的瞭解,會使用firebug檢視原始碼定位資訊在原始碼中的位置。

落實到題主給出的示例

如何從零基礎開始寫一個關於搜尋知乎答案的python爬蟲

3樓:匿名使用者

先把python入門瞭然後寫些簡單的爬蟲,最後到網上找爬蟲高手的**研究學習

知乎的python爬蟲,如何處理『翻頁』這個問題?

4樓:匿名使用者

建議你用瀏覽器除錯模式,看看整個過程是怎麼互動的,然後再模擬這個過程。

chrome的除錯模式可以記錄整個時間段的收發包內容

知乎python 爬蟲如何入門學習

5樓:緣lai如茨

入門」是良好的動機,但是可能作用緩慢。如果你手

裡或者腦子裡有一個專案,那麼實踐起來你會被目標驅動,而不會像學習模組一樣慢慢學習。

另外如果說知識體系裡的每一個知識點是圖裡的點,依賴關係是邊的話,那麼這個圖一定不是一個有向無環圖。因為學習a的經驗可以幫助你學習b。因此,你不需要學習怎麼樣「入門」,因為這樣的「入門」點根本不存在!

你需要學習的是怎麼樣做一個比較大的東西,在這個過程中,你會很快地學會需要學會的東西的。當然,你可以爭論說需要先懂python,不然怎麼學會python做爬蟲呢?但是事實上,你完全可以在做這個爬蟲的過程中學習python :

d看到前面很多答案都講的「術」——用什麼軟體怎麼爬,那我就講講「道」和「術」吧——爬蟲怎麼工作以及怎麼在python實現。

先長話短說summarize一下:

你需要學習

基本的爬蟲工作原理

基本的http抓取工具,scrapy

bloom filter: bloom filters by example

如果需要大規模網頁抓取,你需要學習分散式爬蟲的概念。其實沒那麼玄乎,你只要學會怎樣維護一個所有叢集機器能夠有效分享的分散式佇列就好。最簡單的實現是python-rq:

rq和scrapy的結合:darkrho/scrapy-redis · github

後續處理,網頁析取(grangier/python-goose · github),儲存(mongodb)

汽修可以從零基礎開始學嗎,零基礎學汽修從哪裡入手?

可以的,很多學校都是從零基礎開始教學的。可以面向初 高中學生,也可以面向社會有經驗的工作者來培訓。當然可以了。只要你認真學習,有沒有基礎都一樣的。你想想這個社會的發展。需要每一項的技術。那維修技師。那個是一開始就會的呀。不都是從零來是學的嗎。有沒有這方面的基礎都一樣的。只要你認真的這個行業。那就努力...

零基礎如何開始學習繪畫,成年人零基礎如何自學畫畫?

最基礎的是素描,靜物素描,畫到一定程度畫素描五官,然後頭像,最後半身像,再後來是水粉。臨摹素描和水粉的同時,還可以寫生訓練。臨摹的作品一定要名師的,大師的。會畫素描和水粉了,接下來想畫什麼樣的風格就容易多了,但是要發展自己的風格,要走的路還很長。西安小寨 美好時光休閒自助畫室 是一間專業的自助休閒畫...

零基礎烘焙該從哪裡開始準備?

烘焙入門,首先得買基礎工具,然後買必備食材原料 後文會附上建議購買清單 以及戚風蛋糕教程和錯誤操作 然後就可以開始做戚風蛋糕和曲奇餅乾了。戚風蛋糕和曲奇餅是入門必修課哦。我玩烘焙已有4年,期間攢下的工具幾乎霸佔半個廚房。有些是買回來不好用,又換個升級版的。有些是可以用別的工具替代的。有些是直接沒用的...