Python爬蟲教學 -試著作自己的搶購機器吧!(上)

python爬蟲

常常在搶票的時候,覺得根本搶不到嗎? 因為更多人用的都是腳本來做搶購,所以秉持著想搶一個ps5的心,我做了一個ps5搶購機器,現在就教大家來怎麼使用吧!

首先你必須要有Jupyter Notebook或者Python的相關環境,相信會點進來的人應該都已經有安裝了吧,沒有的話,這邊有別人完善的教學連結,先去安裝完環境再回來吧!

https://sean22492249.medium.com/skiwitch-talk-code-creates-the-world-2-f848557997e6

https://pygame.hackersir.org/Lessons/01/Python_install.html

安裝完之後接下來我們就可以來開始爬蟲了,我們會分上下兩個部份來完成教學分別是爬蟲的原理和使用方法、實際完成PS5搶購機器! 今天是第一篇,爬蟲的原理

Python爬蟲的原理

要理解爬蟲的原理,就要先探討網站的組成,你現在所看到的網站的每個元素都是被貼上標籤的,甚麼意思呢? 隨便點開一個網站,為了方便你跟著操作這邊我先提供一個隨意的網址

點開之後,請你按下F12,或者右鍵任意位置會看到檢查的選項

python爬蟲
python爬蟲

點擊之後會看到上面的畫面,先別急著看到一大堆亂碼就害怕而走掉! 我們只需要簡單的先去看我們看得懂的文字的地方,例如: <h2>SEO是什麼<h2>

我們來嘗試理解一下,可以看到文章中”SEO是什麼”的文字是放大並且加黑的,再來看到另一個標題 <1>SEO關鍵字,前面同樣有<h2>的樣式,而他的文字同樣是放大且加黑的,理解出標籤的涵義了嗎? 所謂的標籤就是為了給我們要部屬的網頁內容附上一個屬性,例如<P>為文字,<h2>為標題,<a>為超連結 ,如果有學過html語法的同學一定能理解我這裡在講什麼,那當你知道標籤是什麼之後,我們就可以來聊爬蟲了。

當你知道標籤之間的共同性時,你可以做什麼事情呢? 爬蟲的核心是尋找標籤的共同性來將同質性的資料抓取下來,譬如今天我想抓取這篇文章的標題,那我只需要找標籤是<h2>的資料,我就可以得到這三個標題了,那問題就又來了,如果我想抓取某個擁有<div>標籤的資料,但我不需要其他同樣是<div>的資料呢?

這個時候我們可以看看剛剛網站裡上面具有<div>屬性的標籤,可以看到有些在<div>裡後面還含有class,或者id這兩個屬性,這兩個屬性呢,就好像是每個專屬標籤的名字一樣,網站編寫者在需要特定的標籤有特定的樣式時就會使用這個方法來為標籤命名,藉此就可以改變標籤裡面的資料的設計樣式,而這給爬蟲開了一個大洞,透過這個方式我們就可以找到特定的標籤並且也有方法將他取出啦!

以上就是爬蟲的原理的簡單敘述,在下一篇文章我們會實際的以ps5搶購為例子,實際的來操作爬蟲方法。

馬上看–>寫app入門時你應該要注意的五件事

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *