Wget是一套可以在網路上進行檔案下載、爬取靜態資源的強大軟體
也就是俗稱的砍站軟體之一
在Windows上安裝Wget(World Wide Web Get) 的方法
到此處下載適合的版本之後,將可執行檔案wget.exe放入 C:\Windows\System32 底下
接著重新打開Terminal輸入,就可以使用了
使用方式
直接接上要爬取的網址即可
$ wget URL
遞迴下載一個網站,透過
$ wget -r URL
設置遞迴深度,預設是5
$ wget -r --level=10 URL
設置連線超時,等待建立連線的時間,若時間內沒有建立連線成功則放棄連線
$ wget -r --timeout=60 URL
每次請求之間的等待時間,避免過於頻繁訪問
$ wget -r --wait=5 URL
限制檔案大小,預設沒有任何限制
$ wget --max-filesize=10M URL
輸出log檔案
$ wget -r -o log.txt URL
wget沒辦法完全取得伺服器上的所有資料
只能以類似點擊連結的方式,一個個訪問進連結
如果有檔案沒有被放在連結或圖片中,就不會被遞迴方式下載到
但能夠依照指定特定URL的方式下載,如果該URL是能被渲染成一個HTML的話
ex: 直接指定 https://aaa.com/bbb/ccc
沒有留言:
張貼留言