Linux wget 指令下載檔案以下載wget 原始程式碼為例,wget 後面直接接 ... --html-extension:將檔名改為html,這樣才不會抓php網站而產生php檔案或是 ... ... <看更多>
wget 檔名 在 18z/Linux-tips: 錦囊妙計 的推薦與評價
情境:ls 列出的檔名需要跳脫(escape)時,自動幫你用引號包起來 ... 指令一:curl ifconfig.me/ip 指令二:wget -qO- ifconfig.me/ip # ifconfig.me/ip 可替換成下列任 ... ... <看更多>
wget 檔名 在 [問題] Wget的檔案命名- Linux 的推薦與評價
... 裡讓它批量去抓我的指令下wget -i uri.txt -A jpg -p它的確將所有jpg檔都抓下來了但是檔名是網站原始的檔名請問有甚麼指令可以在原始檔名之前加上 ... ... <看更多>
wget 檔名 在 Re: [問題] wget完整網頁- 看板Linux - 批踢踢實業坊 的推薦與評價
推文有提到 headless browser, 我來解釋一下
headless browser 就是沒有操作介面的瀏覽器
完全由使用者寫的指令去完成瀏覽動作
因此你可以
- 自動化網頁測試
- 產生網頁截圖或 PDF
- 自動開啟網頁並完成批次工作(包括登入)
也就是說 headless browser 會載入完整的網頁,包含執行 JavaScript
因為必須載入並處理完整的網頁,所以比純粹抓網頁原始碼還耗時
但是拿來應付 ajax 動態產生資料的網頁還挺適合的
可惜我只找到方法可以抓取 .html 檔,而無法抓取相應的 .css 與 .js 檔
而且也無法做 recursive 所以不能砍站,只能一次抓一個網頁 QwQ
--
目前最被廣泛使用的 headless browser 應該是 PhantomJS 與 CasperJS
後者是對前者的補完,也就是 CasperJS 會比 PhantomJS 提供更多功能
不過這次我以 PhantomJS 作為教學
PhantomJS 基於 WebKit 引擎,使用 JavaScript 做為其指令語言
所以渲染出來的結果與 Google Chrome / Safari 系差不多
請先依照 https://phantomjs.org/download.html 的指示完成 PhantomJS 的安裝
然後將 https://pastebin.com/y8NSGUXv 的程式碼存成 savepage.js
然後執行
phantomjs savepage.js https://www.example.com saved_page.html
最後一個參數可省略
這個腳本會依照以下順序作為檔名依據
1. 最後一個參數指定的檔案名稱
2. HTTP Header: Content-Disposition 指定的名稱
3. 根據 url 猜測檔案名稱
4. 以上皆失敗時取名為 saved_page
遇到重複的檔案會自動在檔名後方加上流水號
--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.127.251.59
... <看更多>