Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

0人評分過此書

Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

作者

：

洪錦魁 (著)

出版社

：

深智數位股份有限公司

出版日期

：

2021/10/01

閱讀格式

：

PDF

書籍分類

：

電腦

學科分類

：

科學類

ISBN

：

9789860776478

朗讀功能

：

因版權限制，本書不支援朗讀功能

Python(電腦程式語言)

計次服務

借閱規則

借閱天數 14 天

選擇分享方式

擁有此書的圖書館

搜尋館別

選擇單位類型或單位所在地區

選擇單位類型：

選擇單位所在地區：

所有文化部計次圖書館

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館，圖書館會參考讀者意見進行採購

讀者資料

圖書館：國立臺灣圖書館

* 姓名：

* 身分：

系所：

* E-mail ：

※ 我們會寄送一份副本至您填寫的Email中

電話：

※ 電話格式為區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111

* 請輸入驗證碼：

更新驗證碼

內容簡介
目錄

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★

　　第二版和第一版做比較，增加下列內容：
　　★：全書增加約50個程式實例
　　★：網路趨勢，了解輿情
　　★：網路關鍵字查詢
　　★：YouBike資訊
　　★：國際金融資料查詢
　　★：博客來圖書排行榜
　　★：中央氣象局
　　★：租屋網站
　　★：生活應用

　　下列是本書有關網路爬蟲知識的主要內容：
　　★：認識搜尋引擎與網路爬蟲
　　★：認識約定成俗的協議robots.txt
　　★：從零開始解析HTML網頁
　　★：認識與使用Chrome開發人員環境解析網頁
　　★：認識Python內建urllib、urllib2模組，同時介紹好用的requests模組
　　★：說明lxml模組
　　★：XPath方法解說
　　★：css定位網頁元素
　　★：Cookie觀念
　　★：自動填寫表單
　　★：使用IP代理服務與實作
　　★：偵測IP
　　★：更進一步解說更新的模組Requests-HTML
　　★：認識適用大型爬蟲框架的Scrapy模組

　　在書籍內容，筆者設計爬蟲程式探索下列相關網站：
　　☆：國際與國內股市資訊
　　☆：基金資訊
　　☆：股市數據
　　☆：人力銀行
　　☆：維基網站
　　☆：主流媒體網站
　　☆：政府開放數據網站
　　☆：YouBike服務網站
　　☆：PTT網站
　　☆：電影網站
　　☆：星座網站
　　☆：小說網站
　　☆：博客來網站
　　☆：中央氣象局
　　☆：露天拍賣網站
　　☆：httpbin網站
　　☆：python.org網站
　　☆：github.com網站
　　☆：ipstack.com網站API實作
　　☆：Google API實作
　　☆：Facebook API實作

　　探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據：
　　★：CSV檔案格式
　　★：JSON檔案格式
　　★：XML、Pickle
　　★：Excel
　　★：SQLite

　　在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題：
　　☆：URL編碼與中文網址觀念
　　☆：將中文儲存在JSON格式檔案
　　☆：亂碼處理
　　☆：簡體中文在繁體中文Windows環境資料下載與儲存
　　☆：解析Ajax動態加載網頁，獲得更多頁次資料
　　☆：使用Chromium瀏覽器協助Ajax動態加載