[程設雜筆] Selenium 爬蟲好用資源
Selenium API Rotate User Agent Rotate Proxies Prevent Black list Free Proxy Net selenium应用指南 Python爬虫利器三之Xpath语法与lxml库的用法 Selenium Waits How to Hide My IP Address?
Selenium API Rotate User Agent Rotate Proxies Prevent Black list Free Proxy Net selenium应用指南 Python爬虫利器三之Xpath语法与lxml库的用法 Selenium Waits How to Hide My IP Address?
在這篇之前的文章,我講了好多機器學習、深度學習在視覺、語音、文字結構和翻譯的運用。要訓練這些模型,都需要大量的資料。這些資料從哪裡來?怎麼儲存?對於大如Google 的公司來說,都是一個非常大的問題,也是為什麼大數據這個名詞會在幾年前非常火紅。而本篇要介紹的是 Google Cloud Bigtable 是 NoSQL database 用在大數據的商用版本。 Cloud Bigtable 優點 速度快、效能高,以下是兩種 storage type 的存取速度。其中 QPS 代表每秒鐘可以進行幾次的查詢。關於 Cloud Bigtable 如何透過 load balance 來提高存取速度,Google 的官方文件也有給出很精美的圖文介紹,參見 連結 。 調整資源配置容易 和常見的大數據開源工具例如 Hadoop 和…
用 virtualenv 也有一段時間了,但是始終沒有一段筆記記錄如何從 0 到 1 架一個可以用於資料分析和深度學習的 virtualenv,剛好最近需要再重新實作一次,就順便記錄這段過程。 首先,如果沒有 virtualenv ,請先安裝一下: pip install virtualenv 接著,因為我的環境是 python 3 ,然後 package 要完全脫離機器上原先 package,因此要輸入: virtualenv --no-site-packages -p python3 env 然後 virtualenv 的名字就會是 env。緊接著,輸入以下指令來進入或者離開…
身為一個 vimer ,想要在 vim 上面寫 latex 也是非常合理的事。今天中午和下午,花了一點時間把 vim + latex 的環境配置好,所以趕緊補了這一篇來記錄一下怎麼配置。 示範影片 https://www.youtube.com/watch?v=eZT2hsupvEY vim-latex 首先,我們會需要一個快速編寫 latex 的 plugin,叫做 vim-latex。如果使用 Vundle 的話,那麼安裝方法很簡單,只要在 .vimrc 加上這幾行,然後 :PluginInstall 即可。 Plugin 'vim-latex/vim-latex' "-----------------latex------------------------- " REQUIRED.…
前言 雲端運算是這個時代非常重要的技術,也是推動科技進步和產品開發的一大幫手。為什麼這麼說呢?以時下最火紅的深度學習來說,訓練一個 model 可能會需要一張好的 GPU card、好的CPU,或者大量的記憶體。但如果不需要時常使用到這麼好的配備,一次購買大規格的硬體又會造成浪費,那麼就可以使用雲端運算資源來快速的做一些簡單的測試。 一般來說,雲端運算共分3 個層次,分別是 Infrastructure as a service (IaaS)、Platform as a service (PaaS) 和 Software as a service (SaaS),詳見 連結。今天要介紹的 GCE (Google Compute Engine),在上述三者之中,屬於 IaaS 的範疇,也是三者之中,彈性最大的雲端服務。基本上我們可以把…
熟悉 hexo 的人,應該會知道,hexo deploy 的方式非常的方便,只要輸入 hexo deploy 就可以把產生好的檔案 push 到 github.io 上。上個周末教學生 deploy hexo 時得到這個靈感,趁等門診的時間,趕緊來把這篇記錄起來。 首先先描述一下我的狀況。我在遠端有一些主機可以用,ip、port、user 的設定類似如下: pc1001@140.113.0.1 port 1001 pc1002@140.113.0.1 port 1002 不同的主機可能會跑不同的實驗。因為開發速度的關係,我在 local 的 mac 上開發,如果改一點小小的內容,我希望輸一行指令就可以把修改後的程式碼發到指定的 server 上。…
終於來到 Google Cloud Platform 第四篇 —— Cloud Vision API,也是前四篇之中,API 最為豐富的一個。話不多說,就直接開始吧! 快速測試 首先,先選好一張圖片,裡面有越多東西越好,或者圖片越奇怪越好,這樣才能展現這個 API 的威力。因此我特別選了一張辦公桌的照片和一張 meme,以下是我選的圖片 (單一檔案須 < 4MB,取自 VRD dataset 和 這個網址): 選好後,點選這個 網址,把圖片拖曳進去。接著我們來一一看 API 分析的結果: 1. Labels 在 labels…
來到 Google Cloud Platform 系列文的第三篇,今天要講解 Translate API。小弟我認為這個 API 是一般大眾最為熟悉的,今天就讓我們來看一下它,到底還有什麼新把戲? 快速測試 首先我們先點進 Translate API 的介紹 網址。大家可以快速的使用 Google 提供的小 board 來 做測試,這部分我就不加贅述。 語言翻譯 接著我們進行 API 測試,但在開始之前,我們必須先 setup 一個 project,請參考 [機器學習] Google Cloud…
上一篇講完 Speech API,這週來提一下 Google Cloud Platform 另一個 API —— Natural Language API。這個 API 屬於 Computer Science Natural Language Process (NLP) 的範疇。有了這個API,我們就能快速的把一個句子的 tagging 和 parsing tree 以及情感(sentiment) 給抓出來。如果不熟悉 NLP 的同學,可以透過這篇,快速的把 NLP…
最近用信用卡開通了 Google Cloud Platform 的帳戶,一共得到了 300 美元的免費使用額度,和 12 個月的免費試用期。裡面的 API 相當的多 (連結)。裡頭關於機器學習的 API羅列如下: Cloud Vision API Cloud Speech APi Natural Language API Translation API 而這次要介紹的是第二項, Cloud Speech API(連結)。準備好了嗎,開始囉! 快速測試 由於沒一村待的實驗室,時常需要…