谷歌 Colab:你需要知道的一切
已發表: 2022-08-16Google Colab 使無法負擔昂貴計算基礎設施的個人研究人員可以訪問數據科學、深度學習、神經網絡和機器學習。
機器學習和數據科學是所有新一代計算機科學家都希望擅長的兩項新技術。 有許多關於 ML 和數據科學的在線學習課程、免費講座和在線操作指南。
但是,在項目上進行練習成為一種限制,因為您需要高端 PC 來處理此類工作負載。 簡而言之,這個問題的答案是 Google Colaboratory 或 Colab。 繼續閱讀以獲得對 Google Colab 的最終評論。
什麼是 Google Colab?
Colab 是來自 Google Research 的類似 Jupyter Notebook 的產品。 Python 程序開發人員可以使用此筆記本編寫和執行隨機 Python 程序代碼,只需使用 Web 瀏覽器即可。
簡而言之,Colab 是 Jupyter Notebook 的雲託管版本。 要使用 Colab,您無需安裝和運行或升級計算機硬件即可滿足 Python 的 CPU/GPU 密集型工作負載要求。 此外,Colab 允許您免費訪問計算基礎設施,如存儲、內存、處理能力、圖形處理單元 (GPU) 和張量處理單元 (TPU)。
為了滿足機器學習程序員、大數據分析師、數據科學家、人工智能研究人員和 Python 學習者的需求,谷歌專門對這種基於雲的 Python 編碼工具進行了編程。
最好的部分是一個代碼筆記本,其中包含向項目主管或贊助商展示完整的機器學習或數據科學項目所需的所有組件。 例如,您的 Colab 筆記本可以包含可執行代碼、實時 Python 代碼、富文本、HTML、LaTeX、圖像、數據可視化、圖表、圖形、表格等。
谷歌 Colab 做什麼?

Google Colab 只是 Jupyter Notebook 的在線代表。 雖然 Jupyter Notebook 需要安裝在計算機上並且只能使用本地機器資源,但 Colab 是用於 Python 編碼的成熟雲應用程序。
您可以在 Google Chrome 或 Mozilla Firefox Web 瀏覽器上使用 Colab 編寫 Python 代碼。 您還可以在瀏覽器上執行這些代碼,而無需任何運行時環境或命令行界面。
此外,您可以通過添加數學方程式、圖形、表格、圖像和其他圖形來為您的 Python 項目筆記本提供專業的外觀。 此外,您可以使用 Python 編寫數據可視化代碼,Colab 將在可視資產中呈現代碼。
此外,Colab 允許您重新利用 GitHub 中的 Jupyter Notebook 文件。 除此之外,您還可以從其他來源導入兼容的機器學習和數據科學項目。 Colab 有效地處理導入的資產以顯示乾淨且無錯誤的 Python 代碼。
Google Colab 的最佳功能
GPU 和 TPU
免費的 Colab 用戶可以免費使用 GPU 和 TPU 運行時長達 12 小時。 其 GPU 運行時配備 Intel Xeon CPU @2.20 GHz、13 GB RAM、Tesla K80 加速器和 12 GB GDDR5 VRAM。
TPU 運行時由 Intel Xeon CPU @2.30 GHz、13 GB RAM 和具有 180 teraflops 計算能力的雲 TPU 組成。
使用 Colab Pro 或 Pro+,您可以調試更多 CPU、TPU 和 GPU 超過 12 小時。
筆記本共享
在 Colab 之前,Python 代碼筆記本從未被訪問過。 現在,您可以為保存在 Google Drive 上的 Colab 文件創建可共享的鏈接。 現在,與想要與您合作的合作者分享鏈接。 此外,您還可以使用 Google 電子郵件邀請程序員與您合作。
特殊庫安裝
Colab 允許您安裝代碼片段中不可用的非 Colaboratory 庫(AWS S3、GCP、SQL、MySQL 等)。 您需要做的就是添加一個帶有以下代碼前綴的單行代碼:
!pip install (example: !pip install matplotlib-venn) !apt-get install (example: !apt-get -qq install -y libfluidsynth1)預裝庫
Google Colab 提供了多個預安裝的庫,以便您可以從代碼片段中導入所需的庫。 此類庫包括 NumPy、Pandas、Matplotlib、PyTorch、TensorFlow、Keras 和更多 ML 庫。
協作編碼

協同編碼對於小組項目是必不可少的。 它可以幫助您的團隊比預期的時間框架更早地完成里程碑。 如果您的團隊需要在 ML 和數據科學項目上進行實時協作,Google Collaborative 就是您的工具。
只需發送與合作者的可編輯鏈接或邀請合作者進行組編碼。 整個 Python 筆記本會隨著團隊代碼自動更新,您會獲得在共享 Google 表格或文檔上工作的感覺。
雲儲存
Google Colab 使用您的 Google Drive 存儲配額來保存文件。 因此,您可以從可以訪問您的 Google Drive 帳戶的任何計算機上恢復工作。
雲存儲還可以作為任何災難的數據備份。
GitHub 集成
您可以將您的 GitHub 帳戶與 Google Colab 鏈接以無縫導入和導出代碼文件。 對於導入,您可以按 Ctrl+O 並單擊 GitHub 選項卡以獲取代碼文件。 相反,只需從 File 菜單中單擊 Save a copy to GitHub 即可將文件發送到 GitHub。
多個數據源
Google Colaboratory 支持您的 ML 和 AI 培訓項目的各種數據源。 例如,您可以從本地機器導入數據、將 Google Drive 掛載到 Colab 實例、獲取遠程數據以及將 GitHub 存儲庫克隆到 Colab。
自動版本控制
與 Google Sheets 和 Docs 一樣,Google Colab 也有一個詳盡的歷史跟踪器。 該模塊跟踪自文件創建以來所做的所有更改。 您可以從“文件”菜單訪問日誌,然後單擊“修訂歷史記錄”選項。
為什麼要選擇 Google Colab?

- Google Colaboratory 是一個基於雲的工具。 您可以使用 Chrome 瀏覽器開始編寫出色的 ML 和數據科學模型。
- Colab 是免費的,資源有限。 但是,您不應該期望您可以將您的人工智能或機器學習模型無限期地存儲在 Colab 的免費基礎架構上。
- 如果您知道在 Jupyter 上工作,則無需在 Google Colaboratory 上經歷任何學習曲線。
- 免費訪問 GPU 和 TPU,以獲取廣泛的數據科學和機器學習模型。
- 它帶有預安裝的流行數據科學庫。
- 編碼人員可以輕鬆地與協作者共享代碼筆記本以進行實時編碼。
- 由於 Google 將 notebook 託管在 Google Cloud 上,因此您無需擔心代碼文檔版本控制和存儲。
- 輕鬆與 GitHub 集成。
- 您可以使用圖像訓練 AI。
- 您還可以在音頻和文本上訓練模型。
- 研究人員還可以在 Colab 上運行 TensorFlow 程序。
如何使用谷歌 Colab

如果您滿足以下最低要求,則可以使用 Google Colaboratory:
- 一個 Google 帳戶,可體驗 Colab 的所有便利。
- 可以運行最新的 Google Chrome 或 Mozilla Firefox 瀏覽器的計算機
- 谷歌推薦 Colab 使用 Chrome。
- 接受 Google 數據使用條款和條件。
您可以從其官方網站訪問 Google Colaboratory。 Colab是免費的; 然而,有限的資源分配並不總是得到保證。 如果您需要更高的速度和處理能力並保證資源,您可以獲得 Colab Pro 或 Pro+。

對於一些適合 Colab 的數據科學和機器學習模型,您可以查看 Google Seedbank。

Google Colab 和 Jupyter Notebook 的區別
| 代碼文檔功能 | 谷歌實驗室 | Jupyter 筆記本 |
| 即時代碼文件查看 | 是的 | 不 |
| 代碼文檔共享 | 是的 | 不 |
| 已安裝的庫 | 是的 | 不 |
| 雲託管 | 是的 | 不 |
| 同步文件 | 是的 | 不 |
#1 。 Colab 不需要在本地機器上安裝軟件。 相反,Jupyter Notebook 需要軟件安裝和本地機器資源進行計算。
#2 。 由於 Colab 是基於雲的,因此您可以獲得自動版本控制。 此外,Google Drive 會自動保存 Python 筆記本。 相比之下,在 Jupyter Notebook 上,您需要定期保存筆記本並管理版本控制。
#3 。 Colab 文件可在 Google Drive 上用於備份。 另一方面,Jupyter Notebook 文件不會自動備份。
#4 。 您可以將 Colab 文件發送給任何人,甚至是非數據科學家的客戶。 他們可以輕鬆地在 Google Colab 上打開文檔並查看內容。 接收方無需安裝任何軟件。
相反,收件人需要安裝並運行 Jupyter Notebook 才能閱讀您的項目。 因此,與非數據科學客戶共享此文件成為一項挑戰。

#5 。 Google Colaboratory 附帶了數據科學和機器學習項目所需的庫。 它還在雲上為您提供一定數量的 CPU、RAM、GPU 和 TPU。 因此,您可以節省時間和金錢。
相反,如果使用 Jupyter Notebook 應用程序,您需要獲取並安裝項目所需的所有庫。 安裝這麼多庫也會消耗本地機器的 CPU、RAM 和 GPU 資源。
在 Google Colab 上執行常見任務
創建筆記本

- 轉到 Google Colab 門戶並查看“歡迎來到 Colab!”
- 在頂部菜單上,單擊文件。
- 從文件上下文菜單中,選擇新建筆記本。
- 您的新 Python 筆記本已準備就緒。 您可以重命名筆記本文件。
上傳和下載文件
您可以按照以下步驟將本地 Python 代碼上傳到 Colab:

- 在頂部菜單上,單擊文件。
- 將打開一個包含許多選項的上下文菜單。
- 找到上傳筆記本並點擊它。
- 您現在將看到一個覆蓋控制台,其中包含示例、Google Drive、GitHub 和上傳等選項。
- 單擊任何選項卡並選擇要上傳的代碼內容。
下載正在進行或完成的項目也非常容易。 以下是步驟:

- 單擊位於頂部菜單欄上的文件菜單。
- 將光標懸停在Download上。
- 將打開一個上下文菜單,其中包含兩個下載文件格式選項:.ipynb 和 .py。
- 您可以選擇首選格式並下載文件。
訪問 GitHub
在 Colab 中訪問 GitHub 輕而易舉。 這是您可以執行的操作:

- 單擊頂部菜單欄上的文件。
- 從上下文菜單中選擇上傳筆記本。
- 將打開一個帶有GitHub選項卡的控制台。
- 或者,您可以按Ctrl+O訪問同一控制台。
- GitHub 搜索選項是 GitHub URL、用戶名和組織名稱。
訪問本地文件
- 在新的 Colab 筆記本上按Ctrl+O 。
- 在出現的控制台上選擇上傳選項卡。
- 單擊選擇文件以找到要在 Colab 上打開的本地文件。
訪問 Google 雲端硬盤

- 單擊上方菜單上的文件。
- 您可以選擇打開筆記本或上傳筆記本。
- 將出現一個控制台,其中包含一個Google Drive選項卡。
- 單擊該按鈕以訪問 Google Drive 中的文件。
如果您想將 Google Drive 掛載到您的 Colab 實例,請執行以下步驟:

- 單擊位於左側導航窗格中的文件。
- 選擇安裝驅動器命令。
- 在出現的通知中,選擇Connect to Google Drive 。
- Google 會要求您選擇一個帳戶進行授權。
保存到 Google 表格並從 Google 表格導入
您可以輕鬆地將筆記本數據保存到 Google 表格文件中以供進一步處理。 為此,請嘗試以下步驟:

- 單擊左下角的代碼片段按鈕。
- 導航窗格將在右側打開。
- 在過濾器中輸入Sheets ,您將找到保存數據和導入數據代碼片段。
- 雙擊標題以將代碼包含在筆記本中。
訪問 AWS S3
您可以使用雲存儲桶從 AWS S3 和 Azure Blob 等雲存儲平台訪問文件和編碼資產。

為此,您必須安裝 ByteHub,它具有將數據加載和保存到雲存儲的功能。 您可以運行以下代碼:
!pip install -q bytehub[aws]訪問 Kaggle 數據集

- 轉到 Kaggle 帳戶並單擊API 部分中的Expire API Token以刪除舊令牌。
- 創建新的 API 令牌以獲取本地計算機上的 kaggle.json。
- 現在使用以下代碼安裝 Kaggle:
!pip install -q kaggle- 現在,按照標準編碼實踐將 Kaggle.json 文件上傳到 Python 代碼庫。
最後的話
既然您已經對 Google Collaboratory 應用程序進行了深入討論,那麼您應該能夠快速開始機器學習項目的學習、培訓或實踐。 對於喜歡 Jupyter Notebooks 的人來說,Google Colab 是一款真正方便的雲應用。
您可能還對一些用於數據科學項目的流行開放數據集感興趣。


