谷歌 Colab:你需要知道的一切

已发表: 2022-08-16

Google Colab 使无法负担昂贵计算基础设施的个人研究人员可以访问数据科学、深度学习、神经网络和机器学习。

机器学习和数据科学是所有新一代计算机科学家都希望擅长的两项新技术。 有许多关于 ML 和数据科学的在线学习课程、免费讲座和在线操作指南。

但是,在项目上进行练习成为一种限制,因为您需要高端 PC 来处理此类工作负载。 简而言之,这个问题的答案是 Google Colaboratory 或 Colab。 继续阅读以获得对 Google Colab 的最终评论。

什么是 Google Colab?

Youtube 视频

Colab 是来自 Google Research 的类似 Jupyter Notebook 的产品。 Python 程序开发人员可以使用此笔记本编写和执行随机 Python 程序代码,只需使用 Web 浏览器即可。

简而言之,Colab 是 Jupyter Notebook 的云托管版本。 要使用 Colab,您无需安装和运行或升级计算机硬件即可满足 Python 的 CPU/GPU 密集型工作负载要求。 此外,Colab 允许您免费访问计算基础设施,如存储、内存、处理能力、图形处理单元 (GPU) 和张量处理单元 (TPU)。

为了满足机器学习程序员、大数据分析师、数据科学家、人工智能研究人员和 Python 学习者的需求,谷歌专门对这种基于云的 Python 编码工具进行了编程。

最好的部分是一个代码笔记本,其中包含向项目主管或赞助商展示完整的机器学习或数据科学项目所需的所有组件。 例如,您的 Colab 笔记本可以包含可执行代码、实时 Python 代码、富文本、HTML、LaTeX、图像、数据可视化、图表、图形、表格等。

谷歌 Colab 做什么?

Google Colab 做什么

Google Colab 只是 Jupyter Notebook 的在线代表。 虽然 Jupyter Notebook 需要安装在计算机上并且只能使用本地机器资源,但 Colab 是用于 Python 编码的成熟云应用程序。

您可以在 Google Chrome 或 Mozilla Firefox Web 浏览器上使用 Colab 编写 Python 代码。 您还可以在浏览器上执行这些代码,而无需任何运行时环境或命令行界面。

此外,您可以通过添加数学方程式、图形、表格、图像和其他图形来为您的 Python 项目笔记本提供专业的外观。 此外,您可以使用 Python 编写数据可视化代码,Colab 将在可视资产中呈现代码。

此外,Colab 允许您重新利用 GitHub 中的 Jupyter Notebook 文件。 除此之外,您还可以从其他来源导入兼容的机器学习和数据科学项目。 Colab 有效地处理导入的资产以显示干净且无错误的 Python 代码。

Google Colab 的最佳功能

Youtube 视频

GPU 和 TPU

免费的 Colab 用户可以免费使用 GPU 和 TPU 运行时长达 12 小时。 其 GPU 运行时配备 Intel Xeon CPU @2.20 GHz、13 GB RAM、Tesla K80 加速器和 12 GB GDDR5 VRAM。

TPU 运行时由 Intel Xeon CPU @2.30 GHz、13 GB RAM 和具有 180 teraflops 计算能力的云 TPU 组成。

使用 Colab Pro 或 Pro+,您可以调试更多 CPU、TPU 和 GPU 超过 12 小时。

笔记本共享

在 Colab 之前,Python 代码笔记本从未被访问过。 现在,您可以为保存在 Google Drive 上的 Colab 文件创建可共享的链接。 现在,与想要与您合作的合作者分享链接。 此外,您还可以使用 Google 电子邮件邀请程序员与您合作。

特殊库安装

Colab 允许您安装代码片段中不可用的非 Colaboratory 库(AWS S3、GCP、SQL、MySQL 等)。 您需要做的就是添加一个带有以下代码前缀的单行代码:

 !pip install (example: !pip install matplotlib-venn)
 !apt-get install (example: !apt-get -qq install -y libfluidsynth1)

预装库

Google Colab 提供了多个预安装的库,以便您可以从代码片段中导入所需的库。 此类库包括 NumPy、Pandas、Matplotlib、PyTorch、TensorFlow、Keras 和更多 ML 库。

协作编码

协作编码

协同编码对于小组项目是必不可少的。 它可以帮助您的团队比预期的时间框架更早地完成里程碑。 如果您的团队需要在 ML 和数据科学项目上进行实时协作,Google Collaborative 就是您的工具。

只需发送与合作者的可编辑链接或邀请合作者进行组编码。 整个 Python 笔记本会随着团队代码自动更新,您会获得在共享 Google 表格或文档上工作的感觉。

云储存

Google Colab 使用您的 Google Drive 存储配额来保存文件。 因此,您可以从可以访问您的 Google Drive 帐户的任何计算机上恢复工作。

云存储还可以作为任何灾难的数据备份。

GitHub 集成

您可以将您的 GitHub 帐户与 Google Colab 链接以无缝导入和导出代码文件。 对于导入,您可以按 Ctrl+O 并单击 GitHub 选项卡以获取代码文件。 相反,只需从 File 菜单中单击 Save a copy to GitHub 即可将文件发送到 GitHub。

多个数据源

Google Colaboratory 支持您的 ML 和 AI 培训项目的各种数据源。 例如,您可以从本地机器导入数据、将 Google Drive 挂载到 Colab 实例、获取远程数据以及将 GitHub 存储库克隆到 Colab。

自动版本控制

与 Google Sheets 和 Docs 一样,Google Colab 也有一个详尽的历史跟踪器。 该模块跟踪自文件创建以来所做的所有更改。 您可以从“文件”菜单访问日志,然后单击“修订历史记录”选项。

为什么要选择 Google Colab?

为什么要选择 Google Colab
  • Google Colaboratory 是一个基于云的工具。 您可以使用 Chrome 浏览器开始编写出色的 ML 和数据科学模型。
  • Colab 是免费的,资源有限。 但是,您不应该期望您可以将您的人工智能或机器学习模型无限期地存储在 Colab 的免费基础架构上。
  • 如果您知道在 Jupyter 上工作,则无需在 Google Colaboratory 上经历任何学习曲线。
  • 免费访问 GPU 和 TPU,以获取广泛的数据科学和机器学习模型。
  • 它带有预安装的流行数据科学库。
  • 编码人员可以轻松地与协作者共享代码笔记本以进行实时编码。
  • 由于 Google 将 notebook 托管在 Google Cloud 上,因此您无需担心代码文档版本控制和存储。
  • 轻松与 GitHub 集成。
  • 您可以使用图像训练 AI。
  • 您还可以在音频和文本上训练模型。
  • 研究人员还可以在 Colab 上运行 TensorFlow 程序。

如何使用谷歌 Colab

如何使用谷歌 Colab

如果您满足以下最低要求,则可以使用 Google Colaboratory:

  • 一个 Google 帐户,可体验 Colab 的所有便利。
  • 可以运行最新的 Google Chrome 或 Mozilla Firefox 浏览器的计算机
  • 谷歌推荐 Colab 使用 Chrome。
  • 接受 Google 数据使用条款和条件。

您可以从其官方网站访问 Google Colaboratory。 Colab是免费的; 然而,有限的资源分配并不总是得到保证。 如果您需要更高的速度和处理能力并保证资源,您可以获得 Colab Pro 或 Pro+。

Colab Pro

对于一些适合 Colab 的数据科学和机器学习模型,您可以查看 Google Seedbank。

Google Colab 和 Jupyter Notebook 的区别

代码文档功能谷歌实验室Jupyter 笔记本
即时代码文件查看是的
代码文档共享是的
已安装的库是的
云托管是的
同步文件是的

#1 。 Colab 不需要在本地机器上安装软件。 相反,Jupyter Notebook 需要软件安装和本地机器资源进行计算。

#2 。 由于 Colab 是基于云的,因此您可以获得自动版本控制。 此外,Google Drive 会自动保存 Python 笔记本。 相比之下,在 Jupyter Notebook 上,您需要定期保存笔记本并管理版本控制。

#3 。 Colab 文件可在 Google Drive 上用于备份。 另一方面,Jupyter Notebook 文件不会自动备份。

#4 。 您可以将 Colab 文件发送给任何人,甚至是非数据科学家的客户。 他们可以轻松地在 Google Colab 上打开文档并查看内容。 接收方无需安装任何软件。

相反,收件人需要安装并运行 Jupyter Notebook 才能阅读您的项目。 因此,与非数据科学客户共享此文件成为一项挑战。

#5 。 Google Colaboratory 附带了数据科学和机器学习项目所需的库。 它还在云上为您提供一定数量的 CPU、RAM、GPU 和 TPU。 因此,您可以节省时间和金钱。

相反,如果使用 Jupyter Notebook 应用程序,您需要获取并安装项目所需的所有库。 安装这么多库也会消耗本地机器的 CPU、RAM 和 GPU 资源。

在 Google Colab 上执行常见任务

创建笔记本

在 Google Colab 上创建笔记本
  • 转到 Google Colab 门户并查看“欢迎来到 Colab!”
  • 在顶部菜单上,单击文件
  • 从文件上下文菜单中,选择新建笔记本
  • 您的新 Python 笔记本已准备就绪。 您可以重命名笔记本文件。

上传和下载文件

您可以按照以下步骤将本地 Python 代码上传到 Colab:

将笔记本上传到 Google Colab
  • 在顶部菜单上,单击文件
  • 将打开一个包含许多选项的上下文菜单。
  • 找到上传笔记本并点击它。
  • 您现在将看到一个覆盖控制台,其中包含示例、Google Drive、GitHub 和上传等选项。
  • 单击任何选项卡并选择要上传的代码内容。

下载正在进行或完成的项目也非常容易。 以下是步骤:

从 Google Colab 下载笔记本
  • 单击位于顶部菜单栏上的文件菜单。
  • 将光标悬停在Download上。
  • 将打开一个上下文菜单,其中包含两个下载文件格式选项:.ipynb 和 .py。
  • 您可以选择首选格式并下载文件。

访问 GitHub

在 Colab 中访问 GitHub 轻而易举。 这是您可以执行的操作:

从 Colaboratory 访问 GitHub 存储库
  • 单击顶部菜单栏上的文件
  • 从上下文菜单中选择上传笔记本
  • 将打开一个带有GitHub选项卡的控制台。
  • 或者,您可以按Ctrl+O访问同一控制台。
  • GitHub 搜索选项是 GitHub URL、用户名和组织名称。

访问本地文件

  • 在新的 Colab 笔记本上按Ctrl+O
  • 在出现的控制台上选择上传选项卡。
  • 单击选择文件以找到要在 Colab 上打开的本地文件。

访问 Google 云端硬盘

访问 Google 云端硬盘
  • 单击上方菜单上的文件
  • 您可以选择打开笔记本上传笔记本
  • 将出现一个控制台,其中包含一个Google Drive选项卡。
  • 单击该按钮以访问 Google Drive 中的文件。

如果您想将 Google Drive 挂载到您的 Colab 实例,请执行以下步骤:

将 Google Drive 挂载到您的 Colab 实例
  • 单击位于左侧导航窗格中的文件
  • 选择安装驱动器命令。
  • 在出现的通知中,选择Connect to Google Drive
  • Google 会要求您选择一个帐户进行授权。

保存到 Google 表格并从 Google 表格导入

您可以轻松地将笔记本数据保存到 Google 表格文件中以供进一步处理。 为此,请尝试以下步骤:

访问 Google 表格
  • 单击左下角的代码片段按钮。
  • 导航窗格将在右侧打开。
  • 在过滤器中输入Sheets ,您将找到保存数据导入数据代码片段。
  • 双击标题以将代码包含在笔记本中。

访问 AWS S3

您可以使用云存储桶从 AWS S3 和 Azure Blob 等云存储平台访问文件和编码资产。

访问 AWS S3

为此,您必须安装 ByteHub,它具有将数据加载和保存到云存储的功能。 您可以运行以下代码:

 !pip install -q bytehub[aws]

访问 Kaggle 数据集

访问 Kaggle 数据集
  • 转到 Kaggle 帐户并单击API 部分中的Expire API Token以删除旧令牌。
  • 创建新的 API 令牌以获取本地计算机上的 kaggle.json。
  • 现在使用以下代码安装 Kaggle:
 !pip install -q kaggle
  • 现在,按照标准编码实践将 Kaggle.json 文件上传到 Python 代码库。

最后的话

既然您已经对 Google Collaboratory 应用程序进行了深入讨论,那么您应该能够快速开始机器学习项目的学习、培训或实践。 对于喜欢 Jupyter Notebooks 的人来说,Google Colab 是一款真正方便的云应用。

您可能还对一些用于数据科学项目的流行开放数据集感兴趣。