监督学习:如何教机器帮助我们

已发表: 2021-02-11

您可以将监督学习视为监督整个学习过程的老师。

这是机器学习最常见的方式之一,也是人工智能领域的宝贵工具。 这种学习过程类似于师生关系,尽管机器不像人类那么顽固。

如果你刚刚踏入人工智能的世界,监督学习可能不是你以前遇到过的一个术语。 简而言之,它是一种机器学习策略,使人工智能系统能够学习和进步。

简而言之,监督学习算法旨在通过示例进行学习。 这样的例子被称为训练数据,每个例子都是一对输入对象和期望的输出值。 馈入系统的输入和输出数据对通常称为标记数据

通过提供标记数据,您可以向机器展示不同变量和已知结果之间的联系。 通过监督学习,人工智能系统被明确告知要在给定的输入数据中寻找什么。 这使算法能够定期变得更好,并创建机器学习模型,当出现不熟悉的数据时,可以预测结果或准确分类数据。

通常,在模型创建过程的不同阶段使用三个数据集:

  • 训练数据集:用于训练模型的样本数据。 换句话说,它是一组用于拟合模型参数的训练样例。
  • 验证数据集:用于提供对训练数据集上模型拟合的无偏评估的样本数据
  • 测试数据集:用于对训练数据集拟合的最终模型进行无偏评估的样本数据

模型拟合是指衡量模型泛化到与训练数据相似的数据的程度。 拟合良好的模型会产生准确的结果; 过度拟合的模型与数据的匹配过于紧密; 拟合不足的模型与数据的匹配不够紧密。

监督学习是如何工作的?

训练在监督学习中起着举足轻重的作用。 在训练阶段,人工智能系统会收到大量标记的训练数据。 如前所述,训练数据会指导系统从每个不同的输入值得到所需的输出。

然后给训练好的模型提供测试数据。 这使数据科学家能够确定训练的有效性和模型的准确性。 模型的准确性取决于训练数据集的大小和质量以及使用的算法。

然而,高精度并不总是一件好事。 例如,高精度可能意味着模型存在过度拟合——当模型过度调整到其训练数据集时,建模错误或模型优化不正确,甚至可能导致误报。

在这种情况下,模型可能在测试场景中表现得非常好,但在现实环境中可能无法提供正确的输出。 为了消除过度拟合的可能性,请确保测试数据与训练数据完全不同。 此外,检查模型是否没有从以前的经验中得出答案。

训练示例也应该是多样化的。 否则,当出现前所未见的案例时,模型将无法工作。

在数据科学和数据挖掘(将原始数据转化为有用信息的过程)的背景下,监督学习可以进一步分为两类:分类回归

分类算法试图确定它所呈现的数据的类别或类别。 垃圾邮件分类、计算机视觉和药物分类是分类问题的一些常见示例。

另一方面,回归算法试图根据所提供数据的输入特征来预测输出值。 预测数字广告的点击率并根据其特征预测房价是一些常见的回归问题。

监督与无监督与半监督学习

了解有监督学习和无监督学习之间区别的最佳方法之一是查看您将如何学习玩棋盘游戏——比如说国际象棋。

监督与无监督与半监督学习

一种选择是聘请国际象棋导师。 导师将通过向您解释基本规则,每件国际象棋的作用等等,教您如何玩国际象棋游戏。 一旦您了解了游戏规则和每件作品的范围,您就可以通过与导师对战来继续练习。

当你犯错时,导师会监督你的动作并纠正你。 一旦你积累了足够的知识和实践,你就可以开始与他人竞争。

这种学习过程可以与监督学习相媲美。 在监督学习中,数据科学家就像导师一样,通过提供基本规则和总体策略来训练机器。

如果你不想请家教,你仍然可以学习国际象棋游戏。 一种方法是观看其他人玩游戏。 您可能无法问他们任何问题,但您可以观看并学习如何玩游戏。

尽管不知道每个棋子的名称,但您可以通过观察游戏来了解每个棋子的移动方式。 您观看的比赛越多,您的理解就越好,您对可以采取的不同策略的了解也就越多。

这个学习过程类似于无监督学习。 数据科学家让机器通过观察来学习。 虽然机器不知道具体的名称或标签,但它可以自己找到图案。

简单地说,无监督学习就是给算法一个训练数据集,该数据集只包含输入数据而没有相应的输出数据。

正如你所看到的,这两种学习方法都有明显的优点和缺点。

对于监督学习,您需要一位知识渊博的导师,他可以教机器规则和策略。 在国际象棋的例子中,这意味着你需要一个导师来学习这个游戏。 如果没有,你最终可能会错误地学习游戏。

在无监督学习的情况下,您需要大量数据供机器观察和学习。 尽管未标记的数据便宜(且丰富)且易于收集和存储,但它必须没有重复或垃圾数据。 有缺陷或不完整的数据也可能导致机器学习偏差——算法产生歧视性结果的现象。

在国际象棋的例子中,如果你是通过观察其他棋手来学习的,这意味着你需要观看几十场比赛才能理解它。 此外,如果您正在观看不正确地玩游戏的玩家,您最终可能也会这样做。

然后是半监督学习

正如您可能已经猜到的那样,半监督学习是监督学习和无监督学习的混合体。 在这个学习过程中,数据科学家只对机器进行一点训练,以便获得高级别的概述。 然后机器通过观察模式来学习规则和策略。 一小部分训练数据将被标记,其余的将未标记。

在学习国际象棋的示例中,半监督学习类似于导师向您解释基础知识并让您通过竞争来学习。

另一个学习过程是强化学习 (RL) 。 这是一种机器学习策略,其中人工智能系统面临类似游戏的情况。 为了教授人工智能,程序员使用了一种奖励惩罚技术,其中系统必须专注于采取适当的行动来最大化奖励并避免惩罚。

监督学习算法

在监督学习过程中使用了许多计算技术和算法。

在选择监督机器学习算法时,一般会考虑以下因素:

  • 系统试图学习的模型的复杂性
  • 算法中存在的偏差和方差
  • 训练数据的大小
  • 数据的准确性、异质性、冗余和线性
  • 可训练时间

以下是您会遇到的一些常见的监督机器学习算法。

线性回归

线性回归既是一种统计算法,也是一种机器学习算法。 这是一种算法,它试图通过将线性方程附加到观察到的数据来模拟两个变量之间的关系。 在这两个变量中,一个被认为是解释变量,另一个被认为是因变量。

线性回归也可用于识别因变量与一个或多个自变量之间的关系。 在机器学习领域,线性回归用于进行预测。

逻辑回归

逻辑回归是一种数学模型,用于根据提供的先前数据估计事件的概率。 信用评分和在线交易欺诈检测是该算法的一些实际应用。 换句话说,它是一种基于概率概念的预测分析算法,用于解决二进制分类问题。

就像逻辑回归一样,线性回归也是从统计学领域借来的。 但是,与处理连续因变量的线性回归不同,逻辑回归处理二进制数据,例如“真”或“假”。

神经网络

人工神经网络 (ANN) 主要用于深度学习算法。 它们是一系列模仿人脑功能的算法,以识别大量数据之间的关系。 正如您可能已经猜到的那样,人工神经网络对于人工智能系统至关重要。

神经网络由多个节点的层组成。 每个节点由输入、权重、偏差和输出组成。 通过根据网络性能调整输入权重来训练 ANN。 例如,如果神经网络对图像进行正确分类,则有助于正确答案的权重会增加,而其他权重会减少。

朴素贝叶斯

朴素贝叶斯是一种基于贝叶斯定理类条件独立性原理的分类方法。 简单来说,朴素贝叶斯分类器方法假设类中特定特征的存在不会影响任何其他特征的存在。

例如,如果一个水果呈红色、圆形且直径约为 3 英寸,则可以认为它是苹果。 即使这些特征是相互依赖的,所有这些属性都单独影响了这个水果是苹果的概率。

朴素贝叶斯模型在处理大型数据集时很有用。 它易于构建、速度快,并且比高级分类方法表现更好。

支持向量机 (SVM)

支持向量机(SVM)是一种著名的监督机器学习算法,由 Vladimir Vapnik 开发。 尽管主要用于分类问题,但 SVM 也可用于回归。

支持向量机建立在寻找一个超平面的想法之上,该超平面最好地将给定的数据集分为两类。 这样的超平面被称为决策边界并将数据点分离到任一侧。 人脸检测、文本分类、图像分类是 SVM 的许多实际应用中的一部分。

K-最近邻(KNN)

K-最近邻(KNN)算法是一种用于解决回归和分类问题的监督机器学习算法。 这是一种根据数据点与其他数据的接近程度和关系对数据点进行分组的算法。

它易于理解,易于实现,并且计算时间短。 但是,随着使用的数据量的增加,该算法变得非常缓慢。 KNN 通常用于图像识别和推荐系统。

随机森林

随机森林是一种学习方法,它由大量作为集成操作的决策树组成(使用多种学习算法来获得更好的预测性能)。 每个决策树都提供一个类预测,得票最高的类成为模型的预测。

随机森林算法广泛应用于股票市场、银行和医疗领域。 例如,它可以用来识别更有可能按时偿还债务的客户。

监督学习示例

如前所述,预测房价、在线广告的点击率,甚至客户对特定产品的支付意愿都是监督学习模型的一些显着例子。

以下是您在日常生活中可能会遇到的更多示例。

  • 情绪分析一种用于确定产品情绪和了解客户需求的自然语言处理技术
  • 图像识别:一种用于定位、识别和分类视频和图像中的对象的技术
  • 垃圾邮件检测:通过识别数据中的模式和异常对垃圾邮件和非垃圾邮件内容进行分类的方法

教机器思考

通过利用标记数据,监督学习算法可以创建可以轻松分类大数据甚至预测未来结果的模型。 这是一种将机器引入人类世界的绝妙学习技术。

说到让机器变得智能的学习技术,你有没有想过我们今天拥有的人工智能系统真正具备哪些能力? 如果是这样,请阅读更多关于狭义 AI 的内容来满足您的好奇心。