지도 학습: 기계가 우리를 돕도록 가르치는 방법

게시 됨: 2021-02-11

지도 학습은 전체 학습 과정을 감독하는 교사로 생각할 수 있습니다.

이것은 기계가 학습하는 가장 일반적인 방법 중 하나이며 인공 지능 분야에서 매우 귀중한 도구입니다. 이 학습 과정은 학생-교사 관계와 비슷하지만 기계는 인간만큼 완고하지 않습니다.

인공 지능의 세계에 이제 막 발을 들여놓았다면 지도 학습은 이전에 접한 용어가 아닐 수 있습니다. 간단히 말해서 AI 시스템이 학습하고 발전할 수 있도록 하는 기계 학습 전략입니다.

간단히 말해서 지도 학습 알고리즘은 예제를 통해 학습하도록 설계되었습니다. 이러한 예를 훈련 데이터 라고 하며, 각 예는 입력 객체와 원하는 출력 값의 쌍이다. 시스템에 공급되는 한 쌍의 입력 및 출력 데이터를 일반적으로 레이블이 지정된 데이터라고 합니다 .

레이블이 지정된 데이터를 제공하여 다른 변수와 알려진 결과 간의 연결을 기계에 보여줍니다. 지도 학습을 통해 AI 시스템은 주어진 입력 데이터에서 무엇을 찾아야 하는지 명시적으로 알려줍니다. 이를 통해 알고리즘은 주기적으로 개선되고 익숙하지 않은 데이터가 제공될 때 결과를 예측하거나 데이터를 정확하게 분류할 수 있는 기계 학습 모델을 생성할 수 있습니다.

일반적으로 모델 생성 프로세스의 여러 단계에서 세 가지 데이터 세트가 사용됩니다.

  • 훈련 데이터 세트: 모델을 훈련하는 데 사용되는 샘플 데이터입니다. 즉, 모델의 매개변수를 맞추는 데 사용되는 훈련 예제 세트입니다.
  • 검증 데이터 세트: 훈련 데이터 세트에 맞는 모델에 대한 편견 없는 평가를 제공하는 데 사용되는 샘플 데이터
  • 테스트 데이터 세트: 훈련 데이터 세트에 맞는 최종 모델에 대한 편견 없는 평가를 제공하는 데 사용되는 샘플 데이터

모델 피팅 은 모델이 학습된 데이터와 유사한 데이터를 얼마나 잘 일반화하는지 측정한 것입니다. 잘 맞는 모델은 정확한 결과를 생성합니다. 과적합된 모델이 데이터와 너무 가깝게 일치합니다. 과소 적합 모델은 데이터와 충분히 밀접하게 일치하지 않습니다.

지도 학습은 어떻게 작동합니까?

훈련은 지도 학습에서 중추적인 역할을 합니다. 훈련 단계에서 AI 시스템에는 레이블이 지정된 방대한 양의 훈련 데이터가 제공됩니다. 앞서 언급했듯이 훈련 데이터는 원하는 출력이 각각의 고유한 입력 값에서 어떻게 되어야 하는지에 대해 시스템에 지시합니다.

그런 다음 훈련된 모델에 테스트 데이터 가 제공됩니다. 이를 통해 데이터 과학자는 훈련의 효율성과 모델의 정확성을 결정할 수 있습니다. 모델의 정확도는 훈련 데이터 세트의 크기와 품질과 사용된 알고리즘에 따라 다릅니다.

그러나 높은 정확도가 항상 좋은 것은 아닙니다. 예를 들어, 정확도가 높다는 것은 모델이 과적합 (모델링 오류 또는 모델이 훈련 데이터 세트에 과도하게 조정될 때 모델의 잘못된 최적화 또는 잘못된 최적화)로 인해 고통받고 있음을 의미할 수 있으며 심지어 잘못된 긍정을 초래할 수도 있습니다.

이러한 경우 모델은 테스트 시나리오에서 눈에 띄게 잘 수행될 수 있지만 실제 상황에서는 올바른 출력을 제공하지 못할 수 있습니다. 과적합 가능성을 없애기 위해 테스트 데이터가 훈련 데이터와 완전히 다른지 확인하십시오. 또한 모델이 이전 경험에서 답을 도출하지 않는지 확인하십시오.

교육 사례도 다양해야 합니다. 그렇지 않으면 이전에 본 적이 없는 사례가 제시될 때 모델이 작동하지 않습니다.

데이터 과학 및 데이터 마이닝(원시 데이터를 유용한 정보로 변환하는 프로세스)의 맥락에서 지도 학습은 분류회귀 의 두 가지 유형으로 더 나눌 수 있습니다.

분류 알고리즘 은 표시되는 데이터의 범주 또는 클래스를 결정하려고 합니다. 이메일 스팸 분류, 컴퓨터 비전 및 약물 분류는 분류 문제의 일반적인 예입니다.

반면 회귀 알고리즘 은 제공된 데이터의 입력 특성을 기반으로 출력 값을 예측하려고 합니다. 디지털 광고의 클릭률을 예측하고 기능을 기반으로 주택 가격을 예측하는 것은 일반적인 회귀 문제 중 일부입니다.

지도 대 비지도 대 반 지도 학습

지도 학습과 비지도 학습의 차이점을 이해하는 가장 좋은 방법 중 하나는 보드 게임(예: 체스)을 배우는 방법을 살펴보는 것입니다.

지도 대 비지도 대 반 지도 학습

한 가지 옵션은 체스 교사를 고용하는 것입니다. 교사가 기본 규칙, 각 체스가 하는 일 등을 설명하여 체스 게임을 하는 방법을 알려줄 것입니다. 게임의 규칙과 각 조각의 범위를 알고 나면 튜터와 대결하여 연습할 수 있습니다.

튜터는 당신의 움직임을 감독하고 실수를 할 때마다 당신을 교정할 것입니다. 충분한 지식과 연습을 모으면 다른 사람들과 경쟁적으로 플레이할 수 있습니다.

이 학습 과정은 지도 학습 과 비슷합니다. 지도 학습에서 데이터 과학자는 교사처럼 행동하고 기본 규칙과 전체 전략을 제공하여 기계를 훈련합니다.

교사를 고용하고 싶지 않다면 체스 게임을 계속 배울 수 있습니다. 한 가지 방법은 다른 사람들이 게임을 하는 것을 지켜보는 것입니다. 그들에게 질문을 할 수는 없지만 게임을 보고 배울 수는 있습니다.

각 체스 말의 이름은 모르지만 게임을 관찰하면 각 말이 어떻게 움직이는지 알 수 있습니다. 더 많은 게임을 시청할수록 더 잘 이해하고 승리하기 위해 채택할 수 있는 다양한 전략에 대해 더 많이 알게 됩니다.

이 학습 과정은 비지도 학습 과 유사합니다. 데이터 과학자는 기계가 관찰을 통해 학습하도록 합니다. 기계는 특정 이름이나 레이블을 알지 못하지만 스스로 패턴을 찾을 수 있습니다.

간단히 말해, 비지도 학습은 알고리즘에 입력 데이터만 포함하고 해당 출력 데이터는 포함하지 않는 훈련 데이터 세트가 제공되는 경우입니다.

보시다시피, 두 가지 학습 방법에는 주목할만한 강점과 약점이 있습니다.

지도 학습을 위해서는 기계에게 규칙과 전략을 가르칠 수 있는 지식이 풍부한 교사가 필요합니다. 체스의 예에서 이것은 게임을 배우기 위해 교사가 필요하다는 것을 의미합니다. 그렇지 않으면 게임을 잘못 배울 수 있습니다.

비지도 학습의 경우 기계가 관찰하고 학습하려면 방대한 양의 데이터가 필요합니다. 레이블이 지정되지 않은 데이터는 저렴하고(풍부하며) 수집 및 저장하기 쉽지만 중복 데이터나 가비지 데이터가 없어야 합니다. 결함이 있거나 불완전한 데이터는 알고리즘이 차별적인 결과를 생성하는 현상인 기계 학습 편향 을 초래할 수도 있습니다.

체스의 예에서 다른 플레이어를 관찰하여 학습하는 경우 이해하기 전에 수십 가지 게임을 봐야 함을 의미합니다. 또한, 게임을 잘못 플레이하는 플레이어를 보고 있다면 결국 똑같이 할 수 있습니다.

그런 다음 반 지도 학습 이 있습니다.

짐작하셨겠지만, 준지도 학습은 지도 학습과 비지도 학습이 혼합된 것입니다. 이 학습 과정에서 데이터 과학자는 기계가 높은 수준의 개요를 얻을 수 있도록 기계를 약간만 훈련시킵니다. 그런 다음 기계는 패턴을 관찰하여 규칙과 전략을 학습합니다. 훈련 데이터의 작은 비율은 레이블이 지정되고 나머지는 레이블이 지정되지 않습니다.

체스를 배우는 예에서 semi-supervised learning은 교사에게 기본 사항만 설명하고 경쟁적으로 플레이함으로써 배우게 하는 것과 유사할 것입니다.

또 다른 학습 프로세스는 강화 학습(RL) 입니다. AI 시스템이 게임과 같은 상황에 직면하는 머신 러닝 전략입니다. AI를 가르치기 위해 프로그래머는 보상을 최대화하고 처벌을 피하기 위해 시스템이 적절한 조치를 취하는 데 집중해야 하는 보상 페널티 기법을 사용합니다.

지도 학습 알고리즘

지도 학습 프로세스에는 수많은 계산 기술과 알고리즘이 사용됩니다.

지도 머신 러닝 알고리즘을 선택할 때 일반적으로 다음 요소를 고려합니다.

  • 시스템이 학습하려고 하는 모델의 복잡성
  • 알고리즘 내에 존재하는 편향과 분산
  • 훈련 데이터의 크기
  • 데이터의 정확성, 이질성, 중복성 및 선형성
  • 훈련 가능 시간

다음은 여러분이 접하게 될 몇 가지 일반적인 지도 머신 러닝 알고리즘입니다.

선형 회귀

선형 회귀 는 통계 알고리즘이자 기계 학습 알고리즘입니다. 관찰된 데이터에 선형 방정식을 추가하여 두 변수 간의 관계를 모델링하려는 알고리즘입니다. 두 변수 중 하나는 설명 변수로, 다른 하나는 종속 변수로 간주합니다.

선형 회귀는 종속 변수와 하나 이상의 독립 변수 간의 관계를 식별하는 데 사용할 수도 있습니다. 기계 학습 영역에서는 선형 회귀를 사용하여 예측을 수행합니다.

로지스틱 회귀

로지스틱 회귀 는 제공된 이전 데이터를 기반으로 이벤트의 확률을 추정하는 데 사용되는 수학적 모델입니다. 신용 평가 및 온라인 거래 사기 탐지는 이 알고리즘의 실제 응용 프로그램 중 일부입니다. 즉, 이진 분류 문제를 해결하는 데 사용되는 확률 개념을 기반으로 하는 예측 분석 알고리즘입니다.

로지스틱 회귀와 마찬가지로 선형 회귀도 통계 분야에서 차용했습니다. 그러나 연속 종속 변수와 함께 작동하는 선형 회귀와 달리 로지스틱 회귀는 "true" 또는 "false"와 같은 이진 데이터에서 작동합니다.

신경망

인공 신경망(ANN)은 주로 딥 러닝 알고리즘에서 사용됩니다. 방대한 양의 데이터 간의 관계를 인식하기 위해 인간 두뇌의 기능을 모방하는 일련의 알고리즘입니다. 짐작할 수 있듯이 ANN은 인공 지능 시스템에 매우 중요합니다.

신경망은 여러 노드의 레이어로 구성됩니다. 각 노드는 입력, 가중치, 편향 및 출력으로 구성됩니다. ANN은 네트워크 성능에 따라 입력 가중치를 조정하여 훈련됩니다. 예를 들어, 신경망이 이미지를 올바르게 분류하면 정답에 기여하는 가중치는 증가하고 다른 가중치는 감소합니다.

나이브 베이즈

나이브 베이즈( Naive Bayes )는 베이즈 정리의 클래스 조건부 독립성 원칙에 기반한 분류 방법입니다. 간단히 말해서 Naive Bayes 분류기 접근 방식은 클래스의 특정 기능이 다른 기능의 존재에 영향을 미치지 않는다고 가정합니다.

예를 들어, 과일이 빨간색이고 둥글고 지름이 약 3인치이면 사과로 간주될 수 있습니다. 이러한 특성이 서로 의존적일지라도 이러한 모든 특성은 개별적으로 바로 그 과일이 사과일 확률에 기여합니다.

Naive Bayes 모델은 대규모 데이터 세트를 처리할 때 유용합니다. 구축하기 쉽고 빠르며 고급 분류 방법보다 훨씬 더 나은 성능을 발휘하는 것으로 알려져 있습니다.

서포트 벡터 머신(SVM)

SVM(Support Vector Machine) 은 Vladimir Vapnik에서 개발한 잘 알려진 지도 머신 러닝 알고리즘입니다. 분류 문제에 주로 사용되지만 SVM은 회귀에도 사용할 수 있습니다.

SVM은 주어진 데이터 세트를 두 개의 클래스로 가장 잘 나누는 초평면을 찾는 아이디어를 기반으로 합니다. 이러한 초평면을 결정 경계 라고 하며 데이터 포인트를 양쪽으로 분리합니다. 얼굴 감지, 텍스트 분류, 이미지 분류는 SVM의 많은 실제 응용 프로그램 중 일부입니다.

K-최근접이웃(KNN)

KNN(K-Nearest Neighbors) 알고리즘은 회귀 및 분류 문제를 해결하는 데 사용되는 지도 머신 러닝 알고리즘입니다. 다른 데이터와의 근접성 및 관계에 따라 데이터 포인트를 그룹화하는 알고리즘입니다.

이해하기 쉽고 구현이 간단하며 계산 시간이 짧습니다. 그러나 알고리즘은 사용 중인 데이터의 크기가 증가함에 따라 현저히 느려집니다. KNN은 일반적으로 이미지 인식 및 추천 시스템에 사용됩니다.

랜덤 포레스트

랜덤 포레스트는 앙상블 (더 나은 예측 성능을 얻기 위해 다중 학습 알고리즘 사용)으로 작동하는 다수의 의사결정 트리로 구성된 학습 방법입니다. 각 의사 결정 트리는 클래스 예측을 제공하고 가장 높은 투표를 받은 클래스가 모델의 예측이 됩니다.

랜덤 포레스트 알고리즘은 주식 시장, 은행, 의료 분야에서 광범위하게 사용됩니다. 예를 들어, 부채를 제때 상환할 가능성이 더 높은 고객을 식별하는 데 사용할 수 있습니다.

지도 학습 예제

앞서 언급했듯이 집값 예측, 온라인 광고의 클릭률, 심지어 특정 제품에 대한 고객의 지불 의향도 지도 학습 모델의 주목할만한 예입니다.

다음은 일상 생활에서 접할 수 있는 몇 가지 예입니다.

  • 감성분석 : 제품의 감성을 파악하고 고객의 니즈를 파악하기 위한 자연어 처리 기법
  • 이미지 인식: 비디오 및 이미지에서 개체를 찾고 식별하고 분류하는 데 사용되는 기술
  • 스팸 탐지: 데이터의 패턴 및 이상을 인식하여 스팸 및 비스팸 콘텐츠를 분류하는 방법

기계에게 생각하는 법 가르치기

지도 학습 알고리즘은 레이블이 지정된 데이터를 활용하여 빅 데이터를 쉽게 분류하고 미래 결과를 예측할 수 있는 모델을 생성할 수 있습니다. 그것은 인간 세계에 기계를 소개하는 훌륭한 학습 기술입니다.

기계를 지능적으로 만드는 학습 기술에 대해 말하면서 오늘날 우리가 가지고 있는 인공 지능 시스템이 진정으로 할 수 있는 것이 무엇인지 궁금해 한 적이 있습니까? 그렇다면 좁은 AI에 대해 더 읽어보고 호기심을 충족시키십시오.