Denetimli Öğrenme: Bize Yardımcı Olması İçin Makinelere Nasıl Öğretilir?

Yayınlanan: 2021-02-11

Denetimli öğrenmeyi, tüm öğrenme sürecini denetleyen bir öğretmen olarak düşünebilirsiniz.

Bu, makinelerin öğrenmesinin en yaygın yollarından biridir ve yapay zeka alanında paha biçilmez bir araçtır. Bu öğrenme süreci, makineler insanlar kadar inatçı olmasa da, öğrenci-öğretmen ilişkisine benzer.

Yapay zeka dünyasına yeni adım attıysanız, denetimli öğrenme daha önce karşılaştığınız bir terim olmayabilir. Kısacası, yapay zeka sistemlerinin öğrenmesini ve ilerlemesini sağlayan bir makine öğrenimi stratejisidir.

Denetimli öğrenme nedir?

Denetimli öğrenme, algoritmaları eğitmek için etiketli veri kümelerini kullanan bir makine öğrenimi alt kategorisidir. Programa, beklenen çıktı sonuçlarıyla birlikte etiketli girdi verilerinin verildiği bir makine öğrenimi yaklaşımıdır.

Basitçe söylemek gerekirse, denetimli öğrenme algoritmaları örnek olarak öğrenmek için tasarlanmıştır. Bu tür örnekler, eğitim verileri olarak adlandırılır ve her örnek, bir girdi nesnesi çifti ve istenen çıktı değeridir. Sisteme beslenen giriş ve çıkış verisi çiftine genellikle etiketli veri denir.

Etiketlenmiş verileri besleyerek, bir makineye farklı değişkenler ve bilinen sonuçlar arasındaki bağlantıları gösterirsiniz. Denetimli öğrenme ile, AI sistemine verilen girdi verilerinde nelere bakması gerektiği açıkça söylenir. Bu, algoritmaların periyodik olarak daha iyi olmasına ve sonuçları tahmin edebilen veya tanıdık olmayan verilerle sunulduğunda verileri doğru bir şekilde sınıflandırabilen makine öğrenimi modelleri oluşturmasına olanak tanır.

Genel olarak, model oluşturma sürecinin farklı aşamalarında üç veri kümesi kullanılır:

Eğitim veri kümesi: modeli eğitmek için kullanılan örnek veriler. Başka bir deyişle, modelin parametrelerine uyması için kullanılan bir dizi eğitim örneğidir.
Doğrulama veri kümesi: Eğitim veri kümesine uygun bir modelin tarafsız bir değerlendirmesini sağlamak için kullanılan örnek veriler
Test veri kümesi: eğitim veri kümesine uygun bir nihai modelin tarafsız bir değerlendirmesini sağlamak için kullanılan örnek veriler

Model uydurma , modelin eğitildiği verilere benzer verilere ne kadar iyi genelleme yaptığının ölçüsünü ifade eder. İyi yerleştirilmiş bir model doğru sonuçlar verir; fazla takılmış bir model, verilerle çok yakından eşleşir; yetersiz takılan bir model, verilerle yeterince yakın eşleşmez.

Denetimli öğrenme nasıl çalışır?

Eğitim, denetimli öğrenmede çok önemli bir rol oynar. Eğitim aşamasında, yapay zeka sistemi çok sayıda etiketlenmiş eğitim verisi ile beslenir. Daha önce bahsedildiği gibi, eğitim verileri sisteme her bir farklı girdi değerinden istenen çıktının nasıl olması gerektiği konusunda talimat verir.

Eğitilen modele daha sonra test verileri verilir. Bu, veri bilimcilerinin eğitimin etkinliğini ve modelin doğruluğunu belirlemesine olanak tanır. Bir modelin doğruluğu, eğitim veri kümesinin boyutuna ve kalitesine ve kullanılan algoritmaya bağlıdır.

Ancak, yüksek doğruluk her zaman iyi bir şey değildir. Örneğin, yüksek doğruluk, modelin aşırı uyumdan muzdarip olduğu anlamına gelebilir - bir modelleme hatası veya bir modelin eğitim veri kümesine aşırı derecede ayarlandığında yanlış optimizasyonu ve hatta yanlış pozitiflere neden olabilir.

Böyle bir durumda model, test senaryolarında oldukça iyi performans gösterebilir, ancak gerçek dünya koşullarında doğru çıktı sağlamada başarısız olabilir. Fazla takma olasılığını ortadan kaldırmak için test verilerinin eğitim verilerinden tamamen farklı olduğundan emin olun. Ayrıca, modelin önceki deneyimlerinden cevaplar alıp almadığını kontrol edin.

Eğitim örnekleri de çeşitli olmalıdır. Aksi takdirde, daha önce hiç görülmemiş vakalarla sunulduğunda, model çalışmayacaktır.

Veri bilimi ve veri madenciliği bağlamında (ham verileri faydalı bilgilere dönüştürme süreci), denetimli öğrenme iki türe ayrılabilir: sınıflandırma ve regresyon .

Bir sınıflandırma algoritması , sunduğu verilerin kategorisini veya sınıfını belirlemeye çalışır. E-posta spam sınıflandırması, bilgisayar görüşü ve ilaç sınıflandırması, sınıflandırma sorunlarının yaygın örneklerinden bazılarıdır.

Öte yandan, regresyon algoritmaları , sağlanan verilerin giriş özelliklerine dayanarak çıkış değerini tahmin etmeye çalışır. Dijital reklamların tıklanma oranlarını tahmin etmek ve özelliklerine göre bir evin fiyatını tahmin etmek yaygın regresyon problemlerinden bazılarıdır.

Denetimli ve denetimsiz öğrenme ve yarı denetimli öğrenme

Denetimli ve denetimsiz öğrenme arasındaki farkı anlamanın en iyi yollarından biri, satranç oynamayı nasıl öğreneceğinize bakmaktır.

denetimli ve denetimsiz öğrenme ile yarı denetimli öğrenme

Seçeneklerden biri bir satranç öğretmeni kiralamaktır. Bir öğretmen size temel kuralları, her bir satranç parçasının ne işe yaradığını ve daha fazlasını açıklayarak satranç oyununun nasıl oynanacağını öğretecektir. Oyunun kurallarını ve her parçanın kapsamını öğrendikten sonra, eğitmene karşı oynayarak devam edebilir ve pratik yapabilirsiniz.

Eğitmen hareketlerinizi denetleyecek ve hata yaptığınızda sizi düzeltecektir. Yeterli bilgi ve pratiği topladıktan sonra, diğerlerine karşı rekabetçi bir şekilde oynamaya başlayabilirsiniz.

Bu öğrenme süreci, denetimli öğrenme ile karşılaştırılabilir. Denetimli öğrenmede, bir veri bilimcisi bir öğretmen gibi davranır ve temel kuralları ve genel stratejiyi besleyerek makineyi eğitir.

Bir öğretmen kiralamak istemiyorsanız, yine de satranç oyununu öğrenebilirsiniz. Bunun bir yolu, diğer insanların oyunu oynamasını izlemektir. Muhtemelen onlara soru soramazsınız, ancak oyunu nasıl oynayacağınızı izleyebilir ve öğrenebilirsiniz.

Her bir satranç taşının adını bilmeseniz de oyunu gözlemleyerek her bir taşın nasıl hareket ettiğini öğrenebilirsiniz. Ne kadar çok oyun izlerseniz o kadar iyi anlarsınız ve kazanmak için uygulayabileceğiniz farklı stratejiler hakkında o kadar bilgili olursunuz.

Bu öğrenme süreci denetimsiz öğrenmeye benzer. Veri bilimcisi, makinenin gözlemleyerek öğrenmesini sağlar. Makine belirli adları veya etiketleri bilmese de, kalıpları kendi başına bulabilecektir.

Basitçe söylemek gerekirse, denetimsiz öğrenme, bir algoritmaya yalnızca giriş verilerini içeren ve karşılık gelen çıkış verilerini içermeyen bir eğitim veri kümesi verildiği zamandır.

Gördüğünüz gibi, her iki öğrenme yönteminin de dikkate değer güçlü ve zayıf yönleri vardır.

Denetimli öğrenme için, makineye kuralları ve stratejiyi öğretebilecek bilgili bir öğretmene ihtiyacınız var. Satranç örneğinde bu, oyunu öğrenmek için bir öğretmene ihtiyacınız olduğu anlamına gelir. Aksi takdirde, oyunu yanlış öğrenmiş olabilirsiniz.

Denetimsiz öğrenme durumunda, makinenin gözlemlemesi ve öğrenmesi için çok büyük miktarda veriye ihtiyacınız vardır. Etiketlenmemiş veriler ucuz (ve bol) ve toplanması ve saklanması kolay olmasına rağmen, yinelenen veya çöp verilerden yoksun olmalıdır. Kusurlu veya eksik veriler, algoritmaların ayrımcı sonuçlar ürettiği bir fenomen olan makine öğrenimi yanlılığına da neden olabilir.

Satranç örneğinde, diğer oyuncuları gözlemleyerek öğreniyorsanız, bu, anlamadan önce onlarca oyunu izlemeniz gerektiği anlamına gelir. Ayrıca, oyunu yanlış oynayan oyuncuları izliyorsanız, siz de aynısını yapabilirsiniz.

Ardından, yarı denetimli öğrenme var.

Tahmin edebileceğiniz gibi, yarı denetimli öğrenme, denetimli ve denetimsiz öğrenmenin bir karışımıdır. Bu öğrenme sürecinde, bir veri bilimcisi makineyi biraz eğiterek üst düzey bir genel bakış elde eder. Makine daha sonra kalıpları gözlemleyerek kuralları ve stratejiyi öğrenir. Eğitim verilerinin küçük bir yüzdesi etiketlenecek ve geri kalanı etiketlenmeyecektir.

Satranç öğrenme örneğinde, yarı denetimli öğrenme, size sadece temel bilgileri açıklayan ve rekabetçi bir şekilde oynayarak öğrenmenize izin veren bir öğretmene benzer.

Başka bir öğrenme süreci pekiştirmeli öğrenmedir (RL) . Bir yapay zeka sisteminin oyun benzeri bir durumla karşı karşıya kaldığı bir makine öğrenimi stratejisidir. Bir programcı, yapay zekayı öğretmek için, sistemin ödülü en üst düzeye çıkarmak ve cezalardan kaçınmak için uygun eylemleri gerçekleştirmeye odaklanması gereken bir ödül-ceza tekniği kullanır.

Denetimli öğrenme algoritmaları

Denetimli öğrenme sürecinde çok sayıda hesaplama tekniği ve algoritması kullanılmaktadır.

Denetimli bir makine öğrenimi algoritması seçerken genellikle aşağıdaki faktörler göz önünde bulundurulur:

Sistemin öğrenmeye çalıştığı modelin karmaşıklığı
Algoritma içinde var olan önyargı ve varyans
Eğitim verilerinin boyutu
Verilerin doğruluğu, heterojenliği, fazlalığı ve doğrusallığı
Eğitim için uygun zaman

Karşılaşacağınız yaygın denetimli makine öğrenimi algoritmalarından bazıları şunlardır.

Doğrusal regresyon

Doğrusal regresyon , hem istatistiksel bir algoritma hem de bir makine öğrenme algoritmasıdır. Gözlenen verilere doğrusal bir denklem ekleyerek iki değişken arasındaki ilişkiyi modellemeye çalışan bir algoritmadır. İki değişkenden biri açıklayıcı, diğeri bağımlı değişken olarak kabul edilir.

Doğrusal regresyon, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi belirlemek için de kullanılabilir. Makine öğrenimi alanında, tahminler yapmak için doğrusal regresyon kullanılır.

Lojistik regresyon

Lojistik regresyon , önceden sağlanan verilere dayanarak bir olayın olasılığını tahmin etmek için kullanılan matematiksel bir modeldir. Kredi puanlama ve çevrimiçi işlem sahtekarlığı tespiti, bu algoritmanın gerçek dünyadaki uygulamalarından bazılarıdır. Başka bir deyişle, ikili sınıflandırma problemlerini çözmek için kullanılan olasılık kavramlarına dayanan bir tahmine dayalı analiz algoritmasıdır.

Lojistik regresyon gibi, lineer regresyon da istatistik alanından ödünç alındı. Ancak, sürekli bağımlı değişkenlerle çalışan doğrusal regresyondan farklı olarak, lojistik regresyon "doğru" veya "yanlış" gibi ikili verilerle çalışır.

Nöral ağlar

Yapay sinir ağları (YSA), öncelikle derin öğrenme algoritmaları tarafından kullanılır. Bunlar, büyük hacimli veriler arasındaki ilişkileri tanımak için insan beyninin işlevlerini taklit eden bir dizi algoritmadır. Tahmin edebileceğiniz gibi, YSA'lar yapay zeka sistemleri için kritik öneme sahiptir.

Sinir ağları, çoklu düğüm katmanlarından oluşur. Her düğüm girdiler, ağırlıklar, sapma ve çıktılardan oluşur. Bir YSA, ağın performansına göre giriş ağırlıklarını ayarlayarak eğitilir. Örneğin, sinir ağı bir görüntüyü doğru bir şekilde sınıflandırırsa, doğru cevaba katkıda bulunan ağırlıklar artarken diğer ağırlıklar azaltılır.

Naif bayanlar

Naive Bayes , Bayes Teoreminin sınıf koşullu bağımsızlığı ilkesine dayanan bir sınıflandırma yöntemidir. Daha basit bir ifadeyle, Naive Bayes sınıflandırıcı yaklaşımı, bir sınıftaki belirli bir özelliğin varlığının başka hiçbir özelliğin varlığını etkilemediğini varsayar.

Örneğin, kırmızı renkli, yuvarlak ve yaklaşık üç inç çapında bir meyve elma olarak kabul edilebilir. Bu özellikler birbirine bağlı olsa bile, bu özelliklerin tümü tek tek meyvenin elma olma olasılığına katkıda bulunur.

Naive Bayes modeli, büyük veri kümeleriyle uğraşırken kullanışlıdır. Oluşturması kolaydır, hızlıdır ve gelişmiş sınıflandırma yöntemlerinden bile daha iyi performans gösterdiği bilinmektedir.

Destek vektör makinesi (SVM)

Destek vektör makinesi (SVM) , Vladimir Vapnik tarafından geliştirilmiş, iyi bilinen bir denetimli makine öğrenme algoritmasıdır. DVM'ler ağırlıklı olarak sınıflandırma problemleri için kullanılsa da regresyon için de kullanılabilir.

SVM'ler, belirli bir veri kümesini iki sınıfa en iyi şekilde bölen bir hiper düzlem bulma fikri üzerine kuruludur. Böyle bir hiperdüzlem karar sınırı olarak adlandırılır ve veri noktalarını her iki tarafa ayırır. Yüz algılama, metin sınıflandırması, görüntü sınıflandırması, SVM'nin gerçek dünyadaki birçok uygulamasından bazılarıdır.

K-en yakın komşular (KNN)

K-en yakın komşular (KNN) algoritması, regresyon ve sınıflandırma problemlerini çözmek için kullanılan denetimli bir makine öğrenme algoritmasıdır. Veri noktalarını yakınlıklarına ve diğer verilerle olan ilişkilerine göre gruplayan bir algoritmadır.

Anlaması kolay, uygulaması basit ve hesaplama süresi düşük. Bununla birlikte, kullanılan verinin boyutu arttıkça algoritma belirgin şekilde yavaşlar. KNN genellikle görüntü tanıma ve öneri sistemleri için kullanılır.

rastgele orman

Rastgele orman, bir topluluk olarak çalışan çok sayıda karar ağacından oluşan bir öğrenme yöntemidir (daha iyi tahmin performansı elde etmek için çoklu öğrenme algoritmalarının kullanılması). Her karar ağacı bir sınıf tahmini sunar ve en yüksek oyu alan sınıf, modelin tahmini olur.

Rastgele orman algoritması borsa, bankacılık ve tıp alanında yaygın olarak kullanılmaktadır. Örneğin, borcunu zamanında ödeme olasılığı daha yüksek olan müşterileri belirlemek için kullanılabilir.

Denetimli öğrenme örnekleri

Daha önce belirtildiği gibi, ev fiyatlarını tahmin etmek, çevrimiçi reklamların tıklama oranlarını ve hatta bir müşterinin belirli bir ürün için ödeme yapma isteğini tahmin etmek, denetimli öğrenme modellerinin dikkate değer örneklerinden bazılarıdır.

İşte günlük hayatta karşılaşabileceğiniz birkaç örnek daha.

Duyarlılık analizi : ürün duyarlılığını belirlemek ve müşteri ihtiyaçlarını anlamak için kullanılan doğal bir dil işleme tekniği
Görüntü tanıma: video ve görüntülerdeki nesneleri bulmak, tanımlamak ve sınıflandırmak için kullanılan bir teknik
İstenmeyen posta algılama: verilerdeki kalıpları ve anormallikleri tanıyarak istenmeyen ve istenmeyen posta olmayan içeriği sınıflandırma yöntemi

Makinelere düşünmeyi öğretmek

Denetimli öğrenme algoritmaları, etiketlenmiş verilerden yararlanarak büyük verileri kolaylıkla sınıflandırabilen ve hatta gelecekteki sonuçlar hakkında tahminlerde bulunabilen modeller oluşturabilir. Makineleri insan dünyasına tanıtan mükemmel bir öğrenme tekniğidir.

Makineleri akıllı hale getirmek için öğrenme tekniklerinden bahsetmişken, bugün sahip olduğumuz yapay zeka sistemlerinin gerçekten neler yapabileceğini hiç merak ettiniz mi? Öyleyse, dar AI hakkında daha fazla okuyarak merakınızı besleyin.