Eğitim Verileri Nedir? Makine Öğreniminde Nasıl Kullanılır?
Yayınlanan: 2021-07-30Makine öğrenimi modelleri, eğitildikleri veriler kadar iyidir.
Yüksek kaliteli eğitim verileri olmadan, en verimli bile makine öğrenme algoritmalar gerçekleştiremez.
Kaliteli, doğru, eksiksiz ve ilgili verilere duyulan ihtiyaç, eğitim sürecinin başlarında başlar. Algoritma ancak iyi eğitim verileriyle beslenirse, özellikleri kolayca alabilir ve satırın aşağısında tahmin etmesi gereken ilişkileri bulabilir.
Daha doğrusu, kaliteli eğitim verileri , makine öğreniminin (ve yapay zekanın) diğerlerinden daha önemli bir yönüdür. Makine öğrenimi (ML) algoritmalarını doğru verilerle tanıştırırsanız, bunları doğruluk ve başarı için ayarlarsınız.
Eğitim verileri nedir?
Eğitim verileri, makine öğrenimi algoritmalarını eğitmek için kullanılan ilk veri kümesidir. Modeller, bu verileri kullanarak kurallarını oluşturur ve hassaslaştırır. Bir makine öğrenimi modelinin parametrelerini, onu örnek olarak eğitmek üzere uydurmak için kullanılan bir dizi veri örneğidir.
Eğitim verileri aynı zamanda eğitim veri seti, öğrenme seti ve eğitim seti olarak da bilinir. Her makine öğrenimi modelinin önemli bir bileşenidir ve doğru tahminler yapmalarına veya istenen bir görevi gerçekleştirmelerine yardımcı olur.
Basitçe söylemek gerekirse, eğitim verileri makine öğrenimi modelini oluşturur. Beklenen çıktının nasıl göründüğünü öğretir. Model, özelliklerini derinlemesine anlamak ve daha iyi performans için kendini ayarlamak için veri kümesini tekrar tekrar analiz eder.
Daha geniş anlamda, eğitim verileri iki kategoride sınıflandırılabilir: etiketli veriler ve etiketlenmemiş veriler .
Etiketlenmiş veri nedir?
Etiketlenmiş veriler , bir veya daha fazla anlamlı etiketle etiketlenmiş bir grup veri örneğidir. Ayrıca açıklamalı veriler olarak da adlandırılır ve etiketleri belirli özellikleri, özellikleri, sınıflandırmaları veya içerilen nesneleri tanımlar.
Örneğin, meyve resimleri elma, muz veya üzüm olarak etiketlenebilir.
Etiketli eğitim verileri şu durumlarda kullanılır: denetimli öğrenme. ML modellerinin daha yeni veri noktalarını sınıflandırmak için kullanılabilecek belirli etiketlerle ilişkili özellikleri öğrenmesini sağlar. Yukarıdaki örnekte bu, bir modelin belirli meyvelerin özelliklerini anlamak için etiketli görüntü verilerini kullanabileceği ve bu bilgiyi yeni görüntüleri gruplamak için kullanabileceği anlamına gelir.
Veri etiketleme veya açıklama, insanların veri noktalarını etiketlemesi veya etiketlemesi gerektiğinden zaman alan bir süreçtir. Etiketli veri toplama zorlu ve pahalıdır. Etiketlenmemiş verilerle karşılaştırıldığında etiketli verileri depolamak kolay değildir.
Etiketlenmemiş veri nedir?
Beklendiği gibi, etiketlenmemiş veriler etiketli verilerin tam tersidir. Sınıflandırmaları, özellikleri veya özellikleri tanımlamak için herhangi bir etiketle etiketlenmemiş ham veriler veya verilerdir. içinde kullanılır denetimsiz makine öğrenimi ve makine öğrenimi modelleri sonuçlara ulaşmak için verilerde kalıplar veya benzerlikler bulmak zorundadır.
Önceki elma , muz ve üzüm örneğine dönersek, etiketlenmemiş eğitim verilerinde bu meyvelerin resimleri etiketlenmeyecektir. Model, her görüntüyü renk ve şekil gibi özelliklerine bakarak değerlendirmek zorunda kalacak.
Önemli sayıda görüntüyü analiz ettikten sonra, model yeni görüntüleri (yeni veriler) elma , muz veya üzüm gibi meyve türlerine ayırabilecektir. Elbette model, belirli meyveye elma dendiğini bilemezdi. Bunun yerine, onu tanımlamak için gereken özellikleri bilir.
Denetimli ve denetimsiz makine öğreniminin bir kombinasyonunu kullanan hibrit modeller vardır.
Makine öğreniminde eğitim verileri nasıl kullanılır?
Makine öğrenimi algoritmalarından farklı olarak, geleneksel programlama algoritmaları, girdi verilerini kabul etmek ve çıktı sağlamak için bir dizi talimatı takip eder. Geçmiş verilere dayanmazlar ve yaptıkları her eylem kurala dayalıdır. Bu aynı zamanda, makine öğreniminde durum böyle olmayan, zamanla gelişmedikleri anlamına gelir.
Makine öğrenimi modelleri için geçmiş veriler yemdir. İnsanların daha iyi kararlar almak için geçmiş deneyimlere güvenmesi gibi, ML modelleri de tahminlerde bulunmak için eğitim veri kümelerine geçmiş gözlemlerle bakar.
Tahminler, aşağıdaki durumlarda olduğu gibi görüntüleri sınıflandırmayı içerebilir: görüntü tanıma veya doğal dil işlemede (NLP) olduğu gibi bir cümlenin bağlamını anlama.
Bir veri bilimcisini öğretmen olarak, makine öğrenimi algoritmasını öğrenci olarak ve eğitim veri setini tüm ders kitaplarının koleksiyonu olarak düşünün.
Öğretmenin arzusu, öğrencinin sınavlarda ve ayrıca gerçek dünyada iyi performans göstermesidir. ML algoritmaları söz konusu olduğunda, testler sınavlar gibidir. Ders kitapları (eğitim veri kümesi), sınavda sorulacak soru türlerinin birkaç örneğini içerir.
İpucu: Büyük veri analitiğine göz atın büyük verilerin nasıl toplandığını, yapılandırıldığını, temizlendiğini ve analiz edildiğini bilmek.
Elbette sınavda sorulacak soruların tüm örneklerini içermeyecek ve ders kitabında yer alan tüm örnekler sınavda sorulmayacaktır. Ders kitapları, öğrencilere ne bekleyeceklerini ve nasıl yanıt vereceklerini öğreterek öğrencinin hazırlanmasına yardımcı olabilir.
Hiçbir ders kitabı asla tam olarak tamamlanamaz. Zaman geçtikçe sorulan soruların türü değişecek ve bu nedenle ders kitaplarında yer alan bilgilerin değiştirilmesi gerekiyor. ML algoritmaları söz konusu olduğunda, eğitim seti yeni bilgileri içerecek şekilde periyodik olarak güncellenmelidir.
Kısacası, eğitim verileri, veri bilimcilerinin makine öğrenimi algoritmalarına ne beklemeleri gerektiği konusunda bir fikir vermelerine yardımcı olan bir ders kitabıdır. Eğitim veri kümesi olası tüm örnekleri içermese de, tahminler yapabilen algoritmalar yapacaktır.
Eğitim verileri ve test verileri ve doğrulama verileri
Eğitim verileri , model eğitiminde kullanılır veya başka bir deyişle modele uyması için kullanılan verilerdir. Aksine, modelin performansını veya doğruluğunu değerlendirmek için test verileri kullanılır. Eğitim verilerine uyan nihai modelin tarafsız bir değerlendirmesini yapmak için kullanılan bir veri örneğidir.
Eğitim veri kümesi, makine öğrenimi modellerine istenen kalıpları tanımlamayı veya belirli bir görevi gerçekleştirmeyi öğreten bir başlangıç veri kümesidir. Eğitimin ne kadar etkili olduğunu veya modelin ne kadar doğru olduğunu değerlendirmek için bir test veri seti kullanılır.
Bir ML algoritması belirli bir veri kümesi üzerinde eğitildikten sonra ve onu aynı veri kümesi üzerinde test ederseniz, modelin ne bekleyeceğini bildiği için yüksek doğruluğa sahip olması daha olasıdır. Eğitim veri kümesi, modelin gelecekte karşılaşabileceği tüm olası değerleri içeriyorsa, hepsi iyi ve iyi.
Ama durum asla böyle değil. Bir eğitim veri seti asla kapsamlı olamaz ve bir modelin gerçek dünyada karşılaşabileceği her şeyi öğretemez. Bu nedenle, modelin doğruluğunu değerlendirmek için görünmeyen veri noktalarını içeren bir test veri seti kullanılır.

Sonra doğrulama verileri var. Bu, eğitim aşamasında sık değerlendirme için kullanılan bir veri setidir. Model bu veri setini ara sıra görse de ondan bir şey öğrenmez . Doğrulama seti, geliştirme seti veya geliştirme seti olarak da adlandırılır. Modellerin fazla ve eksik takılmasına karşı korunmasına yardımcı olur.
Doğrulama verileri eğitim verilerinden ayrı olsa da, veri bilimcileri doğrulama için eğitim verilerinin bir kısmını ayırabilir. Ama tabii ki bu otomatik olarak doğrulama verilerinin eğitim sırasında uzak tutulduğu anlamına gelir.
İpucu: Sınırlı miktarda veriniz varsa, modelin performansını tahmin etmek için çapraz doğrulama adı verilen bir teknik kullanılabilir. Bu yöntem, eğitim verilerini rastgele olarak birden çok alt kümeye ayırmayı ve birini değerlendirme için ayırmayı içerir.
Birçoğu "test verileri" ve "doğrulama verileri" terimlerini birbirinin yerine kullanır. İkisi arasındaki temel fark, doğrulama verilerinin eğitim sırasında modeli doğrulamak için kullanılması, test setinin ise eğitim tamamlandıktan sonra modeli test etmek için kullanılmasıdır.

Doğrulama veri seti, modele görünmeyen verilerin ilk tadını verir. Ancak, tüm veri bilimcileri doğrulama verilerini kullanarak bir ilk kontrol gerçekleştirmez. Bu kısmı atlayabilir ve doğrudan test verilerine gidebilirler.
Döngüdeki insan nedir?
Döngüdeki insan, eğitim verilerinin toplanması ve hazırlanmasında yer alan kişileri ifade eder.
Ham veriler, IoT cihazları, sosyal medya platformları, web siteleri ve müşteri geri bildirimleri dahil olmak üzere birden fazla kaynaktan toplanır. Toplandıktan sonra sürece dahil olan bireyler, modelin tahmin etmesini istediğiniz sonucun iyi göstergeleri olan verilerin önemli özelliklerini belirleyecektir.
Veriler temizlenerek, eksik değerler hesaplanarak, aykırı değerler kaldırılarak, veri noktaları etiketlenerek ve ML algoritmalarını eğitmek için uygun yerlere yüklenerek hazırlanır. Ayrıca birkaç kalite kontrol turu olacak; Bildiğiniz gibi yanlış etiketler modelin doğruluğunu önemli ölçüde etkileyebilir.
Eğitim verilerini iyi yapan nedir?
Yüksek kaliteli veriler, doğru makine öğrenimi modellerine dönüşür.
Düşük kaliteli veriler, modellerin doğruluğunu önemli ölçüde etkileyebilir ve bu da ciddi mali kayıplara yol açabilir. Bu neredeyse bir öğrenciye yanlış bilgiler içeren bir ders kitabı verip sınavda başarılı olmasını beklemek gibidir.
Aşağıdakiler, kaliteli eğitim verilerinin dört temel özelliğidir.
İlgili
Verilerin eldeki görevle ilgili olması gerekir. Örneğin, bir eğitim vermek istiyorsanız Bilgisayar görüşü Otonom araçlar için algoritma, muhtemelen meyve ve sebze resimlerine ihtiyacınız olmayacak. Bunun yerine yolların, kaldırımların, yayaların ve araçların fotoğraflarını içeren bir eğitim veri setine ihtiyacınız olacaktır.
Temsilci
AI eğitim verileri, uygulamanın tahmin etmek veya sınıflandırmak için yapıldığı veri noktalarına veya özelliklere sahip olmalıdır. Tabii ki, veri kümesi asla mutlak olamaz, ancak en azından AI uygulamasının tanıması gereken niteliklere sahip olmalıdır.
Örneğin, modelin görüntülerin içindeki yüzleri tanıması amaçlanıyorsa, çeşitli etnik kökenlerden insanların yüzlerini içeren çeşitli verilerle beslenmesi gerekir. Bu, AI yanlılığı sorununu azaltacak ve model belirli bir ırk, cinsiyet veya yaş grubuna karşı önyargılı olmayacaktır.
üniforma
Tüm veriler aynı özniteliğe sahip olmalı ve aynı kaynaktan gelmelidir.
Makine öğrenimi projenizin müşteri bilgilerine bakarak kayıp oranını tahmin etmeyi amaçladığını varsayalım. Bunun için müşteri adı, adresi, sipariş sayısı, sipariş sıklığı ve diğer ilgili bilgileri içeren bir müşteri bilgi veritabanına sahip olacaksınız. Bu geçmiş verilerdir ve eğitim verileri olarak kullanılabilir.
Verilerin bir kısmı yaş veya cinsiyet gibi ek bilgilere sahip olamaz. Bu, eğitim verilerini eksik ve modeli yanlış yapacaktır. Kısacası, tekdüzelik, kaliteli eğitim verilerinin kritik bir yönüdür.
Kapsamlı
Yine, eğitim verileri asla mutlak olamaz. Ancak, modelin kullanım durumlarının çoğunu temsil eden büyük bir veri kümesi olmalıdır. Eğitim verileri, modelin uygun şekilde öğrenmesini sağlayacak yeterli örneğe sahip olmalıdır. Modeli ne bekleyeceğini anlamak için eğitmeye yardımcı olacağından, gerçek dünya veri örneklerini içermelidir.
Eğitim verilerini çok sayıda satır ve sütuna yerleştirilmiş değerler olarak düşünüyorsanız, üzgünüm, yanılıyorsunuz. Metin, resim, ses veya video gibi herhangi bir veri türü olabilir.
Eğitim veri kalitesini neler etkiler?
İnsanlar son derece sosyal yaratıklardır, ancak çocukken seçmiş olabileceğimiz ve kurtulmak için sürekli bilinçli çaba gerektiren bazı önyargılar vardır. Olumsuz olsa da, bu tür önyargılar kreasyonlarımızı etkileyebilir ve makine öğrenimi uygulamaları da farklı değildir.
ML modelleri için eğitim verileri okudukları tek kitaptır. Performansları veya doğruluğu, kitabın ne kadar kapsamlı, alakalı ve temsil edici olduğuna bağlı olacaktır.
Bununla birlikte, eğitim verilerinin kalitesini üç faktör etkiler:
Kişiler: Modeli eğiten kişilerin, modelin doğruluğu veya performansı üzerinde önemli bir etkisi vardır. Önyargılılarsa, doğal olarak verileri nasıl etiketlediklerini ve nihayetinde ML modelinin nasıl çalıştığını etkiler.
Süreçler: Veri etiketleme süreci, yerinde sıkı kalite kontrol kontrollerine sahip olmalıdır. Bu, eğitim verilerinin kalitesini önemli ölçüde artıracaktır.
Araçlar: Uyumsuz veya güncel olmayan araçlar, veri kalitesinin düşmesine neden olabilir. Sağlam veri etiketleme yazılımı kullanmak, süreçle ilişkili maliyeti ve zamanı azaltabilir.
Eğitim verileri nereden alınır
Eğitim verilerini almanın birkaç yolu vardır. Kaynak seçiminiz, makine öğrenimi projenizin ölçeğine, bütçeye ve mevcut zamana bağlı olarak değişebilir. Aşağıdakiler, veri toplamak için üç ana kaynaktır.
Açık kaynaklı eğitim verileri
Veri toplama veya etiketlemeye parası yetmeyen çoğu amatör makine öğrenimi geliştiricisi ve küçük işletme, açık kaynaklı eğitim verilerine güvenir. Zaten toplanmış ve ücretsiz olduğu için kolay bir seçim. Ancak, büyük olasılıkla bu tür veri kümelerini eğitim ihtiyaçlarınıza uyacak şekilde ayarlamanız veya yeniden açıklamanız gerekecektir. ImageNet, Kaggle ve Google Dataset Search, açık kaynaklı veri kümelerinin bazı örnekleridir.
İnternet ve IoT
Çoğu orta ölçekli şirket, internet ve IoT cihazlarını kullanarak veri toplar. Kameralar, sensörler ve diğer akıllı cihazlar, daha sonra temizlenecek ve açıklama eklenecek olan ham verilerin toplanmasına yardımcı olur. Bu veri toplama yöntemi, açık kaynaklı veri kümelerinin aksine, makine öğrenimi projenizin gereksinimlerine göre özel olarak uyarlanacaktır. Ancak, verilerin temizlenmesi, standartlaştırılması ve etiketlenmesi zaman alan ve kaynak yoğun bir süreçtir.
Yapay eğitim verileri
Adından da anlaşılacağı gibi, yapay eğitim verileri, makine öğrenme modelleri kullanılarak yapay olarak oluşturulmuş verilerdir. Aynı zamanda sentetik veri olarak da adlandırılır ve bir algoritmayı eğitmek için belirli özelliklere sahip kaliteli eğitim verilerine ihtiyacınız varsa mükemmel bir seçimdir. Tabii ki, bu yöntem büyük miktarda hesaplama kaynağı ve bol zaman gerektirecektir.
Ne kadar eğitim verisi yeterlidir?
Ne kadar eğitim verisinin yeterli eğitim verisi olduğuna dair kesin bir cevap yoktur. Bu, eğittiğiniz algoritmaya bağlıdır – beklenen sonucu, uygulaması, karmaşıklığı ve diğer birçok faktör.
"Kedi" ve "köpek" terimlerine ve bunların "kedi", "yavru kedi", "kedi kedi", "köpek yavrusu" veya "köpek" gibi eşanlamlılarına göre cümleleri kategorize eden bir metin sınıflandırıcı eğitmek istediğinizi varsayalım. . Eşleştirilecek ve sıralanacak yalnızca birkaç terim olduğundan, bu büyük bir veri kümesi gerektirmeyebilir.
Ancak bu, görüntüleri "kediler" ve "köpekler" olarak sınıflandıran bir görüntü sınıflandırıcı olsaydı, eğitim veri kümesinde ihtiyaç duyulan veri noktalarının sayısı önemli ölçüde artardı. Kısacası, hangi eğitim verisinin yeterli eğitim verisi olduğuna karar vermek için birçok faktör devreye girer.
Gerekli veri miktarı, kullanılan algoritmaya bağlı olarak değişecektir.
bağlam için, Makine öğreniminin bir alt kümesi olan derin öğrenme, yapay sinir ağlarını (YSA) eğitmek için milyonlarca veri noktası gerektirir. Buna karşılık, makine öğrenimi algoritmaları yalnızca binlerce veri noktasına ihtiyaç duyar. Ancak elbette, ihtiyaç duyulan veri miktarı uygulamaya bağlı olarak değiştiğinden, bu çok zorlama bir genellemedir.
Modeli ne kadar çok eğitirseniz, o kadar doğru olur. Bu nedenle, eğitim verisi olarak büyük miktarda veriye sahip olmak her zaman daha iyidir.
Çöp içeri çöp dışarı
"Çöp içeri, çöp dışarı" ifadesi, veri biliminde en eski ve en çok kullanılan ifadelerden biridir. Veri üretme hızı katlanarak artsa bile, bu hala geçerlidir.
Anahtar, yüksek kaliteli, temsili verileri makine öğrenimi algoritmalarına beslemektir. Bunu yapmak, modellerin doğruluğunu önemli ölçüde artırabilir. İyi kalitede eğitim verileri, tarafsız makine öğrenimi uygulamaları oluşturmak için de çok önemlidir.
İnsan benzeri zekaya sahip bilgisayarların neler yapabileceğini hiç merak ettiniz mi? İnsan zekasının bilgisayar eşdeğeri yapay genel zeka olarak bilinir ve bunun şimdiye kadarki en büyük veya en tehlikeli buluş olup olmayacağına henüz karar vermedik.

