Pekiştirmeli öğrenme, davranışçılıktan esinlenen, bir ortamda en yüksek ödül miktarına ulaşabilmesi için hangi eylemleri yapması gerektiğiyle ilgilenen bir makine öğrenmesi yaklaşımıdır. Bu problem, genelliğinden ötürü oyun kuramı, , yöneylem araştırması, bilgi kuramı, benzetim tabanlı eniyileme ve istatistik gibi birçok diğer dalda da çalışılmaktadır.
Makine öğrenmesinde, ortam genellikle bir Markov karar süreci (MKS) olarak modellenir, bu bağlamda birçok pekiştirmeli öğrenme algoritması dinamik programlama tekniklerini kullanır. Pekiştirmeli öğrenme algoritmalarının klasik tekniklerden farkı, MKS hakkında ön bilgiye ihtiyaç duymamaları ve kesin yöntemlerin verimsiz kaldığı büyük MKS'ler için kullanılmalarıdır.
Pekiştirmeli öğrenme, doğru girdi/çıktı eşleşmelerinin verilmemesi ve optimal olmayan eylemlerin dışarıdan düzeltilmemesi yönleriyle gözetimli öğrenmeden ayrışır. Dahası, pekiştirmeli öğrenmede bilinmeyen uzayda keşif (İngilizce: exploration) ile mevcut bilgiden istifade (İngilizce: exploitation) arasında bir denge kurma söz konusudur.
Giriş
Temel pekiştirmeli öğrenme modeli şunlardan oluşur:
- öznenin ve ortamın durumlarını (İngilizce: state) içeren bir kümesi;
- öznenin yapabileceği eylemleri (İngilizce: action) içeren bir kümesi;
- her durumda hangi eyleme geçileceğini belirleyen prensipler (İngilizce: policy);
- bir durum geçişinin kazandıracağı skaler anlık ödülü hesaplamak için kurallar;
- öznenin gözlemlerini betimlemek için kurallar.
Kurallar sıklıkla stokastiktir. Gözlemler genellikle son yapılan durum geçişinin kazandırdığı ödülü içerir. Birçok çalışmada öznenin mevcut ortam durumunu gözlemleyebildiği kabul edilir, yani tam gözlenebilirlik. Ancak bunun karşıtı durumlar da söz konusudur ve kısmi gözlenebilirlik olarak adlandırılır. Bazı durumlarda öznenin yapabileceği eylemler kısıtlanmıştır (örn. harcanabilecek para miktarı).
Bir pekiştirmeli öğrenme öznesi ortamla ayrık zaman adımlarında etkileşir. Her zaman adımında, özne ödülüne sahip bir gözlemi alır. Bunun üzerine müsait eylemler kümesinden bir eylemi seçer ve bu yolla ortamla etkileşir. Ortam yeni bir durumuna evrilir. Yeni durumla ilişkili ödülü de belirlenir. Bu ödül geçişine aittir. Pekiştirmeli öğrenme öznesinin amacı mümkün olduğunca fazla ödül toplamaktır. eylemlerini geçmiş durumların bir fonksiyonu olarak seçebilir, hatta eylem seçimini rassal olarak yapabilir.
Bir performansı mükemmel davranışa sahip özneninki ile karşılaştırıldığında, aralarında oluşan performans kaybı pişmanlık terimi ile ifade edilir. Mükemmel davranışa ulaşmak için, bir özne eylemlerinin uzun vadeli sonuçlarını dikkate almalıdır (gelecekteki çıkarlarını yükseltmek amacıyla). Özne bunun için kısa vadeli ödüllerden vazgeçebilmelidir.
Bu yüzden, pekiştirmeli öğrenme uzun ve kısa vadeli ödüller arasında tercih yapmayı gerektiren problemler için iyi bir yaklaşımdır. Robot kontrolü, telekomünikasyon, tavla, dama ve go (AlphaGo) gibi birçok konuda başarıyla uygulanmıştır.
Keşif
Pekiştirmeli öğrenme akıllı bir keşif mekanizmasına ihtiyaç duyar. Eylemlerin, herhangi bir olasılıksal dağılımına bağlı kalmadan, rastgele seçilmesi kötü bir performansa neden olabilir. Küçük (sonlu) Markov karar süreçleri (MKS) için keşif problemi iyi anlaşılmıştır. Ancak, büyük uzaylı Markov karar süreçleri için başarısı kanıtlanmış algoritmalar olmadığından ötürü daha basit keşif yöntemleri tercih edilmektedir.
Bu yöntemlerden biri aç gözlü hareket belirlemedir (-greedy). Bu yönteme göre ihtimalle rastgele bir eylem yapılır, ihtimalle ise uzun vadede en iyi sonucu getireceği hesaplanan eylem yapılır. Burada, ayar parametresi olarak kullanılır; arttıkça keşif eğilimi artar, azaldıkça sömürü (İngilizce: exploitation) eğilimi artar. Bu ayar parametresi belirli bir zamanlamaya göre değişebileceği gibi (keşfi yavaşça ve sürekli azaltmak), sezgisel bir şekilde de uyarlanabilir.
Derin pekiştirmeli öğrenme
Derin öğrenme ile pekiştirmeli öğrenmeyi birleştiren yaklaşımlara denir. Öğrenme sistemi diğer pekiştirmeli öğrenme yöntemleriyle aynıdır (durum, eylem, ödül vb.), ancak sistemin bazı kısımları derin yapay zeka ağları ile modellenir. Örneğin verilen bir durum-eylem ikilisine karşılık gelen ödül miktarını öğrenmek için derin öğrenme kullanılabilir. Google DeepMind tarafından geliştirilen, ATARI oyunlarını oynayan yapay zeka uygulaması olan ilgiyi artırmıştır.
Ters pekiştirmeli öğrenme
Ters pekiştirmeli öğrenmede öntanımlı bir ödül fonksiyonu yoktur. Onun yerine, bir uzmanın davranışları gözlemlenerek bir ödül fonksiyonu öğrenilir. Ana fikir mükemmel ya da mükemmele yakın olan davranışı gözlemlemek ve taklit etmektir.
Kaynakça
- ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement learning and markov decision processes". Reinforcement Learning. Springer Berlin Heidelberg. ss. 3-42. 26 Nisan 2017 tarihinde kaynağından . Erişim tarihi: 31 Ocak 2017.
- ^ ; ; (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. Cilt 4. ss. 237-285. 20 Kasım 2001 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Şubat 2017.
- ^ Alpaydın, Ethem (2011). Yapay öğrenme (1.basım bas.). İstanbul: Boğaziçi Üniversitesi Yayınevi. ISBN .
- ^ Tokic, Michel; Palm, Günther (2011). Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax"KI 2011: Advances in Artificial Intelligence" (PDF). Lecture Notes in Computer Science. Cilt 7006. Springer. ss. 335-346. ISBN . 23 Kasım 2018 tarihinde kaynağından (PDF). Erişim tarihi: 20 Aralık 2017.
- ^ Francois-Lavet, Vincent (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4). ss. 219-354. doi:10.1561/2200000071. 11 Temmuz 2019 tarihinde kaynağından . Erişim tarihi: 11 Temmuz 2019.
- ^ Mnih, Volodymyr (2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540). ss. 529-533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236.
- ^ Ng, A. Y.; Russell, S. J. (2000). Algorithms for inverse reinforcement learning. Icml. ss. 663-670.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Pekistirmeli ogrenme davranisciliktan esinlenen bir ortamda en yuksek odul miktarina ulasabilmesi icin hangi eylemleri yapmasi gerektigiyle ilgilenen bir makine ogrenmesi yaklasimidir Bu problem genelliginden oturu oyun kurami yoneylem arastirmasi bilgi kurami benzetim tabanli eniyileme ve istatistik gibi bircok diger dalda da calisilmaktadir Makine ogrenmesinde ortam genellikle bir Markov karar sureci MKS olarak modellenir bu baglamda bircok pekistirmeli ogrenme algoritmasi dinamik programlama tekniklerini kullanir Pekistirmeli ogrenme algoritmalarinin klasik tekniklerden farki MKS hakkinda on bilgiye ihtiyac duymamalari ve kesin yontemlerin verimsiz kaldigi buyuk MKS ler icin kullanilmalaridir Pekistirmeli ogrenme dogru girdi cikti eslesmelerinin verilmemesi ve optimal olmayan eylemlerin disaridan duzeltilmemesi yonleriyle gozetimli ogrenmeden ayrisir Dahasi pekistirmeli ogrenmede bilinmeyen uzayda kesif Ingilizce exploration ile mevcut bilgiden istifade Ingilizce exploitation arasinda bir denge kurma soz konusudur GirisPekistirmeli ogrenmenin isleyisi Ozne bir eylemde bulunarak cevre ile etkilesir Cevreyi gozlemleyerek yeni durumu ve elde ettigi odulleri degerlendirir Eylemler ve gozlemler bir dongu icinde birbirini takip eder Temel pekistirmeli ogrenme modeli sunlardan olusur oznenin ve ortamin durumlarini Ingilizce state iceren bir S displaystyle S kumesi oznenin yapabilecegi eylemleri Ingilizce action iceren bir A displaystyle A kumesi her durumda hangi eyleme gecilecegini belirleyen prensipler Ingilizce policy bir durum gecisinin kazandiracagi skaler anlik odulu hesaplamak icin kurallar oznenin gozlemlerini betimlemek icin kurallar Kurallar siklikla stokastiktir Gozlemler genellikle son yapilan durum gecisinin kazandirdigi odulu icerir Bircok calismada oznenin mevcut ortam durumunu gozlemleyebildigi kabul edilir yani tam gozlenebilirlik Ancak bunun karsiti durumlar da soz konusudur ve kismi gozlenebilirlik olarak adlandirilir Bazi durumlarda oznenin yapabilecegi eylemler kisitlanmistir orn harcanabilecek para miktari Bir pekistirmeli ogrenme oznesi ortamla ayrik zaman adimlarinda etkilesir Her t displaystyle t zaman adiminda ozne rt displaystyle r t odulune sahip bir ot displaystyle o t gozlemi alir Bunun uzerine musait eylemler kumesinden bir at displaystyle a t eylemi secer ve bu yolla ortamla etkilesir Ortam yeni bir st 1 displaystyle s t 1 durumuna evrilir Yeni durumla iliskili rt 1 displaystyle r t 1 odulu de belirlenir Bu odul st at st 1 displaystyle s t a t s t 1 gecisine aittir Pekistirmeli ogrenme oznesinin amaci mumkun oldugunca fazla odul toplamaktir eylemlerini gecmis durumlarin bir fonksiyonu olarak secebilir hatta eylem secimini rassal olarak yapabilir Bir performansi mukemmel davranisa sahip ozneninki ile karsilastirildiginda aralarinda olusan performans kaybi pismanlik terimi ile ifade edilir Mukemmel davranisa ulasmak icin bir ozne eylemlerinin uzun vadeli sonuclarini dikkate almalidir gelecekteki cikarlarini yukseltmek amaciyla Ozne bunun icin kisa vadeli odullerden vazgecebilmelidir Bu yuzden pekistirmeli ogrenme uzun ve kisa vadeli oduller arasinda tercih yapmayi gerektiren problemler icin iyi bir yaklasimdir Robot kontrolu telekomunikasyon tavla dama ve go AlphaGo gibi bircok konuda basariyla uygulanmistir KesifPekistirmeli ogrenme akilli bir kesif mekanizmasina ihtiyac duyar Eylemlerin herhangi bir olasiliksal dagilimina bagli kalmadan rastgele secilmesi kotu bir performansa neden olabilir Kucuk sonlu Markov karar surecleri MKS icin kesif problemi iyi anlasilmistir Ancak buyuk uzayli Markov karar surecleri icin basarisi kanitlanmis algoritmalar olmadigindan oturu daha basit kesif yontemleri tercih edilmektedir Bu yontemlerden biri ac gozlu hareket belirlemedir ϵ displaystyle epsilon greedy Bu yonteme gore ϵ displaystyle epsilon ihtimalle rastgele bir eylem yapilir 1 ϵ displaystyle 1 epsilon ihtimalle ise uzun vadede en iyi sonucu getirecegi hesaplanan eylem yapilir Burada 0 lt ϵ lt 1 displaystyle 0 lt epsilon lt 1 ayar parametresi olarak kullanilir ϵ displaystyle epsilon arttikca kesif egilimi artar ϵ displaystyle epsilon azaldikca somuru Ingilizce exploitation egilimi artar Bu ayar parametresi belirli bir zamanlamaya gore degisebilecegi gibi kesfi yavasca ve surekli azaltmak sezgisel bir sekilde de uyarlanabilir Derin pekistirmeli ogrenmeDerin ogrenme ile pekistirmeli ogrenmeyi birlestiren yaklasimlara denir Ogrenme sistemi diger pekistirmeli ogrenme yontemleriyle aynidir durum eylem odul vb ancak sistemin bazi kisimlari derin yapay zeka aglari ile modellenir Ornegin verilen bir durum eylem ikilisine karsilik gelen odul miktarini ogrenmek icin derin ogrenme kullanilabilir Google DeepMind tarafindan gelistirilen ATARI oyunlarini oynayan yapay zeka uygulamasi olan ilgiyi artirmistir Ters pekistirmeli ogrenmeTers pekistirmeli ogrenmede ontanimli bir odul fonksiyonu yoktur Onun yerine bir uzmanin davranislari gozlemlenerek bir odul fonksiyonu ogrenilir Ana fikir mukemmel ya da mukemmele yakin olan davranisi gozlemlemek ve taklit etmektir Kaynakca van Otterlo M Wiering M 2012 Reinforcement learning and markov decision processes Reinforcement Learning Springer Berlin Heidelberg ss 3 42 26 Nisan 2017 tarihinde kaynagindan Erisim tarihi 31 Ocak 2017 1996 Reinforcement Learning A Survey Journal of Artificial Intelligence Research Cilt 4 ss 237 285 20 Kasim 2001 tarihinde kaynagindan arsivlendi Erisim tarihi 1 Subat 2017 Alpaydin Ethem 2011 Yapay ogrenme 1 basim bas Istanbul Bogazici Universitesi Yayinevi ISBN 9786054238491 erisim tarihi kullanmak icin url gerekiyor yardim Tokic Michel Palm Gunther 2011 Value Difference Based Exploration Adaptive Control Between Epsilon Greedy and Softmax KI 2011 Advances in Artificial Intelligence PDF Lecture Notes in Computer Science Cilt 7006 Springer ss 335 346 ISBN 978 3 642 24455 1 23 Kasim 2018 tarihinde kaynagindan PDF Erisim tarihi 20 Aralik 2017 Francois Lavet Vincent 2018 An Introduction to Deep Reinforcement Learning Foundations and Trends in Machine Learning 11 3 4 ss 219 354 doi 10 1561 2200000071 11 Temmuz 2019 tarihinde kaynagindan Erisim tarihi 11 Temmuz 2019 Mnih Volodymyr 2015 Human level control through deep reinforcement learning Nature 518 7540 ss 529 533 Bibcode 2015Natur 518 529M doi 10 1038 nature14236 Ng A Y Russell S J 2000 Algorithms for inverse reinforcement learning Icml ss 663 670