Geniş dil modeli GDM Large Language Model LLM genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir

Geniş dil modeli - GDM (Large Language Model - LLM), genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir dil modeli türüdür. GDM'ler bu yetenekleri, eğitilmeleri sırasında milyarlarca parametreyi öğrenebilmek amacıyla niceliksel olarak çok fazla veri kullanarak kazanırlar. Bu sırada da, aşırı büyük boyutta hesaplama kaynakları tüketirler. GDM'ler, gelişmiş olarak yapay sinir ağlarıdır (temel olarak ) ve ya da yöntemleri kullanılarak (önceden) eğitilirler.

GDM'ler özbağlanımlı dil modelleri olarak, bir giriş metnini alıp bir sonraki belirteci ya da sözcüğü kezlerce tahmin ederek çalışırlar. 2020 yılına dek, bir modelin belirli görevleri yerine getirebilecek şekilde uyarlanmasının tek yolu yapmaktı. Ancak günümümzde popüler olan GPT-3 gibi daha büyük boyutlu modeller, benzer sonuçlara ulaşmak için sufle mühendisliğini kullanabilecek biçimde tasarlanmaya başladı. GDM'lerin, insan dili derleminde var olan sözdizimi, anlambilim ve "ontoloji" hakkında edinebilmenin yanı sıra, aynı zamanda bulunan yanlışlıkları ve önyargıları da edindikleri düşünülmektedir.

Kaynakça

^ . OpenAI. 14 Şubat 2019. 19 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023.
^ Merritt, Rick (25 Mart 2022). "What Is a Transformer Model?". NVIDIA Blog (İngilizce). 23 Ekim 2023 tarihinde kaynağından . Erişim tarihi: 29 Ekim 2023.
^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal (Aralık 2020). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877-1901. 25 Mayıs 2023 tarihinde kaynağından (PDF). Erişim tarihi: 29 Ekim 2023.
^ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127-138. doi:10.1162/daed_a_01905. 9 Mart 2023 tarihinde kaynağından . Erişim tarihi: 29 Ekim 2023.

[:7-1] . OpenAI. 14 Şubat 2019. 19 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Ekim 2023.

[2] Merritt, Rick (25 Mart 2022). "What Is a Transformer Model?". NVIDIA Blog (İngilizce). 23 Ekim 2023 tarihinde kaynağından . Erişim tarihi: 29 Ekim 2023.

[Bowman-3] A bot will complete this citation soon. Click here to jump the queue arXiv:[1].

[few-shot-learners-4] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal (Aralık 2020). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877-1901. 25 Mayıs 2023 tarihinde kaynağından (PDF). Erişim tarihi: 29 Ekim 2023.

[Manning-2022-5] Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127-138. doi:10.1162/daed_a_01905. 9 Mart 2023 tarihinde kaynağından . Erişim tarihi: 29 Ekim 2023.