Yapay zeka güvenliği, yapay zeka sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zeka sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zeka uyumunu kapsar ve yapay zeka güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zeka araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.
Motivasyonlar
Yapay zeka araştırmacıları, yapay zeka teknolojisinin oluşturduğu riskin ciddiyeti ve birincil kaynakları hakkında farklı görüşlere sahiptir. Yine de anketler, uzmanların yüksek sonuçlu riskleri ciddiye aldığını göstermektedir. Yapay zeka araştırmacılarıyla yapılan iki ankette, katılımcıların ortalamasının genel olarak yapay zeka konusunda iyimser olduğu, ancak gelişmiş yapay zekanın "son derece kötü (örneğin insan neslinin tükenmesi)" bir sonuca yol açma olasılığının %5 olduğu görülmüştür. 2022 yılında Doğal dil işleme (NLP) topluluğunda yapılan bir ankete katılanların %37'si, yapay zeka kararlarının "en az topyekün bir nükleer savaş kadar kötü" bir felakete yol açabileceğinin makul olduğunu kabul etmiş veya zayıf bir şekilde kabul etmiştir. Akademisyenler kritik sistem arızalarından, önyargıdan, ve yapay zeka destekli gözetimden kaynaklanan mevcut riskleri tartışmaktadır; teknolojik işsizlik, dijital manipülasyon ve silahlanmadan kaynaklanan riskler; ve gelecekteki yapay genel zekanın kontrolünü kaybetmekten kaynaklanan spekülatif riskleri göze almaktadırlar.
Bazıları, 2015'te bunları "henüz gezegene ayak basmadığımız halde Mars'ta aşırı nüfus konusunda endişelenmek" ile karşılaştıran Andrew Ng gibi yapay genel zeka ile ilgili endişeleri eleştirmiştir. Öte yandan Stuart J. Russell, Diğer taraftan Stuart J. Russell, "insan yaratıcılığını tahmin edebilmenin onu hafife almaktan daha iyi olduğunu" savunarak dikkatli olunması çağrısında bulunuyor.
Arka plan
Yapay zekadan kaynaklanan riskler bilişim çağının başlangıcında ciddi olarak tartışılmaya başlandı:
Dahası, öğrenen ve davranışları deneyimle değiştirilen makineler yapma yönünde ilerlersek, makineye verdiğimiz her bağımsızlık derecesinin, isteklerimize olası bir meydan okuma derecesi olduğu gerçeğiyle yüzleşmeliyiz.
— Norbert Wiener (1949)
2008-2009 yılları arasında Yapay Zeka Geliştirme Derneği, yapay zeka araştırma ve geliştirmesinin potansiyel uzun vadeli toplumsal etkilerini araştırmak ve ele almak üzere bir çalışma yaptırmıştır. Panel, bilim-kurgu yazarları tarafından ifade edilen radikal görüşlere genel olarak şüpheyle yaklaşmış, ancak "beklenmedik sonuçları en aza indirmek için karmaşık hesaplama sistemlerinin davranış yelpazesini anlama ve doğrulama yöntemleri konusunda ek araştırmaların değerli olacağı" konusunda hemfikir olunmuştur.
Roman Yampolskiy 2011 yılında Yapay Zeka Felsefesi ve Teorisi konferansında " Yapay Zeka güvenlik mühendisliği" terimini ortaya atmış, yapay zeka sistemlerinin önceki başarısızlıklarını sıralamış ve "yapay zekalar daha yetenekli hale geldikçe bu tür olayların sıklığı ve ciddiyetinin giderek artacağını" savunmuştur.
Filozof Nick Bostrom 2014 senesinde "Süper Zeka:Yollar, Tehlikeler, Stratejiler" adlı kitabını yayınladı. Bostrom, yapay zekanın yükselişinin, işgücünün yapay zeka tarafından yerinden edilmesinden, siyasi ve askeri yapıların manipüle edilmesine ve hatta insan neslinin tükenme olasılığına kadar çeşitli toplumsal sorunlar yaratma potansiyeline sahip olduğu görüşündedir. Gelecekteki gelişmiş sistemlerin insan varlığına tehdit oluşturabileceği yönündeki argümanı Elon Musk, Bill Gates ve Stephen Hawking'in de benzer endişeleri dile getirmesine neden olmuştur.
2015 yılında onlarca yapay zeka uzmanı, yapay zekanın toplumsal etkileri üzerine araştırma yapılması çağrısında bulunan ve somut yönergeler belirleyen bir açık mektuba imza atmıştır. Mektup bugüne kadar Yann LeCun, Shane Legg, Yoshua Bengio ve Stuart Russell'ın da aralarında bulunduğu 8000'den fazla kişi tarafından imzalandı.
Aynı yıl, profesör Stuart Russell liderliğindeki bir grup akademisyen California Berkeley Üniversitesi'nde İnsan Uyumlu Yapay Zeka Merkezi'ni kurdu ve Yaşamın Geleceği Enstitüsü "yapay zekanın güvenli, etik ve faydalı kalmasını sağlamayı" amaçlayan araştırmalar için 6,5 milyon dolar hibe desteği sağladı.
2016 yılında Beyaz Saray Bilim ve Teknoloji Politikası Ofisi ve Carnegie Mellon Üniversitesi, yapay zekanın "avantajlarını ve dezavantajlarını" araştırmayı amaçlayan dört Beyaz Saray çalıştayından biri olan Yapay Zeka için Güvenlik ve Kontrol Kamu Çalıştayı'nı duyurdu. Aynı yıl, ilk ve en etkili teknik Yapay Zeka Güvenliği gündemlerinden biri olan "Concrete Problems in AI Safety" yayınlandı.
2017 yılında Yaşamın Geleceği Enstitüsü, 100'den fazla düşünce liderinin aşağıdakiler de dahil olmak üzere faydalı yapay zeka için ilkeleri formüle ettiği Asilomar Faydalı Yapay Zeka Konferansı'na sponsor oldu. "Yarıştan Kaçınma: Yapay zeka sistemleri geliştiren ekipler, güvenlik standartlarında köşe dönmekten kaçınmak için aktif olarak işbirliği yapmalıdır."
2018 yılında DeepMind Safety ekibi, teknik özellik, sağlamlık ve güvence konularında yapay zeka güvenlik sorunlarının ana hatlarını ortaya koydu. Ertesi yıl, araştırmacılar ICLR'de bu sorun alanlarına odaklanan bir çalıştay düzenlediler.
2021 yılında, sağlamlık, izleme, hizalama ve sistemik güvenlik alanlarındaki araştırma yönlerini özetleyen "Unsolved Problems in Machine Learning Safety" yayınlandı.
Rishi Sunak, 2023 yılında Birleşik Krallık'ın "küresel yapay zeka güvenlik düzenlemesinin merkezi" olmasını ve yapay zeka güvenliği konusundaki ilk küresel zirveye ev sahipliği yapmasını istediğini söyledi.
Araştırma odağı
Yapay zeka güvenlik araştırma alanları arasında sağlamlık, izleme ve hizalama yer almaktadır.
Sağlamlık
Saldırıya karşı sağlamlık
Yapay zeka sistemleri genellikle rakip örneklere veya "bir saldırganın kasten modelin hata yapmasına neden olacak şekilde tasarladığı makine öğrenimi (ML) modellerindeki girdilere" karşı savunmasız durumdadır. Örneğin, 2013 yılında Szegedy ve arkadaşları, bir görüntüye belirli algılanamaz bozulmalar eklemenin, görüntünün yüksek güvenle yanlış sınıflandırılmasına neden olabileceğini ortaya çıkarmıştır. Bu durum sinir ağları ile ilgili bir sorun olmaya devam etmektedir, ancak son çalışmalarda bozulmalar genellikle algılanabilecek kadar büyük olmaktadır.
Sağdaki tüm görüntülerin bozulma uygulandıktan sonra devekuşu olduğu tahmin edilmektedir. Solda yapay zeka köpeği doğru tahin ediyor ama tititzlikle eklenen gürültü yüzünden yapay zeka köpeği bir devekuşu olarak sınıflandırıyor. Bu da bize dikkatli bir şekilde oluşturulmuş gürültülerin yapay zekayı yanlış sınıflandırmaya itebileceğini göstermektedir.
Saldırıya karşı sağlamlık genellikle güvenlikle ilişkilendirilir. Araştırmacılar, bir ses sinyalinin fark edilmeyecek şekilde değiştirilebileceğini ve böylece konuşmadan metne sistemlerinin bunu saldırganın seçtiği herhangi bir mesaja dönüştürebileceğini göstermiştir. Ağa izinsiz giriş ve kötü amaçlı yazılım tespit sistemleri de saldırganlara karşı dayanıklı olmalıdır çünkü saldırganlar saldırılarını bu tespit edicileri kandırmak için tasarlayabilir.
Hedefleri temsil eden modeller (ödül modelleri) de tersine dayanıklı olmalıdır. Örneğin, bir ödül modeli bir metin yanıtının ne kadar yararlı olduğunu tahmin edebilir ve bir dil modeli bu puanı en üst düzeye çıkarmak için eğitilebilir. Araştırmacılar, bir dil modelinin yeterince uzun süre eğitilmesi durumunda, daha iyi bir puan elde etmek ve amaçlanan görevde daha kötü performans göstermek için ödül modelinin zayıflıklarından yararlanacağını göstermiştir. Bu sorun, ödül modelinin düşmana karşı sağlamlığı geliştirilerek ele alınabilir. Daha genel olarak, başka bir yapay zeka sistemini değerlendirmek için kullanılan herhangi bir yapay zeka sistemi agresif olarak güvenilir olmalıdır. Bu, izleme araçlarını da içerebilir, çünkü daha yüksek bir ödül üretmek için potansiyel olarak manipüle edilebilirler.
İzleme
Belirsizliğin tahmin edilmesi
İnsan operatörlerin, özellikle tıbbi teşhis gibi yüksek riskli ortamlarda, bir yapay zeka sistemine ne kadar güvenmeleri gerektiğini ölçmeleri genellikle çok önemlidir. Makine öğrenimi modelleri genellikle olasılık çıktısı vererek güven ifade eder; bununla birlikte, özellikle ele almak üzere eğitildiklerinden farklı durumlarda genellikle aşırı güven duyarlar. Kalibrasyon araştırmaları, model olasılıklarının modelin doğru olma oranına mümkün olduğunca yakın olmasını amaçlamaktadır.
Benzer şekilde, anomali tespiti veya dağılım dışı tespiti, bir yapay zeka sisteminin olağandışı bir durumda olduğunu tespit etmeyi amaçlamaktadır. Örneğin, otonom bir araçtaki bir sensör arızalıysa veya zorlu bir araziyle karşılaşırsa, sürücüyü kontrolü ele alması veya kenara çekmesi için uyarması gerekmektedir. Anomali tespiti, basitçe anormal ve anormal olmayan girdileri ayırt etmek için bir sınıflandırıcıyı eğiterek uygulanmaktadır, ancak bir dizi ek yöntem de kullanılmaktadır.
Kötü niyetli kullanımın tespiti
Akademisyenler ve devlet kurumları, yapay zeka sistemlerinin kötü niyetli aktörlerin silah üretmesine, kamuoyunu manipüle etmesine, veya siber saldırıları otomatikleştirmesine yardımcı olmak için kullanılabileceği yönündeki endişelerini dile getirmiştir. Bu endişeler, güçlü yapay zeka araçlarını çevrimiçi olarak barındıran OpenAI gibi şirketler için mevcut bir endişe sebebidir. Kötüye kullanımı önlemek için OpenAI, kullanıcıları etkinliklerine göre işaretleyen veya kısıtlayan algılama sistemleri geliştirmiştir.
Şeffaflık
Sinir ağları sıklıkla kara kutular olarak tanımlanır; yani gerçekleştirdikleri çok sayıda hesaplama sonucunda aldıkları kararları neden aldıklarını anlamak oldukça zordur. Bu da arızaları önceden tahmin etmeyi zorlaştırmaktadır. 2018 yılında sürücüsüz bir araç, bir yayayı tespit edemeyerek ölümüne neden oldu. Yapay zeka yazılımının kara kutu niteliği nedeniyle, arızanın nedeni belirsizliğini korumaktadır.
Şeffaflığın kritik faydalarından biri açıklanabilirliktir. Bazen, örneğin iş başvurularını otomatik olarak filtrelemek veya kredi notu atamak gibi, adaleti sağlamak için bir kararın neden verildiğine dair bir açıklama yapmak yasal bir zorunluluktur.
Bir diğer faydası ise arızaların nedeninin ortaya çıkarılmasıdır. Araştırmacılar, 2020 COVID-19 pandemisinin başlangıcında, tıbbi görüntü sınıflandırıcılarının alakasız hastane etiketlerine 'dikkat ettiğini' göstermek için şeffaflık araçlarını kullandılar.
Şeffaflık yöntemleri hataları düzeltmek için de kullanılabilir. Örneğin, "Locating and Editing Factual Associations in GPT" başlıklı makalede yazarlar, Eyfel kulesinin konumuyla ilgili soruları nasıl cevapladığını belirleyen model parametrelerini tespit edebilmişlerdir. Daha sonra bu bilgiyi düzenleyerek modelin sorulara kulenin Fransa yerine Roma'da olduğuna inanıyormuş gibi yanıt vermesini sağlamışlardır. Bu durumda yazarlar bir hataya neden olmuş olsalar da, bu yöntemler potansiyel olarak hataları etkili bir şekilde düzeltmek için kullanılabilir. Model düzenleme teknikleri bilgisayarla görüntülemede de mevcuttur.
Son olarak, bazı kişiler yapay zeka sistemlerinin şeffaf olmamasının önemli bir risk unsuru olduğunu ve bu sistemlerin nasıl çalıştığının daha iyi anlaşılmasının gelecekte büyük çaplı arızaları önleyebileceğini ileri sürmüştür."İçsel" yorumlanabilirlik araştırması makine öğrenimi modellerini şeffaf olmaktan çıkarmayı amaçlamaktadır. Bu araştırmanın bir amacı, iç nöron aktivasyonlarının neyi temsil ettiğini tespit etmektir. Örneğin, araştırmacılar CLIP yapay zeka sisteminde örümcek adam kostümlü insanların görüntülerine, örümcek adam çizimlerine ve 'örümcek' kelimesine tepki veren bir nöron tanımladılar. Ayrıca bu nöronlar veya 'devreler' arasındaki bağlantıların da izah edilmesini içermektedir. Örneğin, araştırmacılar dil modellerinin bağlamlarından nasıl öğrendiklerinde rol oynayabilecek transformatör dikkatindeki örüntü eşleştirme mekanizmalarını tanımlamışlardır. "İçsel yorumlanabilirlik" sinirbilim ile mukayese edilmektedir. Her iki durumda da amaç karmaşık bir sistemde neler olup bittiğini anlamaktır, bununla birlikte makine öğrenimi araştırmacıları mükemmel ölçümler alabilme ve keyfi çıkarımlar yapabilme avantajına sahiptir.
Trojanları tespit etmek
Makine öğrenimi modelleri potansiyel olarak 'trojan' veya 'arka kapı' içerebilmektedir: bunlar kötü niyetli aktörlerin bir yapay zeka sisteminde oluşturdukları güvenlik açıklarıdır. Örneğin, trojanlı bir yüz tanıma sistemi, belirli bir mücevher parçası göründüğünde erişim izni verebilir; veya trojanlı bir otonom araç, belirli bir hareket tetikleyicisi görünene kadar normal çalışabilir. Bir saldırganın bir trojan yerleştirebilmesi için sistemin eğitim verilerine erişimi olması gerektiğini unutulmamalıdır. CLIP veya GPT-3 gibi bazı büyük modellerde halka açık internet verileriyle eğitildiklerinden bunu yapmak daha zor olmayabilir. Araştırmacılar, 3 milyon eğitim görüntüsünden sadece 300'ünü değiştirerek bir görüntü sınıflandırıcıya trojan yerleştirmeyi başardılar. Araştırmacılar, güvenlik riski oluşturmanın yanı sıra, trojanların daha iyi izleme araçlarının test edilmesi ve geliştirilmesi için somut bir ortam sağladığını ileri sürmektedir.
Sistemik güvenlik ve sosyoteknik faktörler
Ilya Sustkever hizalamanın önemi üzerine.
Yapay zeka risklerinin (ve daha genel olarak teknolojik risklerin) yanlış kullanım veya kazalar şeklinde sınıflandırılması yaygındır. Bazı akademisyenler bu bakış açısının yetersiz kaldığını öne sürmüşlerdir. Örneğin, Küba Füze Krizi açıkça bir hata ya da yanlış teknoloji kullanımı sonucu ortaya çıkmamıştır. Politika analistleri Zwetsloot ve Dafoe şöyle yazmıştır: "Kötüye kullanım ve kaza bakış açıları, bir hasara yol açan nedensellik zincirinde yalnızca son adıma odaklanma eğilimi gösterir: Yani, teknolojiyi kötüye kullanan kişiye veya istenmeyen şekilde hareket eden bir sisteme... Ancak çoğu zaman, ilgili nedensellik zinciri çok daha uzun olmaktadır." Riskler genellikle rekabet baskısı, zararların yayılması, hızlı gelişim, yüksek düzeyde belirsizlik ve yetersiz güvenlik kültürü gibi 'yapısal' veya 'sistematik' etkenlerden kaynaklanmaktadır. Güvenlik mühendisliğinin daha geniş bağlamında, 'kurumsal güvenlik kültürü' gibi yapısal faktörler popüler STAMP risk analizi çerçevesinde merkezi bir öneme sahiptir.
Yapısal bakış açısından esinlenen bazı araştırmacılar, sosyoteknik güvenlik faktörlerini iyileştirmek için makine öğrenimini kullanmanın önemini vurgulamaktadır; örneğin, siber savunma için makine öğrenimini kullanmak, kurumsal karar verme sürecini iyileştirmek ve işbirliğini kolaylaştırmak mümkündür.
Siber savunma
Bazı akademisyenler, yapay zekanın siber saldırganlar ve siber savunmacılar arasında zaten dengesiz olan oyunu daha da kötüleştireceğinden endişe duymaktadır. Bu durum 'ilk saldırı' güdülerini arttıracak olup daha agresif ve istikrarı bozucu saldırılara yol açabilecektir. Bu riski azaltmak için bazıları siber savunma konusuna daha fazla önem verilmesini önermektedir. Buna ek olarak, güçlü yapay zeka modellerinin çalınıp kötüye kullanılmasını önlemek için yazılım güvenliği de çok önemlidir.
Kurumsal karar alma mekanizmasının iyileştirilmesi
Yapay zekanın ekonomik ve askeri alanlarda ilerlemesi, benzeri görülmemiş siyasi sorunlara yol açacaktır. Bazı akademisyenler, yapay zeka yarışı dinamiklerini, az sayıda karar merciinin dikkatli kararlarının çoğu zaman istikrar ve felaket arasındaki farkı belirlediği soğuk savaş ile kıyaslamıştır. Yapay zeka araştırmacıları, yapay zeka teknolojilerinin karar verme sürecine yardımcı olmak için de kullanılabileceğini ileri sürmüşlerdir. Örneğin, araştırmacılar yapay zeka tahmin ve danışmanlık sistemleri geliştirmeye başlamıştır.
İşbirliğini kolaylaştırmak
En büyük küresel tehditlerin çoğu (nükleer savaş, iklim değişikliği, vb.) işbirliği yapmanın zor olduğu konulardır. İyi bilinen tutsak ikilemi senaryosunda olduğu gibi, bazı dinamikler, kendi çıkarları doğrultusunda en iyi şekilde hareket etseler bile, tüm oyuncular için kötü sonuçlara yol açabilmektedir. Örneğin, hiç kimse müdahale etmezse sonuçları önemli olsa bile, hiçbir tekil aktörün iklim değişikliğini ele almak için ciddi girişimleri bulunmamaktadır.
Göze çarpan bir yapay zeka işbirliği sorunu, 'dibe doğru yarıştan' sakınmaktır. Bu durumda ülkeler ya da şirketler daha yetenekli yapay zeka sistemleri kurmak için yarışırken güvenliği ihmal edecek ve bu da ilgili herkese zarar veren feci bir kazayla sonuçlanacaktır. Bu gibi durumlara ilişkin endişeler, insanlar arasında ve potansiyel olarak yapay zeka sistemleri arasında işbirliğini kolaylaştırmak için hem siyasi hem de teknik çabalara ilham vermiştir. Çoğu yapay zeka araştırması, tekil etmenlerin birbirinden ayrı görevler yerine getirecek şekilde tasarlanması konusuna odaklanmaktadır. Akademisyenler, yapay zeka sistemleri daha otonom hale geldikçe, etkileşim biçimlerini incelemenin ve şekillendirmenin önemli hale gelebileceğini belirtmişlerdir.
Büyük Dil Modellerinin Zorlukları
Son yıllarda, büyük dil modellerinin geliştirilmesi, yapay zeka güvenliği alanında eşsiz kaygılar ortaya çıkarmıştır. Araştırmacılar Bender ile Gebru ve diğerleri, bu modellerin eğitimiyle ilgili çevresel ve mali maliyetlerin altını çizerek, Transformatör modelleri için olduğu gibi eğitim süreçlerinin enerji tüketimi ve karbon ayak izinin önemli olabileceğini vurgulamışlardır. Dahası, bu modeller genellikle devasa, işlenmemiş İnternet tabanlı veri kümelerine dayanmaktadır; bu da egemen ve önyargılı bakış açılarını kodlayarak yeterince temsil edilmeyen grupları daha da ötekileştirebilir. Büyük ölçekli eğitim verileri çok geniş olsa da çeşitliliği güvence altına almaz ve genellikle ayrıcalıklı demografik grupların dünya görüşlerini yansıtarak mevcut önyargıları ve basmakalıp düşünceleri sürdüren modellere neden olmaktadır. Bu durum, bu modellerin görünüşte tutarlı ve akıcı metinler üretme eğilimi ile daha da şiddetlenmektedir; bu da kullanıcıları, " tesadüfi papağanlar" olarak tanımlanan bir fenomen olan, anlam ve niyetin olmadığı yerlerde anlam ve niyet atfetme konusunda yanlış yönlendirebilir. Dolayısıyla bu modeller toplumsal önyargıları güçlendirme, yanlış bilgi yayma ve aşırılık yanlısı propaganda ya da deepfake üretme gibi kötü niyetli amaçlarla kullanılma riski taşımaktadır. Bu zorlukların üstesinden gelmek için araştırmacılar, veri seti oluşturma ve sistem geliştirme konusunda daha dikkatli bir planlama yapılmasını savunmakta ve eşitlikçi bir teknolojik ekosisteme olumlu katkıda bulunan araştırma projelerine duyulan ihtiyacı vurgulamaktadır.
Yönetişimde
Yapay zeka yönetişimi, genel olarak yapay zeka sistemlerinin kullanımına ve geliştirilmesine rehberlik edecek normlar, standartlar ve düzenlemeler oluşturmakla ilgilenmektedir.
Araştırma
Yapay zeka güvenlik yönetişimi araştırmaları, yapay zekanın potansiyel etkilerine ilişkin temel araştırmalardan belirli uygulamalara kadar uzanmaktadır. Temelde araştırmacılar, yapay zekanın geniş uygulanabilirliği nedeniyle toplumun birçok yönünü dönüştürebileceğini savunmuş, onu elektrik ve buhar makinesiyle karşılaştırmışlardır. Bazı çalışmalar, bu etkilerden oluşabilecek belirli riskleri öngörmeye odaklanmıştır; örneğin, kitlesel işsizlik, silahlanma, dezenformasyon, gözetim, ve gücün yoğunlaşmasından kaynaklanan riskler bunlara dahildir. Diğer çalışmalar, hızla gelişen yapay zeka endüstrisini izlemenin zorluğu, yapay zeka modellerinin kullanılabilirliği, ve 'dibe doğru yarış' dinamikleri gibi altta yatan risk faktörlerini araştırmaktadır.Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 Temmuz 2019). "The Role of Cooperation in Responsible AI Development". arXiv:1907.04534 $2.</ref> DeepMind'da uzun vadeli yönetişim ve strateji başkanı olan Allan Dafoe, yarışın tehlikelerini ve potansiyel işbirliği ihtiyacını vurgulamıştır: " Yapay zeka güvenliği ve uyumu için, gelişmiş güçlü sistemler devreye sokulmadan önce yüksek derecede dikkatli olunması neredeyse gerekli ve yeterli bir koşul haline gelecektir; fakat aktörler, ilk girenlere büyük getiri sağlayacak ya da göreceli avantaj sağlayacak bir alanda rekabet ediyorlarsa, kendilerine idealin altında bir dikkat düzeyi tercih etmeleri yönünde baskı yapılacaktır." Bir araştırma akışı, yapay zeka hesap verebilirliğini değerlendirmek, yapay zeka tabanlı sistemlerin denetimlerine rehberlik etmek ve desteklemek için yaklaşımlar, çerçeveler ve metotlar geliştirmeye yoğunlaşmaktadır.
Yerel Yapay Zeka Güvenlik Önlemlerini Küresel Çözümlere Ölçeklendirmek
Yapay zeka güvenliği sorununu ele alırken, yerel ve küresel çözümler arasındaki ayrımı vurgulamak önemlidir. Yerel çözümler, bireysel yapay zeka sistemlerine odaklanarak güvenli ve faydalı olmalarını sağlarken, küresel çözümler çeşitli yetki alanlarındaki tüm yapay zeka sistemleri için güvenlik önlemleri uygulamaya çalışmaktadır. Bazı araştırmacılar yerel güvenlik önlemlerinin küresel düzeye aktarmanın gerekliliğini savunarak bu küresel çözümler için ayrı bir sınıflandırma önermektedir. Bu yaklaşım, hiçbir kuruluşun yapay zeka teknolojileriyle ilişkili riskleri etkili bir şekilde yönetemeyeceğini belirterek, yapay zeka güvenliğinin uluslararası yönetişiminde işbirliğine dayalı çabaların önemini ortaya koymaktadır. Bu bakış açısı, dünya çapında gelişmiş yapay zeka sistemlerinin ortaya çıkardığı karmaşık zorlukların üstesinden gelmeyi amaçlayan uluslararası politika oluşturma ve düzenleyici çerçevelerde devam eden çabalarla uyumludur.
Hükümet eylemleri
Bazı uzmanlar, düzenlemelerin yeniliği engelleyeceği ve "cehalet içinde düzenleme yapmak için acele etmenin" aptallık olacağı yönündeki endişelerini ifade ederek, yapay zekayı düzenlemek için henüz çok erken olduğunu belirtmiştir. İş adamı Elon Musk, felaket risklerini azaltmak için önleyici eylem konusunda çağrıda bulmaktadır.
Resmi mevzuatın dışında, devlet kurumları etik ve güvenlik önerileri ortaya koymuştur. Mart 2021'de ABD Yapay Zeka Ulusal Güvenlik Komisyonu, yapay zekadaki gelişmelerin "sistemlerin güvenlik, sağlamlık ve güvenilirlik dahil olmak üzere hedef ve değerlerle uyumlu olmasını sağlamayı" gittikçe daha önemli hale getireceğini rapor etmiştir. Daha sonra, Ulusal Standartlar ve Teknoloji Enstitüsü, "yıkıcı riskler mevcut olduğu zaman riskler yeterince yönetilene kadar geliştirme ve dağıtım güvenli bir şekilde durdurulmalıdır" tavsiyesinde bulunan Yapay Zeka Riskini yönetmeye yönelik bir taslak hazırlamıştır.
Eylül 2021'de Çin Halk Cumhuriyeti, yapay zeka kararlarının insan kontrolü altında kalması gerektiğini vurgulayarak ve hesap verebilirlik mekanizmaları çağrısında bulunarak Çin'de yapay zeka kullanımına yönelik etik yönergeleri yayınladı. Aynı ay, Birleşik Krallık 10 yıllık Ulusal Yapay Zeka Stratejisini yayınladı; bu stratejide İngiliz hükûmetinin "bağlantısız Yapay Genel Zekanın uzun vadede oluşturduğu riski ve bunun anlamına geleceği öngörülemeyen değişiklikleri" belirtiyor. Strateji, yıkıcı riskler de dahil olmak üzere uzun vadeli yapay zeka risklerini değerlendirmeye yönelik eylemleri açıklamaktadır. İngiliz hükûmeti yapay zeka güvenliği konusunda ilk büyük küresel zirveyi düzenledi. Bu zirve 1 ve 2 Kasım 2023 tarihlerinde gerçekleşti ve "politika yapıcıların ve dünya liderlerinin yapay zekanın mevcut ve gelecekteki risklerini ve bu risklerin küresel olarak koordine edilmiş bir yaklaşımla nasıl azaltılabileceğini değerlendirmeleri için bir fırsat" şeklinde nitelendirildi.
Özellikle Amerika Birleşik Devletleri'ndeki hükûmet kuruluşları da teknik yapay zeka güvenlik araştırmalarının geliştirilmesini desteklemiştir. İstihbarat İleri Araştırma Projeleri Faaliyeti, yapay zeka sistemlerine yönelik Trojan saldırılarını tespit etmek ve bunlara karşı koruma sağlamak amacıyla TrojAI projesini başlatmıştır.DARPA, açıklanabilir yapay zeka ve düşman saldırılarına karşı sağlamlığın artırılması üzerine araştırmalar yapmaktadır.Ulusal Bilim Vakfı da Güvenilir Makine Öğrenimi Merkezi'ni destekliyor ve deneysel yapay zeka güvenlik araştırmaları için milyonlarca dolar fon ayırıyor.
Kurumsal regülasyonlar
Yapay zeka laboratuvarları ve şirketleri genellikle resmi mevzuatın dışında kalan güvenlik uygulamalarına veya kurallarına uymaktadır. Yönetişim araştırmacılarının bir amacı da bu standartları şekillendirmektir. Literatürde bulunan güvenlik tavsiyelerine örnek olarak üçüncü taraf denetimi, hataların bulunması için ödüller sunulması, yapay zeka olaylarının paylaşılması yönergelerin takip edilmesi. araştırma veya modellerin yayınlanıp yayınlanmayacağına karar vermek, ve yapay zeka laboratuvarlarında bilgi ve siber güvenliği iyileştirmek yer almaktadır.
Şirketler de bazı taahhütlerde bulundu. Cohere, OpenAI ve AI21, kötüye kullanımı azaltan "dil modellerinin dağıtımına yönelik en iyi uygulamalar" önerisinde bulundu ve üzerinde anlaşmaya vardı. OpenAI, yarış dinamiklerine katkıda bulunmaktan kaçınmak için tüzüğünde "eğer değerlerle uyumlu, güvenlik bilincine sahip bir proje bizden önce Yapay Genel Zeka'yı inşa etmeye yaklaşırsa, bu projeyle rekabet etmeyi bırakıp ona yardımcı olmaya başlayacağımızı beyan ediyoruz" ifadesine yer vermiştir. Ayrıca, DeepMind CEO'su Demis Hassabis, Facebook Yapay Zeka Direktörü Yann LeCun gibi sektör liderleri Asilomar İlkeleri ve Otonom Silahlar Açık Mektubu gibi açık mektuplara imza atmışlardır.
Kaynakça
- ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
- ^ "'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune (İngilizce). 25 Mayıs 2023 tarihinde kaynağından . Erişim tarihi: 10 Haziran 2023.
- ^ a b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 Temmuz 2018). . Journal of Artificial Intelligence Research. 62: 729-754. doi:10.1613/jair.1.11222. ISSN 1076-9757. 10 Şubat 2023 tarihinde kaynağından arşivlendi.
- ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 Mayıs 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. 71. arXiv:2105.02117 $2. doi:10.1613/jair.1.12895.
- ^ Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 Ağustos 2022). . AI Impacts. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman (26 Ağustos 2022). "What Do NLP Researchers Believe? Results of the NLP Community Metasurvey". Association for Computational Linguistics. arXiv:2208.12852 $2.
- ^ Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD tez). Carnegie Mellon University. 13 Mayıs 2020.
- ^ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). . ACM Computing Surveys (İngilizce). 54 (6): 1-35. arXiv:1908.09635 $2. doi:10.1145/3457607. ISSN 0360-0300. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
- ^ Feldstein, Steven (2019). The Global Expansion of AI Surveillance. Carnegie Endowment for International Peace.
- ^ Barnes, Beth (2021). . Lesswrong. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ a b c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson (30 Nisan 2018). . Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
- ^ Carlsmith, Joseph (16 Haziran 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 $2.
- ^ "AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com" (İngilizce). 4 Nisan 2023. 15 Temmuz 2023 tarihinde kaynağından . Erişim tarihi: 23 Temmuz 2023.
- ^ Dafoe, Allan (2016). . MIT Technology Review. 28 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
- ^ (20 Mayıs 2013). "In 1949, He Imagined an Age of Robots". The New York Times. ISSN 0362-4331. 23 Kasım 2022 tarihinde kaynağından . Erişim tarihi: 23 Kasım 2022.
- ^ Association for the Advancement of Artificial Intelligence. . 1 Eylül 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ . 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Yampolskiy, Roman V.; Spellchecker, M. S. (25 Ekim 2016). "Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures". arXiv:1610.07997 $2.
- ^ Yampolskiy, Roman V. (2013), Müller, Vincent C. (Ed.), , Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin; Heidelberg, Almanya: Springer Berlin Heidelberg, 5, ss. 389-396, doi:10.1007/978-3-642-31674-6_29, ISBN , 15 Mart 2023 tarihinde kaynağından arşivlendi, erişim tarihi: 23 Kasım 2022
- ^ McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 Temmuz 2023). "The risks associated with Artificial General Intelligence: A systematic review". Journal of Experimental & Theoretical Artificial Intelligence (İngilizce). 35 (5): 649-663. doi:10.1080/0952813X.2021.1964003. ISSN 0952-813X.
- ^ Kuo, Kaiser (31 Mart 2015). . Etkinlik zamanı: 55:49. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Cellan-Jones, Rory (2 Aralık 2014). . BBC News. 30 Ekim 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Future of Life Institute. . Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Future of Life Institute (October 2016). . Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ . 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Bach, Deborah (2016). . UW News. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 Temmuz 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 $2.
- ^ a b Future of Life Institute. . Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ a b Research, DeepMind Safety (27 Eylül 2018). . Medium. 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ . 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ a b c d e Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 Haziran 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 $2.
- ^ Browne, Ryan (12 Haziran 2023). "British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley". CNBC (İngilizce). 27 Temmuz 2023 tarihinde kaynağından . Erişim tarihi: 25 Haziran 2023.
- ^ Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 Şubat 2017). . OpenAI. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ a b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 Şubat 2014). "Intriguing properties of neural networks". ICLR. arXiv:1312.6199 $2.
- ^ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 Şubat 2017). "Adversarial examples in the physical world". ICLR. arXiv:1607.02533 $2.
- ^ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 Eylül 2019). "Towards Deep Learning Models Resistant to Adversarial Attacks". ICLR. arXiv:1706.06083 $2.
- ^ Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 Mart 2018). "Adversarial Logit Pairing". arXiv:1803.06373 $2.
- ^ Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 Temmuz 2018). "Motivating the Rules of the Game for Adversarial Example Research". arXiv:1807.06732 $2.
- ^ Carlini, Nicholas; Wagner, David (29 Mart 2018). "Audio Adversarial Examples: Targeted Attacks on Speech-to-Text". IEEE Security and Privacy Workshops. arXiv:1801.01944 $2.
- ^ Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 Eylül 2022). "Adversarial Examples in Constrained Domains". arXiv:2011.01183 $2.
- ^ Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 Nisan 2019). "Exploring Adversarial Examples in Malware Detection". IEEE Security and Privacy Workshops. arXiv:1810.08280 $2.
- ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman (4 Mart 2022). "Training language models to follow instructions with human feedback". NeurIPS. arXiv:2203.02155 $2.
- ^ Gao, Leo; Schulman, John; Hilton, Jacob (19 Ekim 2022). "Scaling Laws for Reward Model Overoptimization". ICML. arXiv:2210.10760 $2.
- ^ Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 Ekim 2021). "RoMA: Robust Model Adaptation for Offline Model-based Optimization". NeurIPS. arXiv:2110.14188 $2.
- ^ a b Hendrycks, Dan; Mazeika, Mantas (20 Eylül 2022). "X-Risk Analysis for AI Research". arXiv:2206.05862 $2.
- ^ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). "Deep learning in cancer diagnosis, prognosis and treatment selection". Genome Medicine (İngilizce). 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. (PMC) 8477474 $2. (PMID) 34579788.
- ^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 Ağustos 2017). "On calibration of modern neural networks". Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research. 70. PMLR. ss. 1321-1330.
- ^ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 Aralık 2019). "Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift". NeurIPS. arXiv:1906.02530 $2.
- ^ Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). "Description of Corner Cases in Automated Driving: Goals and Challenges". 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). ss. 1023-1028. doi:10.1109/ICCVW54120.2021.00119. ISBN .
- ^ Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 Ocak 2019). "Deep Anomaly Detection with Outlier Exposure". ICLR. arXiv:1812.04606 $2.
- ^ Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 Mart 2022). "ViM: Out-Of-Distribution with Virtual-logit Matching". CVPR. arXiv:2203.10807 $2.
- ^ Hendrycks, Dan; Gimpel, Kevin (3 Ekim 2018). "A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks". ICLR. arXiv:1610.02136 $2.
- ^ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). "Dual use of artificial-intelligence-powered drug discovery". Nature Machine Intelligence (İngilizce). 4 (3): 189-191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. (PMC) 9544280 $2. (PMID) 36211133.
- ^ Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). . doi:10.51593/2021ca003. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ . VentureBeat. 14 Aralık 2021. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). . Center for Security and Emerging Technology. doi:10.51593/2020ca002. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ . OpenAI. 3 Mart 2022. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 Ağustos 2022). . OpenAI. 11 Ocak 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ a b Savage, Neil (29 Mart 2022). . Nature. doi:10.1038/d41586-022-00858-1. (PMID) 35352042. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). . doi:10.51593/20190042. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ McFarland, Matt (19 Mart 2018). . CNNMoney. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ a b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller (20 Aralık 2019). "Accountability of AI Under the Law: The Role of Explanation". arXiv:1711.01134 $2.
- ^ Fong, Ruth; Vedaldi, Andrea (2017). "Interpretable Explanations of Black Boxes by Meaningful Perturbation". 2017 IEEE International Conference on Computer Vision (ICCV). ss. 3449-3457. doi:10.1109/ICCV.2017.371. ISBN .
- ^ Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). "Locating and editing factual associations in GPT". Advances in Neural Information Processing Systems. 35. arXiv:2202.05262 $2.
- ^ Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 Temmuz 2020). "Rewriting a Deep Generative Model". ECCV. arXiv:2007.15646 $2.
- ^ Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 Eylül 2022). "Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks". IEEE SaTML. arXiv:2207.13243 $2.
- ^ Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 Nisan 2017). "Network Dissection: Quantifying Interpretability of Deep Visual Representations". CVPR. arXiv:1704.05796 $2.
- ^ McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 Kasım 2022). "Acquisition of chess knowledge in AlphaZero". Proceedings of the National Academy of Sciences (İngilizce). 119 (47): e2206625119. arXiv:2111.09259 $2. doi:10.1073/pnas.2206625119. ISSN 0027-8424. (PMC) 9704706 $2. (PMID) 36375061.
- ^ Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). "Zoom in: An introduction to circuits". Distill. 5 (3). doi:10.23915/distill.00024.001.
- ^ Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). . Distill. 6 (1). doi:10.23915/distill.00024.006. 5 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Aralık 2022.
- ^ Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly (2022). "In-context learning and induction heads". Transformer Circuits Thread. arXiv:2209.11895 $2.
- ^ Olah, Christopher. . 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 Mart 2019). "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain". arXiv:1708.06733 $2.
- ^ Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 Aralık 2017). "Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning". arXiv:1712.05526 $2.
- ^ Carlini, Nicholas; Terzis, Andreas (28 Mart 2022). "Poisoning and Backdooring Contrastive Learning". ICLR. arXiv:2106.09667 $2.
- ^ Ilya: the AI scientist shaping the world. The Guardian. 2 Kasım 2023. 18 Ocak 2024 tarihinde kaynağından . Erişim tarihi: 19 Ocak 2024.
- ^ a b c d Zwetsloot, Remco; Dafoe, Allan (11 Şubat 2019). . Lawfare. 19 Ağustos 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). . Safety Science (İngilizce). 152: 105596. doi:10.1016/j.ssci.2021.105596. 15 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
- ^ Center for Security and Emerging Technology; Hoffman, Wyatt (2021). . CSET Issue Brief. doi:10.51593/2020ca007. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). . doi:10.51593/20190051. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ a b Future of Life Institute (27 Mart 2019). . Etkinlik zamanı: 22:05. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
- ^ Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 Ekim 2022). "Forecasting Future World Events with Neural Networks". NeurIPS. arXiv:2206.15474 $2.
- ^ Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 Şubat 2022). "Augmenting Decision Making via Interactive What-If Analysis". Conference on Innovative Data Systems Research. arXiv:2109.06160 $2.
- ^ Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (Ed.), "Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited", NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (İngilizce), The Hague: T.M.C. Asser Press, ss. 421-436, doi:10.1007/978-94-6265-419-8_22, ISBN
- ^ a b Newkirk II, Vann R. (21 Nisan 2016). . The Atlantic. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ a b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development. Future of Humanity Institute, Oxford University.
- ^ a b Dafoe, Allan. AI Governance: A Research Agenda. Centre for the Governance of AI, Future of Humanity Institute, University of Oxford.
- ^ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 Aralık 2020). "Open Problems in Cooperative AI". NeurIPS. arXiv:2012.08630 $2.
- ^ a b Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). . Nature. 593 (7857): 33-36. doi:10.1038/d41586-021-01170-0. (PMID) 33947992. 22 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Bender, E.M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623. https://doi.org/10.1145/3442188.3445922.
- ^ Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. arXiv preprint arXiv:1906.02243.
- ^ Schwartz, R., Dodge, J., Smith, N.A., & Etzioni, O. (2020). Green AI. Communications of the ACM, 63(12), 54-63. https://doi.org/10.1145/3442188.3445922.
- ^ Crafts, Nicholas (23 Eylül 2021). . Oxford Review of Economic Policy (İngilizce). 37 (3): 521-536. doi:10.1093/oxrep/grab012. ISSN 0266-903X. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 Aralık 2020). "Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review". 臺灣東亞文明研究學刊 (İngilizce). 17 (2). doi:10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243.
- ^ Johnson, James (3 Nisan 2019). . Defense & Security Analysis (İngilizce). 35 (2): 147-169. doi:10.1080/14751798.2019.1600800. ISSN 1475-1798. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
- ^ Kertysova, Katarina (12 Aralık 2018). . Security and Human Rights. 29 (1–4): 55-81. doi:10.1163/18750230-02901005. ISSN 1874-7337. 24 Kasım 2022 tarihinde kaynağından arşivlendi.
- ^ Feldstein, Steven (2019). The Global Expansion of AI Surveillance. Carnegie Endowment for International Peace.
- ^ Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019). (İngilizce). Chicago, Illinois. ISBN . OCLC 1099435014. 15 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
- ^ Whittlestone, Jess; Clark, Jack (31 Ağustos 2021). "Why and How Governments Should Monitor AI Development". arXiv:2108.12427 $2.
- ^ a b Shevlane, Toby (2022). . Center for the Governance of AI. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Gursoy, Furkan; Kakadiaris, Ioannis A. (31 Ağustos 2022), System Cards for AI-Based Decision-Making for Public Policy, arXiv:2203.04754 $2
- ^ Cobbe, Jennifer; Lee, Michelle Seng Ah; Singh, Jatinder (1 Mart 2021). "Reviewable Automated Decision-Making: A Framework for Accountable Algorithmic Systems". Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. FAccT '21. New York, NY, USA: Association for Computing Machinery. ss. 598-609. doi:10.1145/3442188.3445921. ISBN .
- ^ Raji, Inioluwa Deborah; Smart, Andrew; White, Rebecca N.; Mitchell, Margaret; Gebru, Timnit; Hutchinson, Ben; Smith-Loud, Jamila; Theron, Daniel; Barnes, Parker (27 Ocak 2020). "Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing". Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. FAT* '20. New York, NY, USA: Association for Computing Machinery. ss. 33-44. doi:10.1145/3351095.3372873. ISBN .
- ^ Turchin, Alexey; Dench, David; Green, Brian Patrick (2019). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (16): 1-25. doi:10.3390/bdcc3010016.
- ^ Ziegler, Bart (8 Nisan 2022). "Is It Time to Regulate AI?". Wall Street Journal.
- ^ Smith, John (15 Mayıs 2022). "Global Governance of Artificial Intelligence: Opportunities and Challenges". The Guardian.
- ^ Ziegler, Bart (8 Nisan 2022). . Wall Street Journal. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Reed, Chris (13 Eylül 2018). "How should we regulate artificial intelligence?". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (İngilizce). 376 (2128): 20170360. doi:10.1098/rsta.2017.0360. ISSN 1364-503X. (PMC) 6107539 $2. (PMID) 30082306.
- ^ Belton, Keith B. (7 Mart 2019). . IndustryWeek. 29 Ocak 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ National Security Commission on Artificial Intelligence (2021), Final Report
- ^ National Institute of Standards and Technology (12 Temmuz 2021). . NIST. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Richardson, Tim (2021). . 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ a b . GOV.UK. 2021. 10 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Hardcastle, Kimberley (23 Ağustos 2023). "We're talking about AI a lot right now – and it's not a moment too soon". The Conversation (İngilizce). 31 Ekim 2023 tarihinde kaynağından . Erişim tarihi: 31 Ekim 2023.
- ^ "Iconic Bletchley Park to host UK AI Safety Summit in early November". GOV.UK (İngilizce). 1 Kasım 2023 tarihinde kaynağından . Erişim tarihi: 31 Ekim 2023.
- ^ Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. . 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Turek, Matt. . 19 Şubat 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Draper, Bruce. . Defense Advanced Research Projects Agency. 9 Ocak 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ National Science Foundation (23 Şubat 2023). . 26 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 27 Şubat 2023.
- ^ Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). "Defining organizational AI governance". AI and Ethics (İngilizce). 2 (4): 603-609. doi:10.1007/s43681-022-00143-x. ISSN 2730-5953.
- ^ a b c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj (20 Nisan 2020). "Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims". arXiv:2004.07213 $2.
- ^ . 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Wiblin, Robert; Harris, Keiran (2022). . 80,000 Hours. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ OpenAI (2 Haziran 2022). . OpenAI. 15 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ OpenAI. . OpenAI. 4 Mart 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
- ^ Future of Life Institute (2016). "Autonomous Weapons Open Letter: AI & Robotics Researchers". Future of Life Institute. 22 Eylül 2023 tarihinde kaynağından . Erişim tarihi: 24 Kasım 2022.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Yapay zeka guvenligi yapay zeka sistemlerinden kaynaklanabilecek kazalari kotuye kullanimi veya diger zararli sonuclari onlemekle ilgilenen disiplinler arasi bir alandir Yapay zeka sistemlerini ahlaki ve faydali hale getirmeyi amaclayan makine etigi ile yapay zeka uyumunu kapsar ve yapay zeka guvenligi riskler icin sistemleri izlemek ve onlari son derece guvenilir hale getirmek gibi teknik sorunlari kapsar Yapay zeka arastirmalarinin otesinde guvenligi tesvik eden normlar ve politikalar gelistirmeyi icerir MotivasyonlarGelismis ve yanlis hizalanmis bir yapay zekanin daha fazla guc elde etmeye calisabilecegi bazi yollar Guc arayisi davranislari ortaya cikabilir cunku guc neredeyse her amaca ulasmak icin yararlidir Yapay zeka arastirmacilari yapay zeka teknolojisinin olusturdugu riskin ciddiyeti ve birincil kaynaklari hakkinda farkli goruslere sahiptir Yine de anketler uzmanlarin yuksek sonuclu riskleri ciddiye aldigini gostermektedir Yapay zeka arastirmacilariyla yapilan iki ankette katilimcilarin ortalamasinin genel olarak yapay zeka konusunda iyimser oldugu ancak gelismis yapay zekanin son derece kotu ornegin insan neslinin tukenmesi bir sonuca yol acma olasiliginin 5 oldugu gorulmustur 2022 yilinda Dogal dil isleme NLP toplulugunda yapilan bir ankete katilanlarin 37 si yapay zeka kararlarinin en az topyekun bir nukleer savas kadar kotu bir felakete yol acabileceginin makul oldugunu kabul etmis veya zayif bir sekilde kabul etmistir Akademisyenler kritik sistem arizalarindan onyargidan ve yapay zeka destekli gozetimden kaynaklanan mevcut riskleri tartismaktadir teknolojik issizlik dijital manipulasyon ve silahlanmadan kaynaklanan riskler ve gelecekteki yapay genel zekanin kontrolunu kaybetmekten kaynaklanan spekulatif riskleri goze almaktadirlar Bazilari 2015 te bunlari henuz gezegene ayak basmadigimiz halde Mars ta asiri nufus konusunda endiselenmek ile karsilastiran Andrew Ng gibi yapay genel zeka ile ilgili endiseleri elestirmistir Ote yandan Stuart J Russell Diger taraftan Stuart J Russell insan yaraticiligini tahmin edebilmenin onu hafife almaktan daha iyi oldugunu savunarak dikkatli olunmasi cagrisinda bulunuyor Arka planYapay zekadan kaynaklanan riskler bilisim caginin baslangicinda ciddi olarak tartisilmaya baslandi Dahasi ogrenen ve davranislari deneyimle degistirilen makineler yapma yonunde ilerlersek makineye verdigimiz her bagimsizlik derecesinin isteklerimize olasi bir meydan okuma derecesi oldugu gercegiyle yuzlesmeliyiz Norbert Wiener 1949 2008 2009 yillari arasinda Yapay Zeka Gelistirme Dernegi yapay zeka arastirma ve gelistirmesinin potansiyel uzun vadeli toplumsal etkilerini arastirmak ve ele almak uzere bir calisma yaptirmistir Panel bilim kurgu yazarlari tarafindan ifade edilen radikal goruslere genel olarak supheyle yaklasmis ancak beklenmedik sonuclari en aza indirmek icin karmasik hesaplama sistemlerinin davranis yelpazesini anlama ve dogrulama yontemleri konusunda ek arastirmalarin degerli olacagi konusunda hemfikir olunmustur Roman Yampolskiy 2011 yilinda Yapay Zeka Felsefesi ve Teorisi konferansinda Yapay Zeka guvenlik muhendisligi terimini ortaya atmis yapay zeka sistemlerinin onceki basarisizliklarini siralamis ve yapay zekalar daha yetenekli hale geldikce bu tur olaylarin sikligi ve ciddiyetinin giderek artacagini savunmustur Filozof Nick Bostrom 2014 senesinde Super Zeka Yollar Tehlikeler Stratejiler adli kitabini yayinladi Bostrom yapay zekanin yukselisinin isgucunun yapay zeka tarafindan yerinden edilmesinden siyasi ve askeri yapilarin manipule edilmesine ve hatta insan neslinin tukenme olasiligina kadar cesitli toplumsal sorunlar yaratma potansiyeline sahip oldugu gorusundedir Gelecekteki gelismis sistemlerin insan varligina tehdit olusturabilecegi yonundeki argumani Elon Musk Bill Gates ve Stephen Hawking in de benzer endiseleri dile getirmesine neden olmustur 2015 yilinda onlarca yapay zeka uzmani yapay zekanin toplumsal etkileri uzerine arastirma yapilmasi cagrisinda bulunan ve somut yonergeler belirleyen bir acik mektuba imza atmistir Mektup bugune kadar Yann LeCun Shane Legg Yoshua Bengio ve Stuart Russell in da aralarinda bulundugu 8000 den fazla kisi tarafindan imzalandi Ayni yil profesor Stuart Russell liderligindeki bir grup akademisyen California Berkeley Universitesi nde Insan Uyumlu Yapay Zeka Merkezi ni kurdu ve Yasamin Gelecegi Enstitusu yapay zekanin guvenli etik ve faydali kalmasini saglamayi amaclayan arastirmalar icin 6 5 milyon dolar hibe destegi sagladi 2016 yilinda Beyaz Saray Bilim ve Teknoloji Politikasi Ofisi ve Carnegie Mellon Universitesi yapay zekanin avantajlarini ve dezavantajlarini arastirmayi amaclayan dort Beyaz Saray calistayindan biri olan Yapay Zeka icin Guvenlik ve Kontrol Kamu Calistayi ni duyurdu Ayni yil ilk ve en etkili teknik Yapay Zeka Guvenligi gundemlerinden biri olan Concrete Problems in AI Safety yayinlandi 2017 yilinda Yasamin Gelecegi Enstitusu 100 den fazla dusunce liderinin asagidakiler de dahil olmak uzere faydali yapay zeka icin ilkeleri formule ettigi Asilomar Faydali Yapay Zeka Konferansi na sponsor oldu Yaristan Kacinma Yapay zeka sistemleri gelistiren ekipler guvenlik standartlarinda kose donmekten kacinmak icin aktif olarak isbirligi yapmalidir 2018 yilinda DeepMind Safety ekibi teknik ozellik saglamlik ve guvence konularinda yapay zeka guvenlik sorunlarinin ana hatlarini ortaya koydu Ertesi yil arastirmacilar ICLR de bu sorun alanlarina odaklanan bir calistay duzenlediler 2021 yilinda saglamlik izleme hizalama ve sistemik guvenlik alanlarindaki arastirma yonlerini ozetleyen Unsolved Problems in Machine Learning Safety yayinlandi Rishi Sunak 2023 yilinda Birlesik Krallik in kuresel yapay zeka guvenlik duzenlemesinin merkezi olmasini ve yapay zeka guvenligi konusundaki ilk kuresel zirveye ev sahipligi yapmasini istedigini soyledi Arastirma odagiYapay zeka guvenlik arastirma alanlari arasinda saglamlik izleme ve hizalama yer almaktadir Saglamlik Saldiriya karsi saglamlik Yapay zeka sistemleri genellikle rakip orneklere veya bir saldirganin kasten modelin hata yapmasina neden olacak sekilde tasarladigi makine ogrenimi ML modellerindeki girdilere karsi savunmasiz durumdadir Ornegin 2013 yilinda Szegedy ve arkadaslari bir goruntuye belirli algilanamaz bozulmalar eklemenin goruntunun yuksek guvenle yanlis siniflandirilmasina neden olabilecegini ortaya cikarmistir Bu durum sinir aglari ile ilgili bir sorun olmaya devam etmektedir ancak son calismalarda bozulmalar genellikle algilanabilecek kadar buyuk olmaktadir Bir goruntuye titizlikle uretilmis gurultu eklenerek yuksek guvenilirlikle yanlis siniflandirilmasina neden olunabilir Sagdaki tum goruntulerin bozulma uygulandiktan sonra devekusu oldugu tahmin edilmektedir Solda yapay zeka kopegi dogru tahin ediyor ama tititzlikle eklenen gurultu yuzunden yapay zeka kopegi bir devekusu olarak siniflandiriyor Bu da bize dikkatli bir sekilde olusturulmus gurultulerin yapay zekayi yanlis siniflandirmaya itebilecegini gostermektedir Saldiriya karsi saglamlik genellikle guvenlikle iliskilendirilir Arastirmacilar bir ses sinyalinin fark edilmeyecek sekilde degistirilebilecegini ve boylece konusmadan metne sistemlerinin bunu saldirganin sectigi herhangi bir mesaja donusturebilecegini gostermistir Aga izinsiz giris ve kotu amacli yazilim tespit sistemleri de saldirganlara karsi dayanikli olmalidir cunku saldirganlar saldirilarini bu tespit edicileri kandirmak icin tasarlayabilir Hedefleri temsil eden modeller odul modelleri de tersine dayanikli olmalidir Ornegin bir odul modeli bir metin yanitinin ne kadar yararli oldugunu tahmin edebilir ve bir dil modeli bu puani en ust duzeye cikarmak icin egitilebilir Arastirmacilar bir dil modelinin yeterince uzun sure egitilmesi durumunda daha iyi bir puan elde etmek ve amaclanan gorevde daha kotu performans gostermek icin odul modelinin zayifliklarindan yararlanacagini gostermistir Bu sorun odul modelinin dusmana karsi saglamligi gelistirilerek ele alinabilir Daha genel olarak baska bir yapay zeka sistemini degerlendirmek icin kullanilan herhangi bir yapay zeka sistemi agresif olarak guvenilir olmalidir Bu izleme araclarini da icerebilir cunku daha yuksek bir odul uretmek icin potansiyel olarak manipule edilebilirler Izleme Belirsizligin tahmin edilmesi Insan operatorlerin ozellikle tibbi teshis gibi yuksek riskli ortamlarda bir yapay zeka sistemine ne kadar guvenmeleri gerektigini olcmeleri genellikle cok onemlidir Makine ogrenimi modelleri genellikle olasilik ciktisi vererek guven ifade eder bununla birlikte ozellikle ele almak uzere egitildiklerinden farkli durumlarda genellikle asiri guven duyarlar Kalibrasyon arastirmalari model olasiliklarinin modelin dogru olma oranina mumkun oldugunca yakin olmasini amaclamaktadir Benzer sekilde anomali tespiti veya dagilim disi tespiti bir yapay zeka sisteminin olagandisi bir durumda oldugunu tespit etmeyi amaclamaktadir Ornegin otonom bir aractaki bir sensor arizaliysa veya zorlu bir araziyle karsilasirsa surucuyu kontrolu ele almasi veya kenara cekmesi icin uyarmasi gerekmektedir Anomali tespiti basitce anormal ve anormal olmayan girdileri ayirt etmek icin bir siniflandiriciyi egiterek uygulanmaktadir ancak bir dizi ek yontem de kullanilmaktadir Kotu niyetli kullanimin tespiti Akademisyenler ve devlet kurumlari yapay zeka sistemlerinin kotu niyetli aktorlerin silah uretmesine kamuoyunu manipule etmesine veya siber saldirilari otomatiklestirmesine yardimci olmak icin kullanilabilecegi yonundeki endiselerini dile getirmistir Bu endiseler guclu yapay zeka araclarini cevrimici olarak barindiran OpenAI gibi sirketler icin mevcut bir endise sebebidir Kotuye kullanimi onlemek icin OpenAI kullanicilari etkinliklerine gore isaretleyen veya kisitlayan algilama sistemleri gelistirmistir Seffaflik Sinir aglari siklikla kara kutular olarak tanimlanir yani gerceklestirdikleri cok sayida hesaplama sonucunda aldiklari kararlari neden aldiklarini anlamak oldukca zordur Bu da arizalari onceden tahmin etmeyi zorlastirmaktadir 2018 yilinda surucusuz bir arac bir yayayi tespit edemeyerek olumune neden oldu Yapay zeka yaziliminin kara kutu niteligi nedeniyle arizanin nedeni belirsizligini korumaktadir Seffafligin kritik faydalarindan biri aciklanabilirliktir Bazen ornegin is basvurularini otomatik olarak filtrelemek veya kredi notu atamak gibi adaleti saglamak icin bir kararin neden verildigine dair bir aciklama yapmak yasal bir zorunluluktur Bir diger faydasi ise arizalarin nedeninin ortaya cikarilmasidir Arastirmacilar 2020 COVID 19 pandemisinin baslangicinda tibbi goruntu siniflandiricilarinin alakasiz hastane etiketlerine dikkat ettigini gostermek icin seffaflik araclarini kullandilar Seffaflik yontemleri hatalari duzeltmek icin de kullanilabilir Ornegin Locating and Editing Factual Associations in GPT baslikli makalede yazarlar Eyfel kulesinin konumuyla ilgili sorulari nasil cevapladigini belirleyen model parametrelerini tespit edebilmislerdir Daha sonra bu bilgiyi duzenleyerek modelin sorulara kulenin Fransa yerine Roma da olduguna inaniyormus gibi yanit vermesini saglamislardir Bu durumda yazarlar bir hataya neden olmus olsalar da bu yontemler potansiyel olarak hatalari etkili bir sekilde duzeltmek icin kullanilabilir Model duzenleme teknikleri bilgisayarla goruntulemede de mevcuttur Son olarak bazi kisiler yapay zeka sistemlerinin seffaf olmamasinin onemli bir risk unsuru oldugunu ve bu sistemlerin nasil calistiginin daha iyi anlasilmasinin gelecekte buyuk capli arizalari onleyebilecegini ileri surmustur Icsel yorumlanabilirlik arastirmasi makine ogrenimi modellerini seffaf olmaktan cikarmayi amaclamaktadir Bu arastirmanin bir amaci ic noron aktivasyonlarinin neyi temsil ettigini tespit etmektir Ornegin arastirmacilar CLIP yapay zeka sisteminde orumcek adam kostumlu insanlarin goruntulerine orumcek adam cizimlerine ve orumcek kelimesine tepki veren bir noron tanimladilar Ayrica bu noronlar veya devreler arasindaki baglantilarin da izah edilmesini icermektedir Ornegin arastirmacilar dil modellerinin baglamlarindan nasil ogrendiklerinde rol oynayabilecek transformator dikkatindeki oruntu eslestirme mekanizmalarini tanimlamislardir Icsel yorumlanabilirlik sinirbilim ile mukayese edilmektedir Her iki durumda da amac karmasik bir sistemde neler olup bittigini anlamaktir bununla birlikte makine ogrenimi arastirmacilari mukemmel olcumler alabilme ve keyfi cikarimlar yapabilme avantajina sahiptir Trojanlari tespit etmek Makine ogrenimi modelleri potansiyel olarak trojan veya arka kapi icerebilmektedir bunlar kotu niyetli aktorlerin bir yapay zeka sisteminde olusturduklari guvenlik aciklaridir Ornegin trojanli bir yuz tanima sistemi belirli bir mucevher parcasi gorundugunde erisim izni verebilir veya trojanli bir otonom arac belirli bir hareket tetikleyicisi gorunene kadar normal calisabilir Bir saldirganin bir trojan yerlestirebilmesi icin sistemin egitim verilerine erisimi olmasi gerektigini unutulmamalidir CLIP veya GPT 3 gibi bazi buyuk modellerde halka acik internet verileriyle egitildiklerinden bunu yapmak daha zor olmayabilir Arastirmacilar 3 milyon egitim goruntusunden sadece 300 unu degistirerek bir goruntu siniflandiriciya trojan yerlestirmeyi basardilar Arastirmacilar guvenlik riski olusturmanin yani sira trojanlarin daha iyi izleme araclarinin test edilmesi ve gelistirilmesi icin somut bir ortam sagladigini ileri surmektedir Sistemik guvenlik ve sosyoteknik faktorler Yapay zeka sonsuz istikrarli diktatorlukler yaratma potansiyeline sahiptir Ilya Sustkever hizalamanin onemi uzerine Yapay zeka risklerinin ve daha genel olarak teknolojik risklerin yanlis kullanim veya kazalar seklinde siniflandirilmasi yaygindir Bazi akademisyenler bu bakis acisinin yetersiz kaldigini one surmuslerdir Ornegin Kuba Fuze Krizi acikca bir hata ya da yanlis teknoloji kullanimi sonucu ortaya cikmamistir Politika analistleri Zwetsloot ve Dafoe soyle yazmistir Kotuye kullanim ve kaza bakis acilari bir hasara yol acan nedensellik zincirinde yalnizca son adima odaklanma egilimi gosterir Yani teknolojiyi kotuye kullanan kisiye veya istenmeyen sekilde hareket eden bir sisteme Ancak cogu zaman ilgili nedensellik zinciri cok daha uzun olmaktadir Riskler genellikle rekabet baskisi zararlarin yayilmasi hizli gelisim yuksek duzeyde belirsizlik ve yetersiz guvenlik kulturu gibi yapisal veya sistematik etkenlerden kaynaklanmaktadir Guvenlik muhendisliginin daha genis baglaminda kurumsal guvenlik kulturu gibi yapisal faktorler populer STAMP risk analizi cercevesinde merkezi bir oneme sahiptir Yapisal bakis acisindan esinlenen bazi arastirmacilar sosyoteknik guvenlik faktorlerini iyilestirmek icin makine ogrenimini kullanmanin onemini vurgulamaktadir ornegin siber savunma icin makine ogrenimini kullanmak kurumsal karar verme surecini iyilestirmek ve isbirligini kolaylastirmak mumkundur Siber savunma Bazi akademisyenler yapay zekanin siber saldirganlar ve siber savunmacilar arasinda zaten dengesiz olan oyunu daha da kotulestireceginden endise duymaktadir Bu durum ilk saldiri gudulerini arttiracak olup daha agresif ve istikrari bozucu saldirilara yol acabilecektir Bu riski azaltmak icin bazilari siber savunma konusuna daha fazla onem verilmesini onermektedir Buna ek olarak guclu yapay zeka modellerinin calinip kotuye kullanilmasini onlemek icin yazilim guvenligi de cok onemlidir Kurumsal karar alma mekanizmasinin iyilestirilmesi Yapay zekanin ekonomik ve askeri alanlarda ilerlemesi benzeri gorulmemis siyasi sorunlara yol acacaktir Bazi akademisyenler yapay zeka yarisi dinamiklerini az sayida karar merciinin dikkatli kararlarinin cogu zaman istikrar ve felaket arasindaki farki belirledigi soguk savas ile kiyaslamistir Yapay zeka arastirmacilari yapay zeka teknolojilerinin karar verme surecine yardimci olmak icin de kullanilabilecegini ileri surmuslerdir Ornegin arastirmacilar yapay zeka tahmin ve danismanlik sistemleri gelistirmeye baslamistir Isbirligini kolaylastirmak En buyuk kuresel tehditlerin cogu nukleer savas iklim degisikligi vb isbirligi yapmanin zor oldugu konulardir Iyi bilinen tutsak ikilemi senaryosunda oldugu gibi bazi dinamikler kendi cikarlari dogrultusunda en iyi sekilde hareket etseler bile tum oyuncular icin kotu sonuclara yol acabilmektedir Ornegin hic kimse mudahale etmezse sonuclari onemli olsa bile hicbir tekil aktorun iklim degisikligini ele almak icin ciddi girisimleri bulunmamaktadir Goze carpan bir yapay zeka isbirligi sorunu dibe dogru yaristan sakinmaktir Bu durumda ulkeler ya da sirketler daha yetenekli yapay zeka sistemleri kurmak icin yarisirken guvenligi ihmal edecek ve bu da ilgili herkese zarar veren feci bir kazayla sonuclanacaktir Bu gibi durumlara iliskin endiseler insanlar arasinda ve potansiyel olarak yapay zeka sistemleri arasinda isbirligini kolaylastirmak icin hem siyasi hem de teknik cabalara ilham vermistir Cogu yapay zeka arastirmasi tekil etmenlerin birbirinden ayri gorevler yerine getirecek sekilde tasarlanmasi konusuna odaklanmaktadir Akademisyenler yapay zeka sistemleri daha otonom hale geldikce etkilesim bicimlerini incelemenin ve sekillendirmenin onemli hale gelebilecegini belirtmislerdir Buyuk Dil Modellerinin Zorluklari Son yillarda buyuk dil modellerinin gelistirilmesi yapay zeka guvenligi alaninda essiz kaygilar ortaya cikarmistir Arastirmacilar Bender ile Gebru ve digerleri bu modellerin egitimiyle ilgili cevresel ve mali maliyetlerin altini cizerek Transformator modelleri icin oldugu gibi egitim sureclerinin enerji tuketimi ve karbon ayak izinin onemli olabilecegini vurgulamislardir Dahasi bu modeller genellikle devasa islenmemis Internet tabanli veri kumelerine dayanmaktadir bu da egemen ve onyargili bakis acilarini kodlayarak yeterince temsil edilmeyen gruplari daha da otekilestirebilir Buyuk olcekli egitim verileri cok genis olsa da cesitliligi guvence altina almaz ve genellikle ayricalikli demografik gruplarin dunya goruslerini yansitarak mevcut onyargilari ve basmakalip dusunceleri surduren modellere neden olmaktadir Bu durum bu modellerin gorunuste tutarli ve akici metinler uretme egilimi ile daha da siddetlenmektedir bu da kullanicilari tesadufi papaganlar olarak tanimlanan bir fenomen olan anlam ve niyetin olmadigi yerlerde anlam ve niyet atfetme konusunda yanlis yonlendirebilir Dolayisiyla bu modeller toplumsal onyargilari guclendirme yanlis bilgi yayma ve asirilik yanlisi propaganda ya da deepfake uretme gibi kotu niyetli amaclarla kullanilma riski tasimaktadir Bu zorluklarin ustesinden gelmek icin arastirmacilar veri seti olusturma ve sistem gelistirme konusunda daha dikkatli bir planlama yapilmasini savunmakta ve esitlikci bir teknolojik ekosisteme olumlu katkida bulunan arastirma projelerine duyulan ihtiyaci vurgulamaktadir YonetisimdeYapay zeka yonetisimi genel olarak yapay zeka sistemlerinin kullanimina ve gelistirilmesine rehberlik edecek normlar standartlar ve duzenlemeler olusturmakla ilgilenmektedir Arastirma Yapay zeka guvenlik yonetisimi arastirmalari yapay zekanin potansiyel etkilerine iliskin temel arastirmalardan belirli uygulamalara kadar uzanmaktadir Temelde arastirmacilar yapay zekanin genis uygulanabilirligi nedeniyle toplumun bircok yonunu donusturebilecegini savunmus onu elektrik ve buhar makinesiyle karsilastirmislardir Bazi calismalar bu etkilerden olusabilecek belirli riskleri ongormeye odaklanmistir ornegin kitlesel issizlik silahlanma dezenformasyon gozetim ve gucun yogunlasmasindan kaynaklanan riskler bunlara dahildir Diger calismalar hizla gelisen yapay zeka endustrisini izlemenin zorlugu yapay zeka modellerinin kullanilabilirligi ve dibe dogru yaris dinamikleri gibi altta yatan risk faktorlerini arastirmaktadir Askell Amanda Brundage Miles Hadfield Gillian 10 Temmuz 2019 The Role of Cooperation in Responsible AI Development arXiv 1907 04534 2 lt ref gt DeepMind da uzun vadeli yonetisim ve strateji baskani olan Allan Dafoe yarisin tehlikelerini ve potansiyel isbirligi ihtiyacini vurgulamistir Yapay zeka guvenligi ve uyumu icin gelismis guclu sistemler devreye sokulmadan once yuksek derecede dikkatli olunmasi neredeyse gerekli ve yeterli bir kosul haline gelecektir fakat aktorler ilk girenlere buyuk getiri saglayacak ya da goreceli avantaj saglayacak bir alanda rekabet ediyorlarsa kendilerine idealin altinda bir dikkat duzeyi tercih etmeleri yonunde baski yapilacaktir Bir arastirma akisi yapay zeka hesap verebilirligini degerlendirmek yapay zeka tabanli sistemlerin denetimlerine rehberlik etmek ve desteklemek icin yaklasimlar cerceveler ve metotlar gelistirmeye yogunlasmaktadir Yerel Yapay Zeka Guvenlik Onlemlerini Kuresel Cozumlere Olceklendirmek Yapay zeka guvenligi sorununu ele alirken yerel ve kuresel cozumler arasindaki ayrimi vurgulamak onemlidir Yerel cozumler bireysel yapay zeka sistemlerine odaklanarak guvenli ve faydali olmalarini saglarken kuresel cozumler cesitli yetki alanlarindaki tum yapay zeka sistemleri icin guvenlik onlemleri uygulamaya calismaktadir Bazi arastirmacilar yerel guvenlik onlemlerinin kuresel duzeye aktarmanin gerekliligini savunarak bu kuresel cozumler icin ayri bir siniflandirma onermektedir Bu yaklasim hicbir kurulusun yapay zeka teknolojileriyle iliskili riskleri etkili bir sekilde yonetemeyecegini belirterek yapay zeka guvenliginin uluslararasi yonetisiminde isbirligine dayali cabalarin onemini ortaya koymaktadir Bu bakis acisi dunya capinda gelismis yapay zeka sistemlerinin ortaya cikardigi karmasik zorluklarin ustesinden gelmeyi amaclayan uluslararasi politika olusturma ve duzenleyici cercevelerde devam eden cabalarla uyumludur Hukumet eylemleri Bazi uzmanlar duzenlemelerin yeniligi engelleyecegi ve cehalet icinde duzenleme yapmak icin acele etmenin aptallik olacagi yonundeki endiselerini ifade ederek yapay zekayi duzenlemek icin henuz cok erken oldugunu belirtmistir Is adami Elon Musk felaket risklerini azaltmak icin onleyici eylem konusunda cagrida bulmaktadir Resmi mevzuatin disinda devlet kurumlari etik ve guvenlik onerileri ortaya koymustur Mart 2021 de ABD Yapay Zeka Ulusal Guvenlik Komisyonu yapay zekadaki gelismelerin sistemlerin guvenlik saglamlik ve guvenilirlik dahil olmak uzere hedef ve degerlerle uyumlu olmasini saglamayi gittikce daha onemli hale getirecegini rapor etmistir Daha sonra Ulusal Standartlar ve Teknoloji Enstitusu yikici riskler mevcut oldugu zaman riskler yeterince yonetilene kadar gelistirme ve dagitim guvenli bir sekilde durdurulmalidir tavsiyesinde bulunan Yapay Zeka Riskini yonetmeye yonelik bir taslak hazirlamistir Eylul 2021 de Cin Halk Cumhuriyeti yapay zeka kararlarinin insan kontrolu altinda kalmasi gerektigini vurgulayarak ve hesap verebilirlik mekanizmalari cagrisinda bulunarak Cin de yapay zeka kullanimina yonelik etik yonergeleri yayinladi Ayni ay Birlesik Krallik 10 yillik Ulusal Yapay Zeka Stratejisini yayinladi bu stratejide Ingiliz hukumetinin baglantisiz Yapay Genel Zekanin uzun vadede olusturdugu riski ve bunun anlamina gelecegi ongorulemeyen degisiklikleri belirtiyor Strateji yikici riskler de dahil olmak uzere uzun vadeli yapay zeka risklerini degerlendirmeye yonelik eylemleri aciklamaktadir Ingiliz hukumeti yapay zeka guvenligi konusunda ilk buyuk kuresel zirveyi duzenledi Bu zirve 1 ve 2 Kasim 2023 tarihlerinde gerceklesti ve politika yapicilarin ve dunya liderlerinin yapay zekanin mevcut ve gelecekteki risklerini ve bu risklerin kuresel olarak koordine edilmis bir yaklasimla nasil azaltilabilecegini degerlendirmeleri icin bir firsat seklinde nitelendirildi Ozellikle Amerika Birlesik Devletleri ndeki hukumet kuruluslari da teknik yapay zeka guvenlik arastirmalarinin gelistirilmesini desteklemistir Istihbarat Ileri Arastirma Projeleri Faaliyeti yapay zeka sistemlerine yonelik Trojan saldirilarini tespit etmek ve bunlara karsi koruma saglamak amaciyla TrojAI projesini baslatmistir DARPA aciklanabilir yapay zeka ve dusman saldirilarina karsi saglamligin artirilmasi uzerine arastirmalar yapmaktadir Ulusal Bilim Vakfi da Guvenilir Makine Ogrenimi Merkezi ni destekliyor ve deneysel yapay zeka guvenlik arastirmalari icin milyonlarca dolar fon ayiriyor Kurumsal regulasyonlar Yapay zeka laboratuvarlari ve sirketleri genellikle resmi mevzuatin disinda kalan guvenlik uygulamalarina veya kurallarina uymaktadir Yonetisim arastirmacilarinin bir amaci da bu standartlari sekillendirmektir Literaturde bulunan guvenlik tavsiyelerine ornek olarak ucuncu taraf denetimi hatalarin bulunmasi icin oduller sunulmasi yapay zeka olaylarinin paylasilmasi yonergelerin takip edilmesi arastirma veya modellerin yayinlanip yayinlanmayacagina karar vermek ve yapay zeka laboratuvarlarinda bilgi ve siber guvenligi iyilestirmek yer almaktadir Sirketler de bazi taahhutlerde bulundu Cohere OpenAI ve AI21 kotuye kullanimi azaltan dil modellerinin dagitimina yonelik en iyi uygulamalar onerisinde bulundu ve uzerinde anlasmaya vardi OpenAI yaris dinamiklerine katkida bulunmaktan kacinmak icin tuzugunde eger degerlerle uyumlu guvenlik bilincine sahip bir proje bizden once Yapay Genel Zeka yi insa etmeye yaklasirsa bu projeyle rekabet etmeyi birakip ona yardimci olmaya baslayacagimizi beyan ediyoruz ifadesine yer vermistir Ayrica DeepMind CEO su Demis Hassabis Facebook Yapay Zeka Direktoru Yann LeCun gibi sektor liderleri Asilomar Ilkeleri ve Otonom Silahlar Acik Mektubu gibi acik mektuplara imza atmislardir Kaynakca A bot will complete this citation soon Click here to jump the queue arXiv 1 The Godfather of A I warns of nightmare scenario where artificial intelligence begins to seek power Fortune Ingilizce 25 Mayis 2023 tarihinde kaynagindan Erisim tarihi 10 Haziran 2023 a b Grace Katja Salvatier John Dafoe Allan Zhang Baobao Evans Owain 31 Temmuz 2018 Journal of Artificial Intelligence Research 62 729 754 doi 10 1613 jair 1 11222 ISSN 1076 9757 10 Subat 2023 tarihinde kaynagindan arsivlendi Zhang Baobao Anderljung Markus Kahn Lauren Dreksler Noemi Horowitz Michael C Dafoe Allan 5 Mayis 2021 Ethics and Governance of Artificial Intelligence Evidence from a Survey of Machine Learning Researchers Journal of Artificial Intelligence Research 71 arXiv 2105 02117 2 doi 10 1613 jair 1 12895 Stein Perlman Zach Weinstein Raun Benjamin Grace 4 Agustos 2022 AI Impacts 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Michael Julian Holtzman Ari Parrish Alicia Mueller Aaron Wang Alex Chen Angelica Madaan Divyam Nangia Nikita Pang Richard Yuanzhe Phang Jason Bowman 26 Agustos 2022 What Do NLP Researchers Believe Results of the NLP Community Metasurvey Association for Computational Linguistics arXiv 2208 12852 2 Machine Learning in High Stakes Settings Risks and Opportunities PhD tez Carnegie Mellon University 13 Mayis 2020 Mehrabi Ninareh Morstatter Fred Saxena Nripsuta Lerman Kristina Galstyan Aram 2021 ACM Computing Surveys Ingilizce 54 6 1 35 arXiv 1908 09635 2 doi 10 1145 3457607 ISSN 0360 0300 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 28 Kasim 2022 Feldstein Steven 2019 The Global Expansion of AI Surveillance Carnegie Endowment for International Peace Barnes Beth 2021 Lesswrong 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 a b c Brundage Miles Avin Shahar Clark Jack Toner Helen Eckersley Peter Garfinkel Ben Dafoe Allan Scharre Paul Zeitzoff Thomas Filar Bobby Anderson 30 Nisan 2018 Apollo University Of Cambridge Repository Apollo University Of Cambridge Repository Apollo University of Cambridge Repository doi 10 17863 cam 22520 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 28 Kasim 2022 Carlsmith Joseph 16 Haziran 2022 Is Power Seeking AI an Existential Risk arXiv 2206 13353 2 AGI Expert Peter Voss Says AI Alignment Problem is Bogus NextBigFuture com Ingilizce 4 Nisan 2023 15 Temmuz 2023 tarihinde kaynagindan Erisim tarihi 23 Temmuz 2023 Dafoe Allan 2016 MIT Technology Review 28 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 28 Kasim 2022 20 Mayis 2013 In 1949 He Imagined an Age of Robots The New York Times ISSN 0362 4331 23 Kasim 2022 tarihinde kaynagindan Erisim tarihi 23 Kasim 2022 Association for the Advancement of Artificial Intelligence 1 Eylul 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Yampolskiy Roman V Spellchecker M S 25 Ekim 2016 Artificial Intelligence Safety and Cybersecurity a Timeline of AI Failures arXiv 1610 07997 2 Yampolskiy Roman V 2013 Muller Vincent C Ed Philosophy and Theory of Artificial Intelligence Studies in Applied Philosophy Epistemology and Rational Ethics Berlin Heidelberg Almanya Springer Berlin Heidelberg 5 ss 389 396 doi 10 1007 978 3 642 31674 6 29 ISBN 978 3 642 31673 9 15 Mart 2023 tarihinde kaynagindan arsivlendi erisim tarihi 23 Kasim 2022 McLean Scott Read Gemma J M Thompson Jason Baber Chris Stanton Neville A Salmon Paul M 4 Temmuz 2023 The risks associated with Artificial General Intelligence A systematic review Journal of Experimental amp Theoretical Artificial Intelligence Ingilizce 35 5 649 663 doi 10 1080 0952813X 2021 1964003 ISSN 0952 813X Kuo Kaiser 31 Mart 2015 Etkinlik zamani 55 49 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Cellan Jones Rory 2 Aralik 2014 BBC News 30 Ekim 2015 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Future of Life Institute Future of Life Institute 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Future of Life Institute October 2016 Future of Life Institute 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Bach Deborah 2016 UW News 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Amodei Dario Olah Chris Steinhardt Jacob Christiano Paul Schulman John Mane Dan 25 Temmuz 2016 Concrete Problems in AI Safety arXiv 1606 06565 2 a b Future of Life Institute Future of Life Institute 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 a b Research DeepMind Safety 27 Eylul 2018 Medium 10 Subat 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 a b c d e Hendrycks Dan Carlini Nicholas Schulman John Steinhardt Jacob 16 Haziran 2022 Unsolved Problems in ML Safety arXiv 2109 13916 2 Browne Ryan 12 Haziran 2023 British Prime Minister Rishi Sunak pitches UK as home of A I safety regulation as London bids to be next Silicon Valley CNBC Ingilizce 27 Temmuz 2023 tarihinde kaynagindan Erisim tarihi 25 Haziran 2023 Goodfellow Ian Papernot Nicolas Huang Sandy Duan Rocky Abbeel Pieter Clark Jack 24 Subat 2017 OpenAI 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 a b Szegedy Christian Zaremba Wojciech Sutskever Ilya Bruna Joan Erhan Dumitru Goodfellow Ian Fergus Rob 19 Subat 2014 Intriguing properties of neural networks ICLR arXiv 1312 6199 2 Kurakin Alexey Goodfellow Ian Bengio Samy 10 Subat 2017 Adversarial examples in the physical world ICLR arXiv 1607 02533 2 Madry Aleksander Makelov Aleksandar Schmidt Ludwig Tsipras Dimitris Vladu Adrian 4 Eylul 2019 Towards Deep Learning Models Resistant to Adversarial Attacks ICLR arXiv 1706 06083 2 Kannan Harini Kurakin Alexey Goodfellow Ian 16 Mart 2018 Adversarial Logit Pairing arXiv 1803 06373 2 Gilmer Justin Adams Ryan P Goodfellow Ian Andersen David Dahl George E 19 Temmuz 2018 Motivating the Rules of the Game for Adversarial Example Research arXiv 1807 06732 2 Carlini Nicholas Wagner David 29 Mart 2018 Audio Adversarial Examples Targeted Attacks on Speech to Text IEEE Security and Privacy Workshops arXiv 1801 01944 2 Sheatsley Ryan Papernot Nicolas Weisman Michael Verma Gunjan McDaniel Patrick 9 Eylul 2022 Adversarial Examples in Constrained Domains arXiv 2011 01183 2 Suciu Octavian Coull Scott E Johns Jeffrey 13 Nisan 2019 Exploring Adversarial Examples in Malware Detection IEEE Security and Privacy Workshops arXiv 1810 08280 2 Ouyang Long Wu Jeff Jiang Xu Almeida Diogo Wainwright Carroll L Mishkin Pamela Zhang Chong Agarwal Sandhini Slama Katarina Ray Alex Schulman 4 Mart 2022 Training language models to follow instructions with human feedback NeurIPS arXiv 2203 02155 2 Gao Leo Schulman John Hilton Jacob 19 Ekim 2022 Scaling Laws for Reward Model Overoptimization ICML arXiv 2210 10760 2 Yu Sihyun Ahn Sungsoo Song Le Shin Jinwoo 27 Ekim 2021 RoMA Robust Model Adaptation for Offline Model based Optimization NeurIPS arXiv 2110 14188 2 a b Hendrycks Dan Mazeika Mantas 20 Eylul 2022 X Risk Analysis for AI Research arXiv 2206 05862 2 Tran Khoa A Kondrashova Olga Bradley Andrew Williams Elizabeth D Pearson John V Waddell Nicola 2021 Deep learning in cancer diagnosis prognosis and treatment selection Genome Medicine Ingilizce 13 1 152 doi 10 1186 s13073 021 00968 x ISSN 1756 994X PMC 8477474 2 PMID 34579788 Guo Chuan Pleiss Geoff Sun Yu Weinberger Kilian Q 6 Agustos 2017 On calibration of modern neural networks Proceedings of the 34th international conference on machine learning Proceedings of machine learning research 70 PMLR ss 1321 1330 Ovadia Yaniv Fertig Emily Ren Jie Nado Zachary Sculley D Nowozin Sebastian Dillon Joshua V Lakshminarayanan Balaji Snoek Jasper 17 Aralik 2019 Can You Trust Your Model s Uncertainty Evaluating Predictive Uncertainty Under Dataset Shift NeurIPS arXiv 1906 02530 2 Bogdoll Daniel Breitenstein Jasmin Heidecker Florian Bieshaar Maarten Sick Bernhard Fingscheidt Tim Zollner J Marius 2021 Description of Corner Cases in Automated Driving Goals and Challenges 2021 IEEE CVF International Conference on Computer Vision Workshops ICCVW ss 1023 1028 doi 10 1109 ICCVW54120 2021 00119 ISBN 978 1 6654 0191 3 Hendrycks Dan Mazeika Mantas Dietterich Thomas 28 Ocak 2019 Deep Anomaly Detection with Outlier Exposure ICLR arXiv 1812 04606 2 Wang Haoqi Li Zhizhong Feng Litong Zhang Wayne 21 Mart 2022 ViM Out Of Distribution with Virtual logit Matching CVPR arXiv 2203 10807 2 Hendrycks Dan Gimpel Kevin 3 Ekim 2018 A Baseline for Detecting Misclassified and Out of Distribution Examples in Neural Networks ICLR arXiv 1610 02136 2 Urbina Fabio Lentzos Filippa Invernizzi Cedric Ekins Sean 2022 Dual use of artificial intelligence powered drug discovery Nature Machine Intelligence Ingilizce 4 3 189 191 doi 10 1038 s42256 022 00465 9 ISSN 2522 5839 PMC 9544280 2 PMID 36211133 Center for Security and Emerging Technology Buchanan Ben Lohn Andrew Musser Micah Sedova Katerina 2021 doi 10 51593 2021ca003 24 Kasim 2022 tarihinde kaynagindan arsivlendi VentureBeat 14 Aralik 2021 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Center for Security and Emerging Technology Buchanan Ben Bansemer John Cary Dakota Lucas Jack Musser Micah 2020 Center for Security and Emerging Technology doi 10 51593 2020ca002 24 Kasim 2022 tarihinde kaynagindan arsivlendi OpenAI 3 Mart 2022 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Markov Todor Zhang Chong Agarwal Sandhini Eloundou Tyna Lee Teddy Adler Steven Jiang Angela Weng Lilian 10 Agustos 2022 OpenAI 11 Ocak 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 a b Savage Neil 29 Mart 2022 Nature doi 10 1038 d41586 022 00858 1 PMID 35352042 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Center for Security and Emerging Technology Rudner Tim Toner Helen 2021 doi 10 51593 20190042 24 Kasim 2022 tarihinde kaynagindan arsivlendi McFarland Matt 19 Mart 2018 CNNMoney 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 a b Doshi Velez Finale Kortz Mason Budish Ryan Bavitz Chris Gershman Sam O Brien David Scott Kate Schieber Stuart Waldo James Weinberger David Weller 20 Aralik 2019 Accountability of AI Under the Law The Role of Explanation arXiv 1711 01134 2 Fong Ruth Vedaldi Andrea 2017 Interpretable Explanations of Black Boxes by Meaningful Perturbation 2017 IEEE International Conference on Computer Vision ICCV ss 3449 3457 doi 10 1109 ICCV 2017 371 ISBN 978 1 5386 1032 9 Meng Kevin Bau David Andonian Alex Belinkov Yonatan 2022 Locating and editing factual associations in GPT Advances in Neural Information Processing Systems 35 arXiv 2202 05262 2 Bau David Liu Steven Wang Tongzhou Zhu Jun Yan Torralba Antonio 30 Temmuz 2020 Rewriting a Deep Generative Model ECCV arXiv 2007 15646 2 Rauker Tilman Ho Anson Casper Stephen Hadfield Menell Dylan 5 Eylul 2022 Toward Transparent AI A Survey on Interpreting the Inner Structures of Deep Neural Networks IEEE SaTML arXiv 2207 13243 2 Bau David Zhou Bolei Khosla Aditya Oliva Aude Torralba Antonio 19 Nisan 2017 Network Dissection Quantifying Interpretability of Deep Visual Representations CVPR arXiv 1704 05796 2 McGrath Thomas Kapishnikov Andrei Tomasev Nenad Pearce Adam Wattenberg Martin Hassabis Demis Kim Been Paquet Ulrich Kramnik Vladimir 22 Kasim 2022 Acquisition of chess knowledge in AlphaZero Proceedings of the National Academy of Sciences Ingilizce 119 47 e2206625119 arXiv 2111 09259 2 doi 10 1073 pnas 2206625119 ISSN 0027 8424 PMC 9704706 2 PMID 36375061 Olah Chris Cammarata Nick Schubert Ludwig Goh Gabriel Petrov Michael Carter Shan 2020 Zoom in An introduction to circuits Distill 5 3 doi 10 23915 distill 00024 001 Cammarata Nick Goh Gabriel Carter Shan Voss Chelsea Schubert Ludwig Olah Chris 2021 Distill 6 1 doi 10 23915 distill 00024 006 5 Aralik 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 5 Aralik 2022 Olsson Catherine Elhage Nelson Nanda Neel Joseph Nicholas DasSarma Nova Henighan Tom Mann Ben Askell Amanda Bai Yuntao Chen Anna Conerly 2022 In context learning and induction heads Transformer Circuits Thread arXiv 2209 11895 2 Olah Christopher 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Gu Tianyu Dolan Gavitt Brendan Garg Siddharth 11 Mart 2019 BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain arXiv 1708 06733 2 Chen Xinyun Liu Chang Li Bo Lu Kimberly Song Dawn 14 Aralik 2017 Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning arXiv 1712 05526 2 Carlini Nicholas Terzis Andreas 28 Mart 2022 Poisoning and Backdooring Contrastive Learning ICLR arXiv 2106 09667 2 Ilya the AI scientist shaping the world The Guardian 2 Kasim 2023 18 Ocak 2024 tarihinde kaynagindan Erisim tarihi 19 Ocak 2024 a b c d Zwetsloot Remco Dafoe Allan 11 Subat 2019 Lawfare 19 Agustos 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Zhang Yingyu Dong Chuntong Guo Weiqun Dai Jiabao Zhao Ziming 2022 Safety Science Ingilizce 152 105596 doi 10 1016 j ssci 2021 105596 15 Mart 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 28 Kasim 2022 Center for Security and Emerging Technology Hoffman Wyatt 2021 CSET Issue Brief doi 10 51593 2020ca007 24 Kasim 2022 tarihinde kaynagindan arsivlendi Center for Security and Emerging Technology Imbrie Andrew Kania Elsa 2019 doi 10 51593 20190051 24 Kasim 2022 tarihinde kaynagindan arsivlendi a b Future of Life Institute 27 Mart 2019 Etkinlik zamani 22 05 23 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 23 Kasim 2022 Zou Andy Xiao Tristan Jia Ryan Kwon Joe Mazeika Mantas Li Richard Song Dawn Steinhardt Jacob Evans Owain Hendrycks Dan 9 Ekim 2022 Forecasting Future World Events with Neural Networks NeurIPS arXiv 2206 15474 2 Gathani Sneha Hulsebos Madelon Gale James Haas Peter J Demiralp Cagatay 8 Subat 2022 Augmenting Decision Making via Interactive What If Analysis Conference on Innovative Data Systems Research arXiv 2109 06160 2 Lindelauf Roy 2021 Osinga Frans Sweijs Tim Ed Nuclear Deterrence in the Algorithmic Age Game Theory Revisited NL ARMS Netherlands Annual Review of Military Studies 2020 Nl Arms Ingilizce The Hague T M C Asser Press ss 421 436 doi 10 1007 978 94 6265 419 8 22 ISBN 978 94 6265 418 1 a b Newkirk II Vann R 21 Nisan 2016 The Atlantic 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 a b Armstrong Stuart Bostrom Nick Shulman Carl Racing to the Precipice a Model of Artificial Intelligence Development Future of Humanity Institute Oxford University a b Dafoe Allan AI Governance A Research Agenda Centre for the Governance of AI Future of Humanity Institute University of Oxford Dafoe Allan Hughes Edward Bachrach Yoram Collins Tantum McKee Kevin R Leibo Joel Z Larson Kate Graepel Thore 15 Aralik 2020 Open Problems in Cooperative AI NeurIPS arXiv 2012 08630 2 a b Dafoe Allan Bachrach Yoram Hadfield Gillian Horvitz Eric Larson Kate Graepel Thore 2021 Nature 593 7857 33 36 doi 10 1038 d41586 021 01170 0 PMID 33947992 22 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Bender E M Gebru T McMillan Major A amp Shmitchell S 2021 On the Dangers of Stochastic Parrots Can Language Models Be Too Big FAccT 21 Proceedings of the 2021 ACM Conference on Fairness Accountability and Transparency 610 623 https doi org 10 1145 3442188 3445922 Strubell E Ganesh A amp McCallum A 2019 Energy and Policy Considerations for Deep Learning in NLP arXiv preprint arXiv 1906 02243 Schwartz R Dodge J Smith N A amp Etzioni O 2020 Green AI Communications of the ACM 63 12 54 63 https doi org 10 1145 3442188 3445922 Crafts Nicholas 23 Eylul 2021 Oxford Review of Economic Policy Ingilizce 37 3 521 536 doi 10 1093 oxrep grab012 ISSN 0266 903X 24 Kasim 2022 tarihinde kaynagindan arsivlendi 葉俶禎 黃子君 張媁雯 賴志樫 1 Aralik 2020 Labor Displacement in Artificial Intelligence Era A Systematic Literature Review 臺灣東亞文明研究學刊 Ingilizce 17 2 doi 10 6163 TJEAS 202012 17 2 0002 ISSN 1812 6243 Johnson James 3 Nisan 2019 Defense amp Security Analysis Ingilizce 35 2 147 169 doi 10 1080 14751798 2019 1600800 ISSN 1475 1798 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 28 Kasim 2022 Kertysova Katarina 12 Aralik 2018 Security and Human Rights 29 1 4 55 81 doi 10 1163 18750230 02901005 ISSN 1874 7337 24 Kasim 2022 tarihinde kaynagindan arsivlendi Feldstein Steven 2019 The Global Expansion of AI Surveillance Carnegie Endowment for International Peace Agrawal Ajay Gans Joshua Goldfarb Avi 2019 Ingilizce Chicago Illinois ISBN 978 0 226 61347 5 OCLC 1099435014 15 Mart 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 28 Kasim 2022 Whittlestone Jess Clark Jack 31 Agustos 2021 Why and How Governments Should Monitor AI Development arXiv 2108 12427 2 a b Shevlane Toby 2022 Center for the Governance of AI 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Gursoy Furkan Kakadiaris Ioannis A 31 Agustos 2022 System Cards for AI Based Decision Making for Public Policy arXiv 2203 04754 2 Cobbe Jennifer Lee Michelle Seng Ah Singh Jatinder 1 Mart 2021 Reviewable Automated Decision Making A Framework for Accountable Algorithmic Systems Proceedings of the 2021 ACM Conference on Fairness Accountability and Transparency FAccT 21 New York NY USA Association for Computing Machinery ss 598 609 doi 10 1145 3442188 3445921 ISBN 978 1 4503 8309 7 Raji Inioluwa Deborah Smart Andrew White Rebecca N Mitchell Margaret Gebru Timnit Hutchinson Ben Smith Loud Jamila Theron Daniel Barnes Parker 27 Ocak 2020 Closing the AI accountability gap Defining an end to end framework for internal algorithmic auditing Proceedings of the 2020 Conference on Fairness Accountability and Transparency FAT 20 New York NY USA Association for Computing Machinery ss 33 44 doi 10 1145 3351095 3372873 ISBN 978 1 4503 6936 7 Turchin Alexey Dench David Green Brian Patrick 2019 Global Solutions vs Local Solutions for the AI Safety Problem Big Data and Cognitive Computing 3 16 1 25 doi 10 3390 bdcc3010016 Ziegler Bart 8 Nisan 2022 Is It Time to Regulate AI Wall Street Journal Smith John 15 Mayis 2022 Global Governance of Artificial Intelligence Opportunities and Challenges The Guardian Ziegler Bart 8 Nisan 2022 Wall Street Journal 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Reed Chris 13 Eylul 2018 How should we regulate artificial intelligence Philosophical Transactions of the Royal Society A Mathematical Physical and Engineering Sciences Ingilizce 376 2128 20170360 doi 10 1098 rsta 2017 0360 ISSN 1364 503X PMC 6107539 2 PMID 30082306 Belton Keith B 7 Mart 2019 IndustryWeek 29 Ocak 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 National Security Commission on Artificial Intelligence 2021 Final Report National Institute of Standards and Technology 12 Temmuz 2021 NIST 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Richardson Tim 2021 10 Subat 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 a b GOV UK 2021 10 Subat 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Hardcastle Kimberley 23 Agustos 2023 We re talking about AI a lot right now and it s not a moment too soon The Conversation Ingilizce 31 Ekim 2023 tarihinde kaynagindan Erisim tarihi 31 Ekim 2023 Iconic Bletchley Park to host UK AI Safety Summit in early November GOV UK Ingilizce 1 Kasim 2023 tarihinde kaynagindan Erisim tarihi 31 Ekim 2023 Office of the Director of National Intelligence Intelligence Advanced Research Projects Activity 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Turek Matt 19 Subat 2021 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Draper Bruce Defense Advanced Research Projects Agency 9 Ocak 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 National Science Foundation 23 Subat 2023 26 Subat 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 27 Subat 2023 Mantymaki Matti Minkkinen Matti Birkstedt Teemu Viljanen Mika 2022 Defining organizational AI governance AI and Ethics Ingilizce 2 4 603 609 doi 10 1007 s43681 022 00143 x ISSN 2730 5953 a b c Brundage Miles Avin Shahar Wang Jasmine Belfield Haydn Krueger Gretchen Hadfield Gillian Khlaaf Heidy Yang Jingying Toner Helen Fong Ruth Maharaj 20 Nisan 2020 Toward Trustworthy AI Development Mechanisms for Supporting Verifiable Claims arXiv 2004 07213 2 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Wiblin Robert Harris Keiran 2022 80 000 Hours 24 Kasim 2022 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 OpenAI 2 Haziran 2022 OpenAI 15 Mart 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 OpenAI OpenAI 4 Mart 2021 tarihinde kaynagindan arsivlendi Erisim tarihi 24 Kasim 2022 Future of Life Institute 2016 Autonomous Weapons Open Letter AI amp Robotics Researchers Future of Life Institute 22 Eylul 2023 tarihinde kaynagindan Erisim tarihi 24 Kasim 2022