Biyoenformatikte dizi hizalaması, DNA, RNA veya protein dizilerini düzenleyerek benzer bölgelerin tespit edilmesidir. Bu bölgelerin benzer olması, diziler arasında işlevsel, yapısal veya evrimsel bir ilişki olduğu anlamına gelir. Hizalanmış nükleotit veya aminoasit dizileri tipik olarak bir matriksin satırları olarak gösterilir. temsil eden harflerin arasına boşluklar konarak ardışık sütunlarda yer alan aynı veya benzer harflerin bir hizada olması (altalta gelmesi) sağlanır.
Dizi hizalaması biyolojik olmayan dizilerde, örneğin doğal dil veya finansal verilerde de kullanılabilir.
Yorumlama
İki dizi ortak bir ataya sahipse, hizalamada eşleşmeyen harfler, bu dizilerin birbirinden ıraksadığı zamandan beri meydana gelmiş noktasal mutasyonlar olarak yorumlanır. Hizalamadaki boşluklar ise insersiyon veya delesyonlar (indel) olarak yorumlanır. Proteinlerin dizi hizalamasında belli bir pozisyondaki amino asitlerin benzerlik derecesi, bu proteinler için belli bir bölge veya dizi motifininin ne kadar olduğunun kaba bir ölçütü olarak alınabilir. Dizinin belli bir bölgesinde substitusyonların olmaması veya sadece çok muhafazkar substitusyonların olması (yani benzer biyokimyasal özelliğe sahip amino asit substitusyonları), bu bölgenin yapısal veya işlevsel bir öneme sahip olduğunun bir belirtisi sayılır. DNA ve RNA bazları, proteinlerdeki aminoasitlerden daha çok birbirine benzese de, baz çiftlerinin korunması da benzer bir işlevsel veya yapısal önemi belirtebilir.
Hizalama yöntemleri
Çok kısa veya çok benzer diziler elle hizalanabilir. Ancak, çoğu ilginç problem, insan eliyle yapılamıyacak kadar uzun, karmaşık veya çok sayıda dizinin hizalanmasını gerektirir. Böyle durumlarda, kaliteli dizi hizalamaları elde edebilmek için insan bilgisine dayanan algoritmalar kullanılır. Ender olarak bu algoritmalardan elde edilen sonuçlar, algoritmik olarak ifadesi zor olan durumlar için elle düzeltilebilir. Dizi hizalaması için kullanılan hesaplamalı yöntemler genelde iki gruba ayrılır: global optimizasyon ve yerel optimizasyon. Global hizalamanın bulunması bir çeşididir ve elde edilecek hizalamanın, sorgulanan dizilerin tamamını kapsamaya "zorlar". Buna karşın, yerel hizalamalar genelde birbirinden çok farklılık gösteren uzun dizilerde benzer bölgeleri tespit eder. Çoğu zaman yerel hizalamalar tercih edilir ama bunların bulunması daha zor olabilir. Dizi hizalama problemi için çeşitli algoritmalar uygulanmıştır, bunların bazıları, dinamik programlama gibi, yavaş ama formel olarak eniyileyici yöntemlerdir, bazıları ise hızlı ama mutlaka mükemmel sonucu vermeyebilen, veri tabanı aramaları için tasarlanmış buluşsal algoritmalar veya olasılıksal yöntemlerdir.
Temsil biçimleri
Hizalamalar genelde hem grafik olarak hem de metin olarak gösterilir. Hemen her dizi hizalama gösteriminde diziler satırlar şeklinde ve hizalanmış harfler de sütunlar halinde düzenlenir. Metin formatlarında aynı veya benzer harfler içeren hizalanmış sütunlar korunma sembolleri ile gösterilir. Yukarıdaki resimde olduğu gibi, bir yıldız veya dik çizgi iki satır arasındaki aynılığı göstermekte kullanılır; daha ender kullanılan semboller ise, korunmuş bir substitusyon için iki nokta üst üste ve yarı korunmuş substitusyonlar için bir noktadır. Çoğu dizi görüntüleme programları ayrıca substitusyon harflerinin özelliklerini belirtmek için renkler kullanır; DNA ve RNA dizilerinde her nükleotidin kendi rengi olur. Protein hizalamalarında, örneğin yukarıdaki örnekte olduğu gibi, belli bir amino asit substitusyonunu değerlendirmek için renk kullanılır. Çoklu dizilerde her sütünun son satırı o hizalama ile belirlenmiş olan ; konsensus dizinin grafik olarak gösterilmesi bir ile olur; dizi logosunda her nükleotit veya amino asitin harfinin büyüklüğü o harfin korunma derecesine karşılık gelir.
Dizi hizalamaları çeşitli metin-tabanlı dosya formatlarında saklanabilir, bunların çoğu ilk olarak belli bir hizalama programı veya uygulaması ile birlikte geliştirilmiştir. Çoğu Web-temelli araçlar sınırlı sayıda girdi ve çıktı format seçeneği verirler, örneğin FASTA formatı ve GenBank formatı gibi ve program çıktısı genelde kolayca değiştirilemez. Çeşitli format dönüştürme programları mevcuttur, bunlardan ve gibi bazılarının grafik arayüzü veya komut satır arayüzü vardır, buna karşın , gibi program paketlerinin buna olanak veren kendi fonksiyonları vardır.
Global ve lokal hizalamalar
Global hizalamalarda her dizideki her harfin hizalanması amaçlanır. Sorgu kümesindeki diziler birbirine benzer ve yaklaşık aynı uzunlukta olursa global hizalamaları en yararlı olur. (Ama bu, global hizalamaların boşluklarla sonlanamayacağı anlamına gelmez.) Global hizalama tekniklerinden biri, dinamik programlamaya dayalı olan Needleman-Wunsch algoritmasıdır. Birbirine benzemeyen ama benzer bölgeler içerdiği tahmin edilen diziler için lokal hizalamalar daha yararlıdır. Keza, benzer kısa dizi motiflerinin tespitinde lokal hizalamalar kullanılır. da dinamik programlamaya dayalı bir lokal hizalama yöntemidir. Eğer diziler yeterince birbirine benziyorsa lokal ve global hizalama sonuçları arasında bir fark olmaz.
Hibrit yöntemler (yarı global veya "glokal" yöntemler olarak da adlandırılabilir) bir veya öbür dizinin başı ve sonunu da kapsayan en iyi hizalamayı bulmaya çalışır. Dizilerden birinin sonu, öbürünün başı ile örtüşüyorsa bu özellikle yararlı olabilir. Bu durumda ne global ne de lokal hizalama tamamen uygundur: global yöntem hizalamayı örtüşme bölgesinin dışına uzatmaya çalışacaktır, lokal yöntem ise örtüşme bölgesini yeterince kapsamayabilir.
İkili hizalama
İkili hizalama yöntemleri, iki sorgu dizisinin birbiriyle en iyi uyuşan parçalı (lokal) veya global hizalamasını bulmakta kullanılır. İkili hizalamalar bir defada sadece iki dizi arasında bulunabilir ama hesaplanmaları verimlidir ve çoğu zaman çok yüksek doğruluk gerektirmeyen yöntemlerde kullanılırlar (örneğin bir veritabanında sorgu dizisine yüksek oranda benzeyen dizileri bulmak için). İkili hizalamalar üretmekte kullanılan üç ana yöntem, nokta-matris yöntemleri, dinamik programlama ve sözcük yöntemleridir; ancak, çoklu hizalama yöntemlerinde de dizi ikilileri hizalanır. Her yöntemin kendi avantaj ve dezavantajları olsa da, bu ikili hizlama yöntemlerinin hepsi, düşük olan çok tekrarlı dizilerde zorlanırlar, özellikle hizalanacak olan iki dizideki tekrarlı altdizilerin sayıları farklıysa. Belli bir ikili hizalama yönteminin yararını nicelemenin bir yolu, 'maksimum yegane uyuşma' yani her iki dizide bulunan en uzun altdizidir. Daha uzun ortak altdiziler tipik olarak daha yakın bir ilişkiyi yansıtır.
Nokta matris yöntemleri
Nokta matris yaklaşımında her bir dizi bölgesi için hizalama aileleri üretilir. Bu yöntem nitel ve basittir ama büyük ölçekte analiz etmesi zaman alıcıdır. İnsersiyon, delesyon, tekrar ve ters dönmüş tekrar (inverted repeats) gibi bazı dizi özelliklerinin görsel tespiti çok kolaydır. Bir nokta matrisi oluşturmak için iki dizi, iki boyutlu bir matrisin üst satırı ve sol sütunu boyunca yazılır, sonra eğer bir satır ve sütunun başındaki harfler aynıysa kesişim yerine bir nokta konur. Bu yaklaşımın bazı uygulamalarında iki harfin benzerlik derecesiyle orantılı büyüklükte bir nokta konur, korunmalı substitusyonları hesaba katabilmek için. Birbirine çok benzeyen dizilerin nokta matrisleri, matrisin boyunca giden tek bir çizgi gibi görünür.
Nokta matris grafikleri (İng. dot plot) tek bir dizi içindeki tekrarlılık miktarını belirlemekte de kullanılabilir. Bir dizi kendi kendisi ile grafiklenir, birbirine önemli derecede benzerlik gösteren bölgeler ana çaprazın yanlarında çizgiler olarak görünür. Proteinin birden çok benzer oluşması durumunda bu görülebilir.
Dinamik programlama
Dinamik programlama tekniği, Needleman-Wunsch algoritması ile global hizalamalar üretmek için, ile de lokal hizalamalar üretmek için uygulanabilir. Tipik kullanımda, protain hizalamalarında amino asit uyuşma veya uyuşmamalarına bir skor verebilmek için bir substitusyon matrisi; bir dizideki amino asitin öbür dizide bir boşlukla eşleştirilmesi için de bir boşluk ceza değeri kullanılır. DNA ve RNA hizalamaları bir skor matrisi kullanabilir ama pratikte basitçene pozitif bir uyuşma skoru, negatif bir uyuşmama skoru ve negatif bir boşluk cezası verilir. (Standart dinamik programlamada, her amino asitin skoru komşularının kimliğinden bağımsızdır, dolayısıyla etkileri hesaba katılmaz. Ancak, algoritmayı değiştirip bu tür etkileri de göz önüne almak mümkündür.)
Standart doğrusal boşluk cezası yerine bazı algoritmalarda kullanılan bir varyasyon, iki ayrı boşluk cezası uygulamadır: biri boşluğu açmak içindir, öbürü ise boşluğu uzatmak içindir. Tipik olarak birinci cezanın değeri ikincisinden daha büyüktür, örneğin boşluk açmak için -10 puan, boşluk uzatmak için -2 puan kullanılabilir. Bunun sonucu olarak, bir hizalamadaki boşluk sayısı azalır, harfler ve boşluklar bir arada tutulmuş olur, bu da biyolojik bakımdan daha gerçekçi sayılır. , üç matris kullanarak 'affin' boşluk cezalarını hesaplar.
Dinamik programlama nükleotit dizilerini protein dizileri ile hizalamaya yarayabilir. Bu, karmaşık bir iş olabilir çünkü çerçeve kayması mutasyonlarının (genelde insersiyon ve delesyonlar) etkisini hesaba katmak gerekir. Çerçeve arama yöntemi kullanılarak bir nükleotit sorgu dizisi ile protein dizilerinden oluşan arama kümesi arasında (veya tersi) global veya lokal ikili hizalamalar üretilir. Bu yöntem çok yavaş olmasına rağmen, çerçeve kaymalarını değerlendirme yeteneği, çok sayıda "indel"ler (insersiyon ve delesyonlar) içeren diziler için çok yararlıdır. Bu tür dizilerin normalde verimli çalışan (höristik) yöntemlerle hizalanması çok zordur. Pratikte, bu yöntem yüksek hesaplama gücü veya dinamik programlama için özelleşmiş mimariye sahip bir bilgisayar sistemi gerektirir. BLAST ve paketleri, çevrimli (translasyonlu) hizalamalar yapmak için temel araçlara sahiptir (gerçi bunların bazılarının, bu programların arama yeteneklerinin yan etkilerinden yararlandığı söylenebilir). Daha genel yöntemler 'in 'ndeki FrameSearch gibi ticari kaynaklardan ve gibi bazı açık yazılım ürünlerinden elde edilebilir.
Dinamik proramlama yöntemi belli bir skorlama fonksiyonu için optimal hizalamayı bulmayı garantiler. Ancak, iyi bir skorlama fonksiyonunu belirlemek çoğu zaman teorik değil, empirik bir meseledir. Dinamik programlara ikiden çok diziye de genellenebilirse de, çok sayıda dizi veya çok uzun dizilerde kullanılamayacak derecede yavaş çalışır.
Sözcük yöntemleri
Sözcük yöntemleri, k-li yöntemler olarak da bilinir, optimal hizalama çözümünü bulması garantili olmayan, ama dinamik programlamadan önemli derecede daha verimli olan yöntemlerdir. Bu yöntemler büyük ölçekli veritabanlarında özellikle yararlıdır, çünkü bu veritabanlarındaki aday dizilerin büyük bir kısmının sorgu dizisiyle anlamlı bir uyuşma göstermeyeceği peşinen bilinmektedir. Sözcük yöntemleri, veritabanı arama araçları olan BLAST ailesi üyelerindeki ve FASTA programındaki uygulamaları ile bilinirler. Sözcük yöntemleri sorgu dizisinde bulunan kısa, örtüşmeyen altdizileri ("sözcükleri") tespit edip bunları veritabanındaki aday dizilerle eşleştirir. Bir sözcüğün iki dizideki pozisyonları arasındaki fark hesaplanarak bir kayma değeri elde edilir. Eğer farklı sözcükler aynı kayma değerine sahipse bu kayma değeri bir hizalanma bölgesini belirler. Ancak eğer böyle bir bölge bulunursa, o zaman daha hassas hizalama kıstasları uygulanır. Böylece kayda değer benzerlik göstermeyen diziler arasında pek çok gereksiz karşılaştırmanın önüne geçilmiş olur.
FASTA yönteminde kullanıcı, veritabanını aramakta kullanılacak sözcüğün uzunluğuna karşılık gelen bir k değeri seçer. Küçük k değerlerinde yöntem daha yavaş ama daha duyarlıdır, bunlar kısa sorgu dizileri için tercih edilir. BLAST ailesindeki araştırma yöntemleri, belli sorgu tipleri (örneğin uzaktan ilişkili dizilerin bulunması) için optimize edilmiş çeşitli algoritmalara sahiptir. BLAST, FASTA'dan daha hızlı olup doğruluktan çok az bir fedakarlık yapma özelliği için geliştirilmiştir. FASTA gibi BLAST da k uzunluklu bir sözcük araması yapar ama sadece en önemli sözcük uyuşmalarını değerlendirir, FASTA gibi her sözcük uyuşmasına bakmaz. Çoğu BLAST uygulamasında varsayılan sözcük uzunluğu değişmez, sorgu ve arama tipine göre optimize edilir, ancak istisnai durumlarda, tekrarlı dizileri ararken veya kısa sorgu dizileri için değiştirilir. BLAST çeşitli Web portallarında bulunabilir, örneğin EMBL FASTA 11 Aralık 2010 tarihinde Wayback Machine sitesinde . and NCBI BLAST 26 Haziran 2004 tarihinde Wayback Machine sitesinde ..
Çoklu dizi hizalaması
Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ilişkiyi ortaya koymak için kullanılır. Böylesi korunmuş diziler, yapısal ve mekanistik bilgilerle beraber kullanılarak enzimlerin katalitik aktif bölgesinin yerini bulmaya yarar. Çoklu dizi hizalamaların üretimi berimsel bakımdan zordur ve bu problemin çoğu formülasyonu NP-tam kombinatoryal optimizasyon problemlerine dönüşür. Buna rağmen, bu hizalamaların biyoinformatikteki faydaları nedeniyle 3 veya daha fazla dizinin hizalanmasını sağlıyan çeşitli yöntemler geliştirilmiştir.
Dinamik programlama
Dinamik progrmalama tekniği herhangi sayıda dizi için kullanılabilir. Ancak, berimsel olarak hem zaman hem bellek bakımından pahalı olduğu için, en basit biçimiyle dahi üç veya dört tane diziden fazlası için kullanılmaz. Bu yöntem iki dizinin hizalanmasında yaratılan matrisin n-boyutlu karşılığının inşasını gerektirir, burada n, sorgu kümesindeki dizi sayısıdır. Sorgu dizilerindeki her bir dizi çifti için standart dinamik programlama kullanılır, sonra bu ara çözümler arasındaki uyuşmalar veya boşluklar değerlendirilerek "hizalama uzayı" tamamlanır, yani her iki dizili hizalama arasında bir hizalama yapılmış olur. Bu yöntem berimsel olarak pahalı olsa da, global optimal çözümü üreteceğini garantiler, bu yüzden az sayıda dizinin hatasız hizalanması gerektiğinde faydalıdır. Berimsel karmaşıklığı azaltılmasını bir yolu "çiftler toplamı" adlı dayanır, bu yaklaşım MSA 2 Kasım 2015 tarihinde Wayback Machine sitesinde . yazılım programında uygulanmıştır.
İlerlemeci yöntemler
İlerlemeci, hiyerarşik veya ağaç yöntemleri, birbirine en benzer dizileri hizalamakla başlar, sonra gittikçe daha az benzeyen dizilerin hizalamaya eklenmesi ile sonunda tüm sorgu kümesi sonuca dahil edilir. Dizilerin yakınlığını betimleyen ağaç yapısı ikili kıyaslamalara dayanır, bunlar gibi höristik ikili hizalama yöntemleri kullanır. İlerlemeci hizalama sonuçları "en benzer" dizilerin seçimine bağımlıdır, bu yüzden ilk yapılan ikili hizalamadaki hatalara duyarlıdır. Çoğu ilerlemeci, çoklu dizi hizalama yöntemi buna ek olarak, sorgu kümesindeki diziler arasındaki yakınlık drecesine göre onlara ağırlık verir, böylece ilk dizilerin kötü seçilmesi olasılığı azalır ve en son hizalamanın doğruluğu iyileşir.
ilerlemeci uygulamalarının çoğu varyasyonu çoklu dizi hizalaması, filogenetik ağaç inşası ve girdi hazırlamakta kullanılır. İlerlemeci yöntemin daha yavaş ama daha doğruluklu bir varyantı olarak adlandırılır. Bu algoritmaların uygulamaları ve T-Coffee 21 Aralık 2010 tarihinde Wayback Machine sitesinde .'de bulunabilir.
Tekrarlayıcı yöntemler
İlerlemeci yöntemlerin zayıf bir yönü, ilk ikili hizalamanın doğru olmasına olan büyük bağımlılıktır. Tekrarlayıcı yöntemler, bunu iyileştirmeye çalışırlar. Tekrarlayıcı yöntemler seçilmiş bir skorlama fonksiyonuna dayanan optimize ederler, ilk global hizalamayı oluşturup sonra dizi altkümelerini yeniden hizalayarak. Yeniden hizalanan altkümelerin kendileri de hizalanarak çoklu dizi hizalamasının bir sonraki yinelemesini oluştururlar. Dizi altkümelerini ve objektif fonksiyonu seçmek için çeşitli yollar mevcuttur.
Motif keşfi
Motif bulmak veya profil analizi, sorgu kümesindeki dizilerde bulunan kısa, korunmuş hizalamaya çalışan, global çoklu dizi hizalamaları inşa eder. Önce bir global dizi hizalaması inşa edilir, sonra yüksek derecede bölgeler tespit edilir ve bunlar bir profil matrisi oluşturmak için kullanılır. Her korunmuş bölgenin profil matrisi bir skorlama matrisi gibi düzenlenmiştir ama, her pozisyondaki harf için frekans sayıları, korunmuş bölgedeki harf dağılımından elde edilmiştir, daha genel bir dağılımdan değil. Bunun ardından, profil matrisleri betimledikleri motifi başka dizilerde aramak için kullanılırlar. Orijinal veri kümesinde az sayıda dizi olması veya bu dizilerin birbiriyle çok yakın ilişkili olması hâlinde, motifte temsil edilen harf dağılımını normalize etmek için sahte sayımlar eklenir.
Bilgisayar biliminde esinlenmiş yöntemler
Bilgisayar biliminde yaygın kullanılan çeşitli optimizasyon algoritmaları çoklu dizi hizalama problemine uygulanmıştır. belli bir sorgu kümesi için olasıl çoklu dizi hizalamaları için olasılık skorları üretmek için kullanılır. Bu yaklaşımla çalışan ilk uygulamalar hayal kırıcı olduysa da, daha sonrakilerin uzaktan ilişkili dizilerin tespitinde özellikle etkili olduğu bulunmuştur, çünkü bu yöntemler korunmuş veya yarı korunmuş substitusyonların yarattığı gürültüden kolay etkilenmemektedirler.Genetik algoritmalar ve benzetilmiş tavlama da çoklu dizi hizalama skorlarını optimize etmekte kullanılmıştır. Bu konuda daha çok ayrıntı çoklu dizi hizalaması hakkındaki maddede bulunabilir.
Yapısal hizalama
Yapısal hizalamalar genelde protein ve bazen RNA dizileri için yapılır, dizileri hizalamak için protein ve RNA molekülünün ikincil ve üçüncül yapısı hakkındaki bilgiyi kullanılır. Bu yöntemler iki ve daha çok dizi için uygulanabilir ve tipik olarak lokal hizalamalar üretir. Ancak, yapısal bilgiye bağımlı oldukları için, sadece yapısı bilinen dizilerde işe yararlar. Gerek protein gerek RNA'da yapı, evrimsel olarak diziden daha çok korunur, Evrimsel olarak çok uzaktan ilişkili olan, dizi kıyaslaması yoluyla benzerlikleri belirlenemeyecek derecede ıraksamış dizilerde yapısal hizalamalar daha güvenilir sonuç verir.
Homoloji-temelli için yapılan hizalamaları değerlendirmede yapısal hizalamalar "altın standart" sayılır Bunun nedeni, sadece dizi bilgisine dayanmak yerine yapısal benzerlik gösteren bölgeleri kasten hizalamalarıdır. Ancak, tamamen yapısal hizalamalar tabii ki yapı tahmininde kullanılamaz çünkü sorgu kümesindeki en az bir dizi, modellenmesi amaçlanan hedef dizidir ve onun yapısı bilinmemektedir. Bir hedef ve bir kalıp dizinin yapısal hizalamasında, hedef proteinin yüksek doğruluklu modellerinin bu tür yöntemlerle elde edilebileceği gösterilmiştir.
DALI
DALI yöntemi (İngilizce distance matrix alignment teriminden kısaltılmıştır), sorgu dizisindeki ardışık heksapeptitlerin temas benzerliklerine dayanarak elde edilen yapısal bir hizalama yöntemidir. Bu yöntemle ikili veya çoklu hizalamalar üretebilir ve sorgu dizisinin Protein Data Bank'taki yapısal komşularını tespit edebilir. yapısal hizalama veri tabanını oluşturmakta kullanılmıştır. DALI Web sunucusuna EBI DALI 27 Şubat 2008 tarihinde Wayback Machine sitesinde .'den ulaşılabilir, FSSP ise 'de bulunmaktadır.
SSAP
SSAP (sequential structure alignment program, sıralı yapı hizalama programı), dinamik programlama ile çalışan bir yapısal hizalama yöntemidir, yapı uzayında atomdan atoma vektörleri kıyaslama noktaları olarak değerlendirir. İlk tarif edilişinden beri bu yöntem geliştirilerek hem ikili hem de çoklu hizalamaları kapsamaktadır. SSAP kullanılarak (Class, Architecture, Topology, Homology, sınıf mimarî, topoloji homoloji) adlı, protein katlamalarının hiyerarşik bir veritabanı kurulmuştur. CATH veritabanına CATH Protein Structure Classification 17 Aralık 2010 tarihinde Wayback Machine sitesinde . sitesinden erişilebilir.
Kombinatoryal uzatma
Yapısal hizalama için kombinatoryal uzatma yöntemi, karşılaştırılan iki proteinin kısa parçaları için lokal geometriye dayalı ikili yapısal hizalamalar yapar, sonra bu parçaları birleştirerek daha büyük bir hizalama yapar. Katı-gövde (rigid body) , kalıntı uzaklıkları, lokal ikincil yapı ve çevresel özellikler (kalıntı komşu hidrofobisitesi gibi) kullanılarak "hizalanmış parça ikilileri" denen lokal hizalamalar üretilir. Bunlar kullanılarak, belli tanımlanmış eşik kıstasları dahilinde tüm olasıl yapısal hizalamaları temsil eden bir benzerlik matrisi inşa edilir. Büyüyen birer dizi parçası eklenerek hizalama büyütülür. Bu işlem sırasında, matris aracılığıyla, bir protein yapı hâlinden diğerine giden bir yol çizilir; optimal yol, kombinatoryal uzatma hizalamasını tanımlar. Bu yöntemi uygulayan bir Web sunucusu ve Protein Data Bank'taki yapılar için ikili hizalamalar veritabanı Combinatorial Extension sitesinde bulunmaktadır.
Filogenetik analiz
(Ana|Berimsel filogenetik) Filogenetik ve dizi hizalaması birbiriyle yakından ilişkili sahalardır çünkü ikisi de dizi yakınlığı belirlemesi yapar. Filogenetik sahası, filogenetik ağaçların inşası ve yorumlamasında dizi hizalamasından yararlanır. Filogenetik ağaçlar, evrimsel olarak ıraksamış türlerin genomlarında bulunan homolog genlerdeki evrimsel ilişkiyi sınıflandırmakta kullanılır. Bir sorgu kümesindeki dizilerin birbirlerinden farklılığı, bu dizilerin birbirlerine olan evrimsel uzaklığı ile nitel olarak ilişkilidir. Basit şekilde ifade edilecek olursa, yüksek derecede dizi aynılığı, söz konusu dizilerin nispeten yakın zamanda bir en yakın ortak atası olabileceğini ima eder, buna karşın düşük derecede aynılık, evrimsel ıraksamanın daha eskilere dayandığı olasılığına karşılık gelir. Bu ilkenin dayalı olduğu "moleküler saat" hipotezine göre dizilerden meydana gelen soylarda mutasyon ve etkisinin değişmediği varsayılır. Yaklaşık sabit bir evrimsel değişim hızına dayanarak yapılacak bir ekstrapolasyon sayesinde, iki genin ilk defa birbirinden ne zaman farklılaştığının hesaplanabilir. Dolayısıyla, organizmalar veya türler arasında DNA tamiri yeteneği bakımından farklılık olabileceğini veya dizilerde belli bölgelerin işlevsel nedenlerle korunabileceğini hesaba katmaz. Ayrıca, moleküler saat hipotezinin en basit versiyonunda, protein kodlayıcı bölgelerde proteinin amino asit dizisini değiştiren ve değiştirmeyen DNA mutasyonlarının korunma olasılıkları arasında bir fark olabileceği de hesaba katılmaz. Daha hassas istatistik yöntemler bir filogenetik ağacın her dalı için evrimleşme hızının farklı olmasına izin verir, bu sayede gen soylarının birleştiği zamanın daha doğru kestirilmesine olanak verir.
İlerleyici çoklu hizalama teknikleri zorunlu olarak bir filogenetik ağaç üretir, çünkü büyüyün hizalamaya ekledikleri dizilerin sırası, evrimsel yakınlık derecesine bağlıdır. Çoklu dizi hizalamalarını ve filogenetik ağaçları oluşturan diğer yöntemler önce tüm olasıl ağaçlara bir skor verir, sonra en yüksek skora sahip ağaçtan bir çoklu dizi hizalaması hesaplar. Filogenetik ağaç inşasında yaygın olarak kullanılan yöntemler başlıca höristiktir çünkü optimal ağacın seçilmesi, optimal çoklu dizi hizalamasının seçilmesi gibi, NP-zordur.
Anlamlılık tayini
Dizi hizalaması biyoenformatikte dizi benzerliğini tespit etmeye, filogenetik ağaç üretmeye ve protein yapıları için homoloji modelleri geliştirmeye yarar. Ancak, dizi hizalamalarının biyolojik anlamı her zaman açık değildir. Hizalamaların, ortak atadan inmiş diziler arasındaki evrimsel farklılığı yansıttığı varsayılır. Fakat, evrimsel olarak ilişkisiz olup benzer işlev gösteren ve bu yüzden benzer yapıya sahip proteinlerin yakınsak evrim sonucu dizi benzerliği göstermeleri mümkündür.
BLAST gibi veritabanı aramalarında, istatistik yöntemler kullanılarak, diziler arasında belli bir hizalamanın şans eseri olma olasılığı, veritabanının büyüklüğü ve bileşimine dayanarak hesaplanabilir. Arama uzayına bağlı olarak olasılık değerleri önemli derecede fark edebilir. Eğer veritabanındaki diziler sadece sorgu dizisin organizmasına ait dizilerden oluşuyorsa, belli bir hizalamanın şans eseri olma olasılığı özellikle artar. Veritabanında veya sorgu dizisinde tekrarlı dizilerin varlığı hem arama sonuçlarını hem de istatistik anlamlılık tayinini çarpıtabilir. BLAST otomatik olarak sorgu dizisindeki tekrarlı dizileri filtreler, böylece istatistik artifakt sonucu olan bulguları elimine eder.
Boşluklu dizi hizalamalarının istatistik anlamlılığını kestiren istatistik yöntemler literatürde mevcuttur.
İnanılırlık tayini
İstatistik anlamlılık, belli kaliteye sahip bir hizalamanın şans eseri elde edilme olasılığını gösterir ama sorgu dizisinin belli bir hizalamasının diğer hizalamalardan ne derece daha iyi olduğunu belirtmez. Hizalanma inanılırlığının ölçütleri, belli bir dizi ikilisi için en yüksek skorlu hizalamalarının ne derece birbirine eşdeğer olduğunu gösterir. Boşluklu dizi hizalamaları için istatistik inanılırlık değerlendirme yöntemleri literatürde mevcuttur.
Skor fonksiyonları
Bilinen diziler hakkında biyolojik veya istatistik gözlemleri yansıtan bir skor fonksiyonunun seçimi, iyi hizalamalar elde edilmesinde çok önemlidir. Protein dizileri genelde kullanılarak yapılır, bu matrisler belli karakter substitusyonlarının olma olasılıklarını yansıtır. (Point accepted mutation, noktasal olarak kabul edilmiş mutasyon) olarak adlandırılan bir grup matris, belli amino asit mutasyonlarının olma hızları ve olasılıklarını içerir (bu matrisler tarafından tanımlanmış olduğu için bazen "Dayhoff matrisleri" olarak da adlandrılır). Sık kullanılan başka bir grup matris ise (Blocks Substitution Matrix blok substitusyon matrisi) olarak adlandırılır, bunlar empirik olarak gözlemlenmiş substitusyon olasılıklarını kodlar. Her iki tip matrislerin varyantları, farklı düzeylerde ıraksama göstermiş dizilerin tayininde kullanılır. Böylece, BLAST veya FASTA kullanıcıları aramalarını sadece yakın ilişkili uyuşmalara kendilerini sınırlayabilir veya arzu ederlerse daha uzak ilişkili dizileri de bulabilmeleri mümkün olur. hizalamaya bir boşluk katılmasına etki eder. Bu boşluk ceza skoru, evrimsel anlamda bir insersiyon veya delesyon mutasyonunun olma hızı ile orantılı olmalıdır. Elde edilen hizalamaların kalitesi skor fonksiyonunun kalitesine bağlıdır.
Aynı hizalamayı farklı skor matrisleri ve/veya boşluk cezaları ile tekrarlayıp sonuçları karşılaştırmak çok yararlı olabilir. Hizalama parametrelerindeki varyasyonlara dayanıklılık gösteren hizalama bölgeleri tespit edilerek, sonucun zayıf olduğu veya tek olmadığı bölgeler belirlenebilir.
Diğer biyolojik uygulamalar
Dizilenmiş RNA, örneğin " (expressed sequence tags) ve tam-uzunluklu mRNAlar, dizilenmiş bir genom ile hizalanarak nerede genlerin bulunduğu ve yerleri hakkında bilgi edinilebilir. and . Dizi hizalaması ayrıca (genome assembly) sürecinin parçasıdır. Dizilenen parçalar hizalanarak örtüşme yerleri bulunur, böylece adı verilen uzun diziler oluşturulur. Bir diğer uygulama, (single nucleotide polymorphism tekil nükleotit polimorfizmi) analizidir, burada farklı kişilera ait diziler hizalanarak toplulukta farklılık gösteren tek nükleotitler bulunur.
Biyolojik olmayan uygulamalar
Biyolojik dizi hizalamasında kullanılan yöntemler başka sahalarda da uygulamaları olmuştur, özellikle doğal dil işlemlemesi (natural language processing) ve sosyal bilimlerde. Doğal dil üretme algoritmaları tarafından sözcük seçimi, biyoenformatikte geliştirilmiş çoklu dizi hizalama yöntemleri kullanmaktadır. Tarihsel ve karşılaştırmali dilbilim sahalarında, dilbilimcilerin dilleri oluşturmak için kullandıkları karşılaştırma yöntemi, dizi hizalaması ile otomatize edilmiştir. İşletme ve pazarlama araştırmacıları zaman içinde bir dizi satın alma olayını analiz etmek için çoklu dizi hizalama yöntemlerini kullanmıştır.
Yazılım
Algoritma ve hizalama tipine göre kategorize edilmiş yazılımları daha geniş bir listesi maddesinde verilmiştir. Genel dizi hizalama problemlerinde yaygın kullanılan araçlar arasında ClustalW 22 Aralık 2010 tarihinde Wayback Machine sitesinde . ve , veritabanı araması için de ve FASTA3x 7 Haziran 2010 tarihinde Wayback Machine sitesinde . sayılabilir.
Hizalama algoritma ve yazılımlarını karşılaştırmak için adlı (benchmark) referans çoklu dizi hizalamaları mevcuttur. Bu veri grubu yapısal hizalamalardan oluşmaktadır, sadece diziye dayalı yöntemler için bunun bir standart oluşturduğu düşünülebilir. Çoğu hizalama yönteminin göreceli performansı, sıklıkla görülen hizalama problemleri için belirlenmiş ve sonuçlar sitesinde yayımlanmıştır. Farklı hizalama araçları için BAliBASE skorlarının kapsamlı bir listesi STRAP 5 Mart 2012 tarihinde Wayback Machine sitesinde . sitesinde hesaplanabilir.
Kaynakça
- ^ a b c Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2 bas.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN . Kaynak hatası: Geçersiz
<ref>
etiketi: "mount" adı farklı içerikte birden fazla tanımlanmış (Bkz: ) - ^ "Ng PC, Henikoff S. Predicting deleterious amino acid substitutions. Genome Res. 2001 May;11(5):863-74". 26 Eylül 2011 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Schneider TD, Stephens RM (1990). "Sequence logos: a new way to display consensus sequences". Nucleic Acids Res. Cilt 18. ss. 6097-6100. doi:10.1093/nar/18.20.6097. (PMC) 332411 $2. (PMID) 2172928. 12 Mayıs 2020 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S (2003). "Glocal alignment: finding rearrangements during alignment". Bioinformatics. Cilt 19 Suppl 1. ss. i54-62. doi:10.1093/bioinformatics/btg1005. (PMID) 12855437. 13 Ocak 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2010.
- ^ Wang L, Jiang T. (1994). "On the complexity of multiple sequence alignment". J Comput Biol. Cilt 1. ss. 337-48. (PMID) 8790475.
- ^ Lipman DJ, Altschul SF, Kececioglu JD (1989). "A tool for multiple sequence alignment". Proc Natl Acad Sci USA. Cilt 86. ss. 4412-5. doi:10.1073/pnas.86.12.4412. (PMID) 2734293. 10 Eylül 2017 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Higgins DG, Sharp PM (1988). . Gene. 73 (1). ss. 237-44. doi:10.1016/0378-1119(88)90330-7. (PMID) 3243435. 14 Şubat 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2010.
- ^ Thompson JD, Higgins DG, Gibson TJ. (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Res. Cilt 22. ss. 4673-80. doi:10.1093/nar/22.22.4673. (PMC) 308517 $2. (PMID) 7984417.
- ^ Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003). "Multiple sequence alignment with the Clustal series of programs". Nucleic Acids Res. Cilt 31. ss. 3497-500. doi:10.1093/nar/gkg500. (PMID) 12824352. 27 Nisan 2020 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Notredame C, Higgins DG, Heringa J. (2000). . J Mol Biol. 302 (1). ss. 205-17. doi:10.1006/jmbi.2000.4042. (PMID) 10964570. 17 Ekim 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2010.
- ^ Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). . Comput Appl Biosci. Cilt 11. ss. 13-8. doi:10.1093/bioinformatics/11.1.13. (PMID) 7796270. 21 Şubat 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2010.
- ^ Karplus K, Barrett C, Hughey R. (1998). "Hidden Markov models for detecting remote protein homologies". Bioinformatics. 14 (10). ss. 846-856. doi:10.1093/bioinformatics/14.10.846. (PMID) 9927713. 13 Ocak 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2010.
- ^ Chothia C, Lesk AM. (Nisan 1986). "The relation between the divergence of sequence and structure in proteins". EMBO J. 5 (4). ss. 823-6. (PMC) 1166865 $2. (PMID) 3709526.
- ^ a b Zhang Y, Skolnick J. (2005). "The protein structure prediction problem could be solved using the current PDB library". Proc Natl Acad Sci USA. Cilt 102. ss. 1029-34. doi:10.1073/pnas.0407152101. (PMID) 15653774. 8 Mart 2020 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Holm L, Sander C (1996). "Mapping the protein universe". Science. Cilt 273. ss. 595-603. doi:10.1126/science.273.5275.595. (PMID) 8662544.
- ^ Taylor WR, Flores TP, Orengo CA. (1994). "Multiple protein structure alignment". Protein Sci. Cilt 3. ss. 1858-70. doi:10.1002/pro.5560031025. (PMID) 7849601.[]
- ^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH--a hierarchic classification of protein domain structures". Structure. Cilt 5. ss. 1093-108. doi:10.1016/S0969-2126(97)00260-8. (PMID) 9309224.
- ^ Shindyalov IN, Bourne PE. (1998). "Protein structure alignment by incremental combinatorial extension (CE) of the optimal path". Protein Eng. Cilt 11. ss. 739-47. doi:10.1093/protein/11.9.739. (PMID) 9796821. 25 Eylül 2019 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN .
- ^ Newberg LA (2008). "Significance of gapped sequence alignments". J Comput Biolo. Cilt 15. 1187-1194. doi:10.1089/cmb.2008.0125. (PMID) 18973434.
- ^ Eddy SR (2008). "A probabilistic model of local sequence alignment that simplifies statistical significance estimation". PLoS Comput Biol. Cilt 4. ss. e1000069. doi:10.1371/journal.pcbi.1000069. (PMID) 18516236.
- ^ Newberg LA, Lawrence CE (2009). "Exact Calculation of Distributions on Integers, with Application to Sequence Alignment". J Comput Biolo. 16 (1). 1-18. doi:10.1089/cmb.2008.0137. (PMID) 19119992.
- ^ Kim N, Lee C (2008). "Bioinformatics detection of alternative splicing". Methods Mol. Biol. Cilt 452. ss. 179-97. doi:10.1007/978-1-60327-159-2_9. (PMID) 18566765.
- ^ Li JB, Levanon EY, Yoon JK; ve diğerleri. (Mayıs 2009). "Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing". Science. 324 (5931). ss. 1210-3. doi:10.1126/science.1170995. (PMID) 19478186.
- ^ Blazewicz J, Bryja M, Figlerowicz M; ve diğerleri. (Haziran 2009). "Whole genome assembly from 454 sequencing output via modified DNA graph concept". Comput Biol Chem. 33 (3). ss. 224-30. doi:10.1016/j.compbiolchem.2009.04.005. (PMID) 19477687.
- ^ Duran C, Appleby N, Vardy M, Imelfort M, Edwards D, Batley J (Mayıs 2009). "Single nucleotide polymorphism discovery in barley using autoSNPdb". Plant Biotechnol. J. 7 (4). ss. 326-33. doi:10.1111/j.1467-7652.2009.00407.x. (PMID) 19386041.
- ^ Abbott A., Tsay A. (2000). "Sequence Analysis and Optimal Matching Methods in Sociology, Review and Prospect". Sociological Methods and Research. Cilt 29. ss. 3-33. doi:10.1177/0049124100029001001.
- ^ Barzilay R, Lee L. (2002). "Bootstrapping Lexical Choice via Multiple-Sequence Alignment" (PDF). Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Cilt 10. ss. 164-171. doi:10.3115/1118693.1118715. 6 Ocak 2010 tarihinde kaynağından (PDF). Erişim tarihi: 20 Ağustos 2010.
- ^ Kondrak, Grzegorz (2002). (PDF). University of Toronto, Ontario. 26 Mart 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 21 Ocak 2007.
- ^ Prinzie A., D. Van den Poel (2006). "Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM". Decision Support Systems. 42 (2). ss. 508-526. doi:10.1016/j.dss.2005.02.004. 10 Mart 2007 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010. See also Prinzie and Van den Poel's paper Prinzie, A (2007). "Predicting home-appliance acquisition sequences: Markov/Markov for Discrimination and survival analysis for modeling sequential information in NPTB models". Decision Support Systems. 44 (1). ss. 28-45. doi:10.1016/j.dss.2007.02.008. 10 Ekim 2010 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
- ^ Thompson JD, Plewniak F, Poch O (1999). "BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs". Bioinformatics. Cilt 15. ss. 87-8. doi:10.1093/bioinformatics/15.1.87. (PMID) 10068696. 13 Ocak 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2010.
- ^ Thompson JD, Plewniak F, Poch O. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Res. Cilt 27. ss. 2682-90. doi:10.1093/nar/27.13.2682. (PMID) 10373585. 25 Eylül 2019 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2010.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Biyoenformatikte dizi hizalamasi DNA RNA veya protein dizilerini duzenleyerek benzer bolgelerin tespit edilmesidir Bu bolgelerin benzer olmasi diziler arasinda islevsel yapisal veya evrimsel bir iliski oldugu anlamina gelir Hizalanmis nukleotit veya aminoasit dizileri tipik olarak bir matriksin satirlari olarak gosterilir temsil eden harflerin arasina bosluklar konarak ardisik sutunlarda yer alan ayni veya benzer harflerin bir hizada olmasi altalta gelmesi saglanir ile elde edilmis iki insan soldaki ile tanimlanmis dizi hizalamasi Anahtar Tekli harfler amino asitler Kirmizi kucuk hidrofobik aromatik Y degil Mavi asidik Magenta bazik Yesil hidroksil amin amit bazik Gri digerleri birbirinin ayni korunmus substitusyonlar ayni renk grubu yari korunmus substitusyonlar benzer sekiller Dizi hizalamasi biyolojik olmayan dizilerde ornegin dogal dil veya finansal verilerde de kullanilabilir YorumlamaIki dizi ortak bir ataya sahipse hizalamada eslesmeyen harfler bu dizilerin birbirinden iraksadigi zamandan beri meydana gelmis noktasal mutasyonlar olarak yorumlanir Hizalamadaki bosluklar ise insersiyon veya delesyonlar indel olarak yorumlanir Proteinlerin dizi hizalamasinda belli bir pozisyondaki amino asitlerin benzerlik derecesi bu proteinler icin belli bir bolge veya dizi motifininin ne kadar oldugunun kaba bir olcutu olarak alinabilir Dizinin belli bir bolgesinde substitusyonlarin olmamasi veya sadece cok muhafazkar substitusyonlarin olmasi yani benzer biyokimyasal ozellige sahip amino asit substitusyonlari bu bolgenin yapisal veya islevsel bir oneme sahip oldugunun bir belirtisi sayilir DNA ve RNA bazlari proteinlerdeki aminoasitlerden daha cok birbirine benzese de baz ciftlerinin korunmasi da benzer bir islevsel veya yapisal onemi belirtebilir Hizalama yontemleriCok kisa veya cok benzer diziler elle hizalanabilir Ancak cogu ilginc problem insan eliyle yapilamiyacak kadar uzun karmasik veya cok sayida dizinin hizalanmasini gerektirir Boyle durumlarda kaliteli dizi hizalamalari elde edebilmek icin insan bilgisine dayanan algoritmalar kullanilir Ender olarak bu algoritmalardan elde edilen sonuclar algoritmik olarak ifadesi zor olan durumlar icin elle duzeltilebilir Dizi hizalamasi icin kullanilan hesaplamali yontemler genelde iki gruba ayrilir global optimizasyon ve yerel optimizasyon Global hizalamanin bulunmasi bir cesididir ve elde edilecek hizalamanin sorgulanan dizilerin tamamini kapsamaya zorlar Buna karsin yerel hizalamalar genelde birbirinden cok farklilik gosteren uzun dizilerde benzer bolgeleri tespit eder Cogu zaman yerel hizalamalar tercih edilir ama bunlarin bulunmasi daha zor olabilir Dizi hizalama problemi icin cesitli algoritmalar uygulanmistir bunlarin bazilari dinamik programlama gibi yavas ama formel olarak eniyileyici yontemlerdir bazilari ise hizli ama mutlaka mukemmel sonucu vermeyebilen veri tabani aramalari icin tasarlanmis bulussal algoritmalar veya olasiliksal yontemlerdir Temsil bicimleriHizalamalar genelde hem grafik olarak hem de metin olarak gosterilir Hemen her dizi hizalama gosteriminde diziler satirlar seklinde ve hizalanmis harfler de sutunlar halinde duzenlenir Metin formatlarinda ayni veya benzer harfler iceren hizalanmis sutunlar korunma sembolleri ile gosterilir Yukaridaki resimde oldugu gibi bir yildiz veya dik cizgi iki satir arasindaki ayniligi gostermekte kullanilir daha ender kullanilan semboller ise korunmus bir substitusyon icin iki nokta ust uste ve yari korunmus substitusyonlar icin bir noktadir Cogu dizi goruntuleme programlari ayrica substitusyon harflerinin ozelliklerini belirtmek icin renkler kullanir DNA ve RNA dizilerinde her nukleotidin kendi rengi olur Protein hizalamalarinda ornegin yukaridaki ornekte oldugu gibi belli bir amino asit substitusyonunu degerlendirmek icin renk kullanilir Coklu dizilerde her sutunun son satiri o hizalama ile belirlenmis olan konsensus dizinin grafik olarak gosterilmesi bir ile olur dizi logosunda her nukleotit veya amino asitin harfinin buyuklugu o harfin korunma derecesine karsilik gelir Dizi hizalamalari cesitli metin tabanli dosya formatlarinda saklanabilir bunlarin cogu ilk olarak belli bir hizalama programi veya uygulamasi ile birlikte gelistirilmistir Cogu Web temelli araclar sinirli sayida girdi ve cikti format secenegi verirler ornegin FASTA formati ve GenBank formati gibi ve program ciktisi genelde kolayca degistirilemez Cesitli format donusturme programlari mevcuttur bunlardan ve gibi bazilarinin grafik arayuzu veya komut satir arayuzu vardir buna karsin gibi program paketlerinin buna olanak veren kendi fonksiyonlari vardir Global ve lokal hizalamalarGlobal ve lokal hizalama arasindaki farkin bir ornegi Eger diziler yeterince benzer degilseler global hizalamalar bosluklu olur Global hizalamalarda her dizideki her harfin hizalanmasi amaclanir Sorgu kumesindeki diziler birbirine benzer ve yaklasik ayni uzunlukta olursa global hizalamalari en yararli olur Ama bu global hizalamalarin bosluklarla sonlanamayacagi anlamina gelmez Global hizalama tekniklerinden biri dinamik programlamaya dayali olan Needleman Wunsch algoritmasidir Birbirine benzemeyen ama benzer bolgeler icerdigi tahmin edilen diziler icin lokal hizalamalar daha yararlidir Keza benzer kisa dizi motiflerinin tespitinde lokal hizalamalar kullanilir da dinamik programlamaya dayali bir lokal hizalama yontemidir Eger diziler yeterince birbirine benziyorsa lokal ve global hizalama sonuclari arasinda bir fark olmaz Hibrit yontemler yari global veya glokal yontemler olarak da adlandirilabilir bir veya obur dizinin basi ve sonunu da kapsayan en iyi hizalamayi bulmaya calisir Dizilerden birinin sonu oburunun basi ile ortusuyorsa bu ozellikle yararli olabilir Bu durumda ne global ne de lokal hizalama tamamen uygundur global yontem hizalamayi ortusme bolgesinin disina uzatmaya calisacaktir lokal yontem ise ortusme bolgesini yeterince kapsamayabilir Ikili hizalamaIkili hizalama yontemleri iki sorgu dizisinin birbiriyle en iyi uyusan parcali lokal veya global hizalamasini bulmakta kullanilir Ikili hizalamalar bir defada sadece iki dizi arasinda bulunabilir ama hesaplanmalari verimlidir ve cogu zaman cok yuksek dogruluk gerektirmeyen yontemlerde kullanilirlar ornegin bir veritabaninda sorgu dizisine yuksek oranda benzeyen dizileri bulmak icin Ikili hizalamalar uretmekte kullanilan uc ana yontem nokta matris yontemleri dinamik programlama ve sozcuk yontemleridir ancak coklu hizalama yontemlerinde de dizi ikilileri hizalanir Her yontemin kendi avantaj ve dezavantajlari olsa da bu ikili hizlama yontemlerinin hepsi dusuk olan cok tekrarli dizilerde zorlanirlar ozellikle hizalanacak olan iki dizideki tekrarli altdizilerin sayilari farkliysa Belli bir ikili hizalama yonteminin yararini nicelemenin bir yolu maksimum yegane uyusma yani her iki dizide bulunan en uzun altdizidir Daha uzun ortak altdiziler tipik olarak daha yakin bir iliskiyi yansitir Nokta matris yontemleri Bir insan cinko parmak GenBank ID NM 002383 nokta matris grafigi bolgesel gostermektedir Ana capraz dizinin kendizi ile hizalanmasini temsil etmektedir ana caprazin disinda yer alan cizgiler birbirinin ayni veya birbirine benzer tekrarli altdizilerdir Bu grafik recurrence plot tipik bir ornegidir Nokta matris yaklasiminda her bir dizi bolgesi icin hizalama aileleri uretilir Bu yontem nitel ve basittir ama buyuk olcekte analiz etmesi zaman alicidir Insersiyon delesyon tekrar ve ters donmus tekrar inverted repeats gibi bazi dizi ozelliklerinin gorsel tespiti cok kolaydir Bir nokta matrisi olusturmak icin iki dizi iki boyutlu bir matrisin ust satiri ve sol sutunu boyunca yazilir sonra eger bir satir ve sutunun basindaki harfler ayniysa kesisim yerine bir nokta konur Bu yaklasimin bazi uygulamalarinda iki harfin benzerlik derecesiyle orantili buyuklukte bir nokta konur korunmali substitusyonlari hesaba katabilmek icin Birbirine cok benzeyen dizilerin nokta matrisleri matrisin boyunca giden tek bir cizgi gibi gorunur Nokta matris grafikleri Ing dot plot tek bir dizi icindeki tekrarlilik miktarini belirlemekte de kullanilabilir Bir dizi kendi kendisi ile grafiklenir birbirine onemli derecede benzerlik gosteren bolgeler ana caprazin yanlarinda cizgiler olarak gorunur Proteinin birden cok benzer olusmasi durumunda bu gorulebilir Dinamik programlama Dinamik programlama teknigi Needleman Wunsch algoritmasi ile global hizalamalar uretmek icin ile de lokal hizalamalar uretmek icin uygulanabilir Tipik kullanimda protain hizalamalarinda amino asit uyusma veya uyusmamalarina bir skor verebilmek icin bir substitusyon matrisi bir dizideki amino asitin obur dizide bir boslukla eslestirilmesi icin de bir bosluk ceza degeri kullanilir DNA ve RNA hizalamalari bir skor matrisi kullanabilir ama pratikte basitcene pozitif bir uyusma skoru negatif bir uyusmama skoru ve negatif bir bosluk cezasi verilir Standart dinamik programlamada her amino asitin skoru komsularinin kimliginden bagimsizdir dolayisiyla etkileri hesaba katilmaz Ancak algoritmayi degistirip bu tur etkileri de goz onune almak mumkundur Standart dogrusal bosluk cezasi yerine bazi algoritmalarda kullanilan bir varyasyon iki ayri bosluk cezasi uygulamadir biri boslugu acmak icindir oburu ise boslugu uzatmak icindir Tipik olarak birinci cezanin degeri ikincisinden daha buyuktur ornegin bosluk acmak icin 10 puan bosluk uzatmak icin 2 puan kullanilabilir Bunun sonucu olarak bir hizalamadaki bosluk sayisi azalir harfler ve bosluklar bir arada tutulmus olur bu da biyolojik bakimdan daha gercekci sayilir uc matris kullanarak affin bosluk cezalarini hesaplar Dinamik programlama nukleotit dizilerini protein dizileri ile hizalamaya yarayabilir Bu karmasik bir is olabilir cunku cerceve kaymasi mutasyonlarinin genelde insersiyon ve delesyonlar etkisini hesaba katmak gerekir Cerceve arama yontemi kullanilarak bir nukleotit sorgu dizisi ile protein dizilerinden olusan arama kumesi arasinda veya tersi global veya lokal ikili hizalamalar uretilir Bu yontem cok yavas olmasina ragmen cerceve kaymalarini degerlendirme yetenegi cok sayida indel ler insersiyon ve delesyonlar iceren diziler icin cok yararlidir Bu tur dizilerin normalde verimli calisan horistik yontemlerle hizalanmasi cok zordur Pratikte bu yontem yuksek hesaplama gucu veya dinamik programlama icin ozellesmis mimariye sahip bir bilgisayar sistemi gerektirir BLAST ve paketleri cevrimli translasyonlu hizalamalar yapmak icin temel araclara sahiptir gerci bunlarin bazilarinin bu programlarin arama yeteneklerinin yan etkilerinden yararlandigi soylenebilir Daha genel yontemler in ndeki FrameSearch gibi ticari kaynaklardan ve gibi bazi acik yazilim urunlerinden elde edilebilir Dinamik proramlama yontemi belli bir skorlama fonksiyonu icin optimal hizalamayi bulmayi garantiler Ancak iyi bir skorlama fonksiyonunu belirlemek cogu zaman teorik degil empirik bir meseledir Dinamik programlara ikiden cok diziye de genellenebilirse de cok sayida dizi veya cok uzun dizilerde kullanilamayacak derecede yavas calisir Sozcuk yontemleriSozcuk yontemleri k li yontemler olarak da bilinir optimal hizalama cozumunu bulmasi garantili olmayan ama dinamik programlamadan onemli derecede daha verimli olan yontemlerdir Bu yontemler buyuk olcekli veritabanlarinda ozellikle yararlidir cunku bu veritabanlarindaki aday dizilerin buyuk bir kisminin sorgu dizisiyle anlamli bir uyusma gostermeyecegi pesinen bilinmektedir Sozcuk yontemleri veritabani arama araclari olan BLAST ailesi uyelerindeki ve FASTA programindaki uygulamalari ile bilinirler Sozcuk yontemleri sorgu dizisinde bulunan kisa ortusmeyen altdizileri sozcukleri tespit edip bunlari veritabanindaki aday dizilerle eslestirir Bir sozcugun iki dizideki pozisyonlari arasindaki fark hesaplanarak bir kayma degeri elde edilir Eger farkli sozcukler ayni kayma degerine sahipse bu kayma degeri bir hizalanma bolgesini belirler Ancak eger boyle bir bolge bulunursa o zaman daha hassas hizalama kistaslari uygulanir Boylece kayda deger benzerlik gostermeyen diziler arasinda pek cok gereksiz karsilastirmanin onune gecilmis olur FASTA yonteminde kullanici veritabanini aramakta kullanilacak sozcugun uzunluguna karsilik gelen bir k degeri secer Kucuk k degerlerinde yontem daha yavas ama daha duyarlidir bunlar kisa sorgu dizileri icin tercih edilir BLAST ailesindeki arastirma yontemleri belli sorgu tipleri ornegin uzaktan iliskili dizilerin bulunmasi icin optimize edilmis cesitli algoritmalara sahiptir BLAST FASTA dan daha hizli olup dogruluktan cok az bir fedakarlik yapma ozelligi icin gelistirilmistir FASTA gibi BLAST da k uzunluklu bir sozcuk aramasi yapar ama sadece en onemli sozcuk uyusmalarini degerlendirir FASTA gibi her sozcuk uyusmasina bakmaz Cogu BLAST uygulamasinda varsayilan sozcuk uzunlugu degismez sorgu ve arama tipine gore optimize edilir ancak istisnai durumlarda tekrarli dizileri ararken veya kisa sorgu dizileri icin degistirilir BLAST cesitli Web portallarinda bulunabilir ornegin EMBL FASTA 11 Aralik 2010 tarihinde Wayback Machine sitesinde and NCBI BLAST 26 Haziran 2004 tarihinde Wayback Machine sitesinde Coklu dizi hizalamasi27 adet protein dizisinin hizalanmasi amino asit kalintilarinin korunmasi ustte veya ozelliklerine altta gore renklendirilmistir Coklu dizi hizalamasi ikiden daha fazla dizi icermesiyle ikili hizalamanin bir uzantisi sayilir Coklu dizileme yontemleri sorgu kumesindeki tum dizileri hizalamaya calisir Coklu hizalamalar cogu zaman birbiriyle evrimsel iliskisi oldugu hipotez edilen bir grup dizideki bolgeleri tespit etmek icin kullanilir Bu tur hizalamalar ayrica filogenetik agac insa ederek evrimsel bir iliskiyi ortaya koymak icin kullanilir Boylesi korunmus diziler yapisal ve mekanistik bilgilerle beraber kullanilarak enzimlerin katalitik aktif bolgesinin yerini bulmaya yarar Coklu dizi hizalamalarin uretimi berimsel bakimdan zordur ve bu problemin cogu formulasyonu NP tam kombinatoryal optimizasyon problemlerine donusur Buna ragmen bu hizalamalarin biyoinformatikteki faydalari nedeniyle 3 veya daha fazla dizinin hizalanmasini sagliyan cesitli yontemler gelistirilmistir Dinamik programlama Dinamik progrmalama teknigi herhangi sayida dizi icin kullanilabilir Ancak berimsel olarak hem zaman hem bellek bakimindan pahali oldugu icin en basit bicimiyle dahi uc veya dort tane diziden fazlasi icin kullanilmaz Bu yontem iki dizinin hizalanmasinda yaratilan matrisin n boyutlu karsiliginin insasini gerektirir burada n sorgu kumesindeki dizi sayisidir Sorgu dizilerindeki her bir dizi cifti icin standart dinamik programlama kullanilir sonra bu ara cozumler arasindaki uyusmalar veya bosluklar degerlendirilerek hizalama uzayi tamamlanir yani her iki dizili hizalama arasinda bir hizalama yapilmis olur Bu yontem berimsel olarak pahali olsa da global optimal cozumu uretecegini garantiler bu yuzden az sayida dizinin hatasiz hizalanmasi gerektiginde faydalidir Berimsel karmasikligi azaltilmasini bir yolu ciftler toplami adli dayanir bu yaklasim MSA 2 Kasim 2015 tarihinde Wayback Machine sitesinde yazilim programinda uygulanmistir Ilerlemeci yontemler Ilerlemeci hiyerarsik veya agac yontemleri birbirine en benzer dizileri hizalamakla baslar sonra gittikce daha az benzeyen dizilerin hizalamaya eklenmesi ile sonunda tum sorgu kumesi sonuca dahil edilir Dizilerin yakinligini betimleyen agac yapisi ikili kiyaslamalara dayanir bunlar gibi horistik ikili hizalama yontemleri kullanir Ilerlemeci hizalama sonuclari en benzer dizilerin secimine bagimlidir bu yuzden ilk yapilan ikili hizalamadaki hatalara duyarlidir Cogu ilerlemeci coklu dizi hizalama yontemi buna ek olarak sorgu kumesindeki diziler arasindaki yakinlik drecesine gore onlara agirlik verir boylece ilk dizilerin kotu secilmesi olasiligi azalir ve en son hizalamanin dogrulugu iyilesir ilerlemeci uygulamalarinin cogu varyasyonu coklu dizi hizalamasi filogenetik agac insasi ve girdi hazirlamakta kullanilir Ilerlemeci yontemin daha yavas ama daha dogruluklu bir varyanti olarak adlandirilir Bu algoritmalarin uygulamalari ve T Coffee 21 Aralik 2010 tarihinde Wayback Machine sitesinde de bulunabilir Tekrarlayici yontemler Ilerlemeci yontemlerin zayif bir yonu ilk ikili hizalamanin dogru olmasina olan buyuk bagimliliktir Tekrarlayici yontemler bunu iyilestirmeye calisirlar Tekrarlayici yontemler secilmis bir skorlama fonksiyonuna dayanan optimize ederler ilk global hizalamayi olusturup sonra dizi altkumelerini yeniden hizalayarak Yeniden hizalanan altkumelerin kendileri de hizalanarak coklu dizi hizalamasinin bir sonraki yinelemesini olustururlar Dizi altkumelerini ve objektif fonksiyonu secmek icin cesitli yollar mevcuttur Motif kesfi Motif bulmak veya profil analizi sorgu kumesindeki dizilerde bulunan kisa korunmus hizalamaya calisan global coklu dizi hizalamalari insa eder Once bir global dizi hizalamasi insa edilir sonra yuksek derecede bolgeler tespit edilir ve bunlar bir profil matrisi olusturmak icin kullanilir Her korunmus bolgenin profil matrisi bir skorlama matrisi gibi duzenlenmistir ama her pozisyondaki harf icin frekans sayilari korunmus bolgedeki harf dagilimindan elde edilmistir daha genel bir dagilimdan degil Bunun ardindan profil matrisleri betimledikleri motifi baska dizilerde aramak icin kullanilirlar Orijinal veri kumesinde az sayida dizi olmasi veya bu dizilerin birbiriyle cok yakin iliskili olmasi halinde motifte temsil edilen harf dagilimini normalize etmek icin sahte sayimlar eklenir Bilgisayar biliminde esinlenmis yontemler Bilgisayar biliminde yaygin kullanilan cesitli optimizasyon algoritmalari coklu dizi hizalama problemine uygulanmistir belli bir sorgu kumesi icin olasil coklu dizi hizalamalari icin olasilik skorlari uretmek icin kullanilir Bu yaklasimla calisan ilk uygulamalar hayal kirici olduysa da daha sonrakilerin uzaktan iliskili dizilerin tespitinde ozellikle etkili oldugu bulunmustur cunku bu yontemler korunmus veya yari korunmus substitusyonlarin yarattigi gurultuden kolay etkilenmemektedirler Genetik algoritmalar ve benzetilmis tavlama da coklu dizi hizalama skorlarini optimize etmekte kullanilmistir Bu konuda daha cok ayrinti coklu dizi hizalamasi hakkindaki maddede bulunabilir Yapisal hizalamaYapisal hizalamalar genelde protein ve bazen RNA dizileri icin yapilir dizileri hizalamak icin protein ve RNA molekulunun ikincil ve ucuncul yapisi hakkindaki bilgiyi kullanilir Bu yontemler iki ve daha cok dizi icin uygulanabilir ve tipik olarak lokal hizalamalar uretir Ancak yapisal bilgiye bagimli olduklari icin sadece yapisi bilinen dizilerde ise yararlar Gerek protein gerek RNA da yapi evrimsel olarak diziden daha cok korunur Evrimsel olarak cok uzaktan iliskili olan dizi kiyaslamasi yoluyla benzerlikleri belirlenemeyecek derecede iraksamis dizilerde yapisal hizalamalar daha guvenilir sonuc verir Homoloji temelli icin yapilan hizalamalari degerlendirmede yapisal hizalamalar altin standart sayilir Bunun nedeni sadece dizi bilgisine dayanmak yerine yapisal benzerlik gosteren bolgeleri kasten hizalamalaridir Ancak tamamen yapisal hizalamalar tabii ki yapi tahmininde kullanilamaz cunku sorgu kumesindeki en az bir dizi modellenmesi amaclanan hedef dizidir ve onun yapisi bilinmemektedir Bir hedef ve bir kalip dizinin yapisal hizalamasinda hedef proteinin yuksek dogruluklu modellerinin bu tur yontemlerle elde edilebilecegi gosterilmistir DALI DALI yontemi Ingilizce distance matrix alignment teriminden kisaltilmistir sorgu dizisindeki ardisik heksapeptitlerin temas benzerliklerine dayanarak elde edilen yapisal bir hizalama yontemidir Bu yontemle ikili veya coklu hizalamalar uretebilir ve sorgu dizisinin Protein Data Bank taki yapisal komsularini tespit edebilir yapisal hizalama veri tabanini olusturmakta kullanilmistir DALI Web sunucusuna EBI DALI 27 Subat 2008 tarihinde Wayback Machine sitesinde den ulasilabilir FSSP ise de bulunmaktadir SSAP SSAP sequential structure alignment program sirali yapi hizalama programi dinamik programlama ile calisan bir yapisal hizalama yontemidir yapi uzayinda atomdan atoma vektorleri kiyaslama noktalari olarak degerlendirir Ilk tarif edilisinden beri bu yontem gelistirilerek hem ikili hem de coklu hizalamalari kapsamaktadir SSAP kullanilarak Class Architecture Topology Homology sinif mimari topoloji homoloji adli protein katlamalarinin hiyerarsik bir veritabani kurulmustur CATH veritabanina CATH Protein Structure Classification 17 Aralik 2010 tarihinde Wayback Machine sitesinde sitesinden erisilebilir Kombinatoryal uzatma Yapisal hizalama icin kombinatoryal uzatma yontemi karsilastirilan iki proteinin kisa parcalari icin lokal geometriye dayali ikili yapisal hizalamalar yapar sonra bu parcalari birlestirerek daha buyuk bir hizalama yapar Kati govde rigid body kalinti uzakliklari lokal ikincil yapi ve cevresel ozellikler kalinti komsu hidrofobisitesi gibi kullanilarak hizalanmis parca ikilileri denen lokal hizalamalar uretilir Bunlar kullanilarak belli tanimlanmis esik kistaslari dahilinde tum olasil yapisal hizalamalari temsil eden bir benzerlik matrisi insa edilir Buyuyen birer dizi parcasi eklenerek hizalama buyutulur Bu islem sirasinda matris araciligiyla bir protein yapi halinden digerine giden bir yol cizilir optimal yol kombinatoryal uzatma hizalamasini tanimlar Bu yontemi uygulayan bir Web sunucusu ve Protein Data Bank taki yapilar icin ikili hizalamalar veritabani Combinatorial Extension sitesinde bulunmaktadir Filogenetik analiz Ana Berimsel filogenetik Filogenetik ve dizi hizalamasi birbiriyle yakindan iliskili sahalardir cunku ikisi de dizi yakinligi belirlemesi yapar Filogenetik sahasi filogenetik agaclarin insasi ve yorumlamasinda dizi hizalamasindan yararlanir Filogenetik agaclar evrimsel olarak iraksamis turlerin genomlarinda bulunan homolog genlerdeki evrimsel iliskiyi siniflandirmakta kullanilir Bir sorgu kumesindeki dizilerin birbirlerinden farkliligi bu dizilerin birbirlerine olan evrimsel uzakligi ile nitel olarak iliskilidir Basit sekilde ifade edilecek olursa yuksek derecede dizi ayniligi soz konusu dizilerin nispeten yakin zamanda bir en yakin ortak atasi olabilecegini ima eder buna karsin dusuk derecede aynilik evrimsel iraksamanin daha eskilere dayandigi olasiligina karsilik gelir Bu ilkenin dayali oldugu molekuler saat hipotezine gore dizilerden meydana gelen soylarda mutasyon ve etkisinin degismedigi varsayilir Yaklasik sabit bir evrimsel degisim hizina dayanarak yapilacak bir ekstrapolasyon sayesinde iki genin ilk defa birbirinden ne zaman farklilastiginin hesaplanabilir Dolayisiyla organizmalar veya turler arasinda DNA tamiri yetenegi bakimindan farklilik olabilecegini veya dizilerde belli bolgelerin islevsel nedenlerle korunabilecegini hesaba katmaz Ayrica molekuler saat hipotezinin en basit versiyonunda protein kodlayici bolgelerde proteinin amino asit dizisini degistiren ve degistirmeyen DNA mutasyonlarinin korunma olasiliklari arasinda bir fark olabilecegi de hesaba katilmaz Daha hassas istatistik yontemler bir filogenetik agacin her dali icin evrimlesme hizinin farkli olmasina izin verir bu sayede gen soylarinin birlestigi zamanin daha dogru kestirilmesine olanak verir Ilerleyici coklu hizalama teknikleri zorunlu olarak bir filogenetik agac uretir cunku buyuyun hizalamaya ekledikleri dizilerin sirasi evrimsel yakinlik derecesine baglidir Coklu dizi hizalamalarini ve filogenetik agaclari olusturan diger yontemler once tum olasil agaclara bir skor verir sonra en yuksek skora sahip agactan bir coklu dizi hizalamasi hesaplar Filogenetik agac insasinda yaygin olarak kullanilan yontemler baslica horistiktir cunku optimal agacin secilmesi optimal coklu dizi hizalamasinin secilmesi gibi NP zordur Anlamlilik tayiniDizi hizalamasi biyoenformatikte dizi benzerligini tespit etmeye filogenetik agac uretmeye ve protein yapilari icin homoloji modelleri gelistirmeye yarar Ancak dizi hizalamalarinin biyolojik anlami her zaman acik degildir Hizalamalarin ortak atadan inmis diziler arasindaki evrimsel farkliligi yansittigi varsayilir Fakat evrimsel olarak iliskisiz olup benzer islev gosteren ve bu yuzden benzer yapiya sahip proteinlerin yakinsak evrim sonucu dizi benzerligi gostermeleri mumkundur BLAST gibi veritabani aramalarinda istatistik yontemler kullanilarak diziler arasinda belli bir hizalamanin sans eseri olma olasiligi veritabaninin buyuklugu ve bilesimine dayanarak hesaplanabilir Arama uzayina bagli olarak olasilik degerleri onemli derecede fark edebilir Eger veritabanindaki diziler sadece sorgu dizisin organizmasina ait dizilerden olusuyorsa belli bir hizalamanin sans eseri olma olasiligi ozellikle artar Veritabaninda veya sorgu dizisinde tekrarli dizilerin varligi hem arama sonuclarini hem de istatistik anlamlilik tayinini carpitabilir BLAST otomatik olarak sorgu dizisindeki tekrarli dizileri filtreler boylece istatistik artifakt sonucu olan bulgulari elimine eder Bosluklu dizi hizalamalarinin istatistik anlamliligini kestiren istatistik yontemler literaturde mevcuttur Inanilirlik tayini Istatistik anlamlilik belli kaliteye sahip bir hizalamanin sans eseri elde edilme olasiligini gosterir ama sorgu dizisinin belli bir hizalamasinin diger hizalamalardan ne derece daha iyi oldugunu belirtmez Hizalanma inanilirliginin olcutleri belli bir dizi ikilisi icin en yuksek skorlu hizalamalarinin ne derece birbirine esdeger oldugunu gosterir Bosluklu dizi hizalamalari icin istatistik inanilirlik degerlendirme yontemleri literaturde mevcuttur Skor fonksiyonlari Bilinen diziler hakkinda biyolojik veya istatistik gozlemleri yansitan bir skor fonksiyonunun secimi iyi hizalamalar elde edilmesinde cok onemlidir Protein dizileri genelde kullanilarak yapilir bu matrisler belli karakter substitusyonlarinin olma olasiliklarini yansitir Point accepted mutation noktasal olarak kabul edilmis mutasyon olarak adlandirilan bir grup matris belli amino asit mutasyonlarinin olma hizlari ve olasiliklarini icerir bu matrisler tarafindan tanimlanmis oldugu icin bazen Dayhoff matrisleri olarak da adlandrilir Sik kullanilan baska bir grup matris ise Blocks Substitution Matrix blok substitusyon matrisi olarak adlandirilir bunlar empirik olarak gozlemlenmis substitusyon olasiliklarini kodlar Her iki tip matrislerin varyantlari farkli duzeylerde iraksama gostermis dizilerin tayininde kullanilir Boylece BLAST veya FASTA kullanicilari aramalarini sadece yakin iliskili uyusmalara kendilerini sinirlayabilir veya arzu ederlerse daha uzak iliskili dizileri de bulabilmeleri mumkun olur hizalamaya bir bosluk katilmasina etki eder Bu bosluk ceza skoru evrimsel anlamda bir insersiyon veya delesyon mutasyonunun olma hizi ile orantili olmalidir Elde edilen hizalamalarin kalitesi skor fonksiyonunun kalitesine baglidir Ayni hizalamayi farkli skor matrisleri ve veya bosluk cezalari ile tekrarlayip sonuclari karsilastirmak cok yararli olabilir Hizalama parametrelerindeki varyasyonlara dayaniklilik gosteren hizalama bolgeleri tespit edilerek sonucun zayif oldugu veya tek olmadigi bolgeler belirlenebilir Diger biyolojik uygulamalarDizilenmis RNA ornegin expressed sequence tags ve tam uzunluklu mRNAlar dizilenmis bir genom ile hizalanarak nerede genlerin bulundugu ve yerleri hakkinda bilgi edinilebilir and Dizi hizalamasi ayrica genome assembly surecinin parcasidir Dizilenen parcalar hizalanarak ortusme yerleri bulunur boylece adi verilen uzun diziler olusturulur Bir diger uygulama single nucleotide polymorphism tekil nukleotit polimorfizmi analizidir burada farkli kisilera ait diziler hizalanarak toplulukta farklilik gosteren tek nukleotitler bulunur Biyolojik olmayan uygulamalarBiyolojik dizi hizalamasinda kullanilan yontemler baska sahalarda da uygulamalari olmustur ozellikle dogal dil islemlemesi natural language processing ve sosyal bilimlerde Dogal dil uretme algoritmalari tarafindan sozcuk secimi biyoenformatikte gelistirilmis coklu dizi hizalama yontemleri kullanmaktadir Tarihsel ve karsilastirmali dilbilim sahalarinda dilbilimcilerin dilleri olusturmak icin kullandiklari karsilastirma yontemi dizi hizalamasi ile otomatize edilmistir Isletme ve pazarlama arastirmacilari zaman icinde bir dizi satin alma olayini analiz etmek icin coklu dizi hizalama yontemlerini kullanmistir YazilimAlgoritma ve hizalama tipine gore kategorize edilmis yazilimlari daha genis bir listesi maddesinde verilmistir Genel dizi hizalama problemlerinde yaygin kullanilan araclar arasinda ClustalW 22 Aralik 2010 tarihinde Wayback Machine sitesinde ve veritabani aramasi icin de ve FASTA3x 7 Haziran 2010 tarihinde Wayback Machine sitesinde sayilabilir Hizalama algoritma ve yazilimlarini karsilastirmak icin adli benchmark referans coklu dizi hizalamalari mevcuttur Bu veri grubu yapisal hizalamalardan olusmaktadir sadece diziye dayali yontemler icin bunun bir standart olusturdugu dusunulebilir Cogu hizalama yonteminin goreceli performansi siklikla gorulen hizalama problemleri icin belirlenmis ve sonuclar sitesinde yayimlanmistir Farkli hizalama araclari icin BAliBASE skorlarinin kapsamli bir listesi STRAP 5 Mart 2012 tarihinde Wayback Machine sitesinde sitesinde hesaplanabilir Kaynakca a b c Mount DM 2004 Bioinformatics Sequence and Genome Analysis 2 bas Cold Spring Harbor Laboratory Press Cold Spring Harbor NY ISBN 0 87969 608 7 Kaynak hatasi Gecersiz lt ref gt etiketi mount adi farkli icerikte birden fazla tanimlanmis Bkz Kaynak gosterme Ng PC Henikoff S Predicting deleterious amino acid substitutions Genome Res 2001 May 11 5 863 74 26 Eylul 2011 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 Schneider TD Stephens RM 1990 Sequence logos a new way to display consensus sequences Nucleic Acids Res Cilt 18 ss 6097 6100 doi 10 1093 nar 18 20 6097 PMC 332411 2 PMID 2172928 12 Mayis 2020 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 Brudno M Malde S Poliakov A Do CB Couronne O Dubchak I Batzoglou S 2003 Glocal alignment finding rearrangements during alignment Bioinformatics Cilt 19 Suppl 1 ss i54 62 doi 10 1093 bioinformatics btg1005 PMID 12855437 13 Ocak 2013 tarihinde kaynagindan arsivlendi Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Wang L Jiang T 1994 On the complexity of multiple sequence alignment J Comput Biol Cilt 1 ss 337 48 PMID 8790475 Lipman DJ Altschul SF Kececioglu JD 1989 A tool for multiple sequence alignment Proc Natl Acad Sci USA Cilt 86 ss 4412 5 doi 10 1073 pnas 86 12 4412 PMID 2734293 10 Eylul 2017 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Higgins DG Sharp PM 1988 Gene 73 1 ss 237 44 doi 10 1016 0378 1119 88 90330 7 PMID 3243435 14 Subat 2019 tarihinde kaynagindan arsivlendi Erisim tarihi 20 Agustos 2010 Thompson JD Higgins DG Gibson TJ 1994 CLUSTAL W improving the sensitivity of progressive multiple sequence alignment through sequence weighting position specific gap penalties and weight matrix choice Nucleic Acids Res Cilt 22 ss 4673 80 doi 10 1093 nar 22 22 4673 PMC 308517 2 PMID 7984417 KB1 bakim Birden fazla ad yazar listesi link Chenna R Sugawara H Koike T Lopez R Gibson TJ Higgins DG Thompson JD 2003 Multiple sequence alignment with the Clustal series of programs Nucleic Acids Res Cilt 31 ss 3497 500 doi 10 1093 nar gkg500 PMID 12824352 27 Nisan 2020 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Notredame C Higgins DG Heringa J 2000 J Mol Biol 302 1 ss 205 17 doi 10 1006 jmbi 2000 4042 PMID 10964570 17 Ekim 2019 tarihinde kaynagindan arsivlendi Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Hirosawa M Totoki Y Hoshida M Ishikawa M 1995 Comput Appl Biosci Cilt 11 ss 13 8 doi 10 1093 bioinformatics 11 1 13 PMID 7796270 21 Subat 2009 tarihinde kaynagindan arsivlendi Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Karplus K Barrett C Hughey R 1998 Hidden Markov models for detecting remote protein homologies Bioinformatics 14 10 ss 846 856 doi 10 1093 bioinformatics 14 10 846 PMID 9927713 13 Ocak 2013 tarihinde kaynagindan arsivlendi Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Chothia C Lesk AM Nisan 1986 The relation between the divergence of sequence and structure in proteins EMBO J 5 4 ss 823 6 PMC 1166865 2 PMID 3709526 a b Zhang Y Skolnick J 2005 The protein structure prediction problem could be solved using the current PDB library Proc Natl Acad Sci USA Cilt 102 ss 1029 34 doi 10 1073 pnas 0407152101 PMID 15653774 8 Mart 2020 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 Holm L Sander C 1996 Mapping the protein universe Science Cilt 273 ss 595 603 doi 10 1126 science 273 5275 595 PMID 8662544 Taylor WR Flores TP Orengo CA 1994 Multiple protein structure alignment Protein Sci Cilt 3 ss 1858 70 doi 10 1002 pro 5560031025 PMID 7849601 KB1 bakim Birden fazla ad yazar listesi link olu kirik baglanti Orengo CA Michie AD Jones S Jones DT Swindells MB Thornton JM 1997 CATH a hierarchic classification of protein domain structures Structure Cilt 5 ss 1093 108 doi 10 1016 S0969 2126 97 00260 8 PMID 9309224 KB1 bakim Birden fazla ad yazar listesi link Shindyalov IN Bourne PE 1998 Protein structure alignment by incremental combinatorial extension CE of the optimal path Protein Eng Cilt 11 ss 739 47 doi 10 1093 protein 11 9 739 PMID 9796821 25 Eylul 2019 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 Felsenstein J 2004 Inferring Phylogenies Sinauer Associates Sunderland MA ISBN 0 87893 177 5 Newberg LA 2008 Significance of gapped sequence alignments J Comput Biolo Cilt 15 1187 1194 doi 10 1089 cmb 2008 0125 PMID 18973434 Eddy SR 2008 A probabilistic model of local sequence alignment that simplifies statistical significance estimation PLoS Comput Biol Cilt 4 ss e1000069 doi 10 1371 journal pcbi 1000069 PMID 18516236 Newberg LA Lawrence CE 2009 Exact Calculation of Distributions on Integers with Application to Sequence Alignment J Comput Biolo 16 1 1 18 doi 10 1089 cmb 2008 0137 PMID 19119992 Kim N Lee C 2008 Bioinformatics detection of alternative splicing Methods Mol Biol Cilt 452 ss 179 97 doi 10 1007 978 1 60327 159 2 9 PMID 18566765 Li JB Levanon EY Yoon JK ve digerleri Mayis 2009 Genome wide identification of human RNA editing sites by parallel DNA capturing and sequencing Science 324 5931 ss 1210 3 doi 10 1126 science 1170995 PMID 19478186 KB1 bakim Digerlerinin yanlis kullanimi link KB1 bakim Birden fazla ad yazar listesi link Blazewicz J Bryja M Figlerowicz M ve digerleri Haziran 2009 Whole genome assembly from 454 sequencing output via modified DNA graph concept Comput Biol Chem 33 3 ss 224 30 doi 10 1016 j compbiolchem 2009 04 005 PMID 19477687 KB1 bakim Digerlerinin yanlis kullanimi link KB1 bakim Birden fazla ad yazar listesi link Duran C Appleby N Vardy M Imelfort M Edwards D Batley J Mayis 2009 Single nucleotide polymorphism discovery in barley using autoSNPdb Plant Biotechnol J 7 4 ss 326 33 doi 10 1111 j 1467 7652 2009 00407 x PMID 19386041 KB1 bakim Birden fazla ad yazar listesi link Abbott A Tsay A 2000 Sequence Analysis and Optimal Matching Methods in Sociology Review and Prospect Sociological Methods and Research Cilt 29 ss 3 33 doi 10 1177 0049124100029001001 Barzilay R Lee L 2002 Bootstrapping Lexical Choice via Multiple Sequence Alignment PDF Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP Cilt 10 ss 164 171 doi 10 3115 1118693 1118715 6 Ocak 2010 tarihinde kaynagindan PDF Erisim tarihi 20 Agustos 2010 Kondrak Grzegorz 2002 PDF University of Toronto Ontario 26 Mart 2009 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 21 Ocak 2007 Prinzie A D Van den Poel 2006 Incorporating sequential information into traditional classification models by using an element position sensitive SAM Decision Support Systems 42 2 ss 508 526 doi 10 1016 j dss 2005 02 004 10 Mart 2007 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 See also Prinzie and Van den Poel s paper Prinzie A 2007 Predicting home appliance acquisition sequences Markov Markov for Discrimination and survival analysis for modeling sequential information in NPTB models Decision Support Systems 44 1 ss 28 45 doi 10 1016 j dss 2007 02 008 10 Ekim 2010 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 Thompson JD Plewniak F Poch O 1999 BAliBASE a benchmark alignment database for the evaluation of multiple alignment programs Bioinformatics Cilt 15 ss 87 8 doi 10 1093 bioinformatics 15 1 87 PMID 10068696 13 Ocak 2013 tarihinde kaynagindan arsivlendi Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link Thompson JD Plewniak F Poch O 1999 A comprehensive comparison of multiple sequence alignment programs Nucleic Acids Res Cilt 27 ss 2682 90 doi 10 1093 nar 27 13 2682 PMID 10373585 25 Eylul 2019 tarihinde kaynagindan Erisim tarihi 20 Agustos 2010 KB1 bakim Birden fazla ad yazar listesi link