Çoklu dizi hizalaması, üç ya da çok biyolojik dizinin (genelde protein, DNA veya RNA dizisinin) dizi hizalamasıdır. Çoğu durumda, girdi kümesindeki sorgu dizilerinin evrimsel bir ilişkiye sahip olduğu, yani ortak bir ataya sahip oldukları varsayılır. Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.
Çoklu dizi hizalaması terimi ayrıca bir dizi kümesinin hizalanması süreci için kullanılır. Üç veya daha çok dizinin elle hizalanması zor olduğu ve genelde çok zaman alıcı olduğu için hizalamaların üretim ve analizi için berimsel (hesaplamalı) algoritmalar kullanılır. ÇDH'ler ikili dizi hizalamasından daha ileri yöntemlerin kullanımını gerektirir çünkü . Nispeten kısa birkaç diziden fazlasının optimal hizalamasını bulmak berimsel bakımdan çok pahalıdır, bu yüzden çoğu çoklu dizileme programları yerine yöntemler kullanır.
Dinamik programlama ve berimsel karmaşıklık
Bir ÇDH üretiminde global optimal çözümünü bulmak için dinamik programlama tekniği kullanılır. Proteinler için, bu yöntem iki parametre grubu kullanılır: bir ve bir . Substitusyon matrisi, her bir amino asit çiftinin birbiriyle hizalanmasına karşılık gelen bir puan (skor) veya olasılık değeri içerir, bu değerler amino asitlerin kimyasal özelliklerinin benzerliğine ve mutasyonun olmasının evrimsel olasılığına dayalıdır. Nükleotit dizileri için benzer bir boşluk ceza değeri vardır ama substitusyon matrisi çok daha basittir, tipik olarak sadece aynı olma veya olmamaya göre skorlar bulunur. Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sırf pozitif olabilir veya hem pozitif hem negatif değerler içerebilirler, ama lokal hizalama durumunda hem pozitif hem negatif değerler içermek zorundadır.
İki dizinin hizalanmasında bir matris kullanılmasından yola çıkarak, n adet dizinin hizalanması için, o matrisin n-boyutlu karşılığı bir matris kullanmak, çözüme ulaşmanın toy (saf) bir yolu olur. Bu yaklaşımın sonucu arama uzayı artan n ile üssel şekilde büyür ve dizi uzunluğuna da kuvvetle bağımlıdır. ölçmekte kullanılan ile ifade edilirse, toy yaklaşımla elde edilmiş bir ÇDH n dizi için O(Uzunlukn) sürede tamamlanır. Bu n dizi için global optimumu bulmanın problem olduğu gösterilmiştir. Altschul, 1989'da, Carrillo-Lipman Algorithmasını kullanarak, n-boyutlu arama uzayının ikili hizalamalar yaparak sınırlanabileceğini göstermiştir. Bu yaklaşım ile, sorgu kümesindeki her bir dizi çifti için dinzmik programlama hizalamaları yapılır, sonra bu hizalamaların n-boyutlu kesişimi civarında n-li hizalama için arama yapılır. Bu ÇDH algoritması hizalamadaki her pozisyon için, karakter çiftlerinin toplamlarını (çiftler toplamı skorunu) optimize eder. Algoritma, çoklu dizi hizalaması yapan bir yazılım programı olarak uygulamaya sokulmuştur.
İlerleyici hizalama inşası
Çoklu dizi hizalamasında en yaygın kullanılan yöntem, ilerleyici (İng. progressive) yöntem olarak bilinen (hiyerarşik veya ağaç yöntemi olarak da bilinir) bir buluşsal (höristik) aramadır. Bu yöntemde, ÇDH'yi inşa etmek için önce birbirine en benzer olan çiftten başlanır, sonra gittikçe daha az benzeşen çiftler eklenir. İlerleyici hizalama yöntemlerinin hepsi iki aşamadan oluşur: diziler arasındaki ilişkinin kılavuz ağaç denen bir filogenetik ağaç olarak gösterildiği birinci aşama; ve büyüyen ÇDH'ye dizilerin sırayla eklenerek ÇDH'nin inşa edildiği bir ikinci aşama. İlk kılavuz ağacı oluşturmak için, dinamik programlama hizalaması yapmak yerine, verimli bir kümeleme (clustering) yöntemi kullanılır ( veya gibi). Kümelemede uzaklık değeri olarak aynı iki harfli altdizilerin sayısı kullanılabilir ( programında olduğu gibi).
İlerleyici hizalamalar global optimal olamaz. Temel sorun, ÇDH oluşturulurken yapılan hataların nihai sonuca kadar taşınmasıdır. Kümedeki diziler birbirlerine uzaktan ilişkiliyse algoritmanın performansı özellikle kötüdür. Çoğu modern ilerleyici yöntemler, sorgu kümesinin her bir üyesi için skor fonksiyonlarını değiştirir. Bu değişken skor, dizilerin en yakın komşularına olan genetik uzaklığına bağlı olarak nonlineer değişen bir ağırlık fonksiyonuyla hesaplanır. Böylece, hizalama programının dizileri rastgele olmayan bir şekilde seçmesinin etkisi düzeltilmiş olur.
İlerleyici hizalama yöntemler, çok sayıda (yüzlerce ila binlerce arası) diziye uygulanabilecek derecede verimli çalışırlar. İlerleyici hizalama hizmetleri kamuya açık Web sunucularında mevcuttur, bu yüzden kullanıcılar bu programı kendi bilgisayarlarında kurmak zorunda değildirler. En popüler ilerleyici hizalama yöntemi ailesi olmuştur, özellikle ağırlıklı versiyonu olan clustalW bunlara çeşitli Web portallerindan erişilebilir (, EBI5 Ağustos 2010 tarihinde Wayback Machine sitesinde ., and EMBNet1 Mayıs 2011 tarihinde Wayback Machine sitesinde . dahil olmak üzere). Farklı portaller veya uyarlamalar kullanıcı arayüzü ve kullanıcının değiştirebileceği parametreler bakımından faklılık gösterebilirler. ClustalW'nun doğrudan filogenetik ağaç inşası için kullanılmaması gerektiğine dair programcının açık ikazlarına rağmen, programın çıktıları bu amaç için yaygın olarak kullanılır. ClustalW çıktısı, homoloji modellemesi ile girdi olarak da kullanılmamalıdır.
olarak adlandırılan bir diğer yaygın ilerleyici hizalama yöntemi, Clustal ve onun türevlerinden daha yavaştır ama birbiriyle uzaktan ilişkili diziler için daha doğru hizalamalar üretir. İkili hizalamalar hesaplamak için T-Coffee iki farklı yöntemle elde edilen hizalamaları birleştirir: çiftin doğrudan hizalaması ve, çiftteki her diziyi üçüncü bir dizi ile hizalanması ile elde edilen, indirekt hizalamalar. Bu program, hem Clustal çıktısını, hem de başka bir lokal hizalama programı olan ve iki dizideki çoklu lokal hizalanma bölgeleri bulan LALIGN programını kullanır. Elde edilen hizalama ve filogenetik ağaç, yeni ve daha doğru ağırlık faktörleri üretmek için kullanılır.
İleleyici yöntemler buluşsal oldukları için, global bir optimuma yakınsama garantileri yoktur, hizalamanın kalitesini değerlendirmek zor olabilir ve gerçek biyolojik anlamı belirsiz olabilir.
Tekrarlayıcı yöntemler
ÇDH üretip, ilerleyici yöntemlere özgü hataları azaltan bir yöntemler grubu "tekrarlayıcı" (iterative) olarak sınıflandırılmıştır, çünkü bunlar ilerleyici yöntemlere benzer olarak çalışmakla beraber, büyüyen ÇDH'ye yeni diziler eklerken ilk dizileri tekrar tekrar hizalamaya devam eder. İlerleyici yöntemlerin yüksek kaliteli ilk hizalamalara muhtaç olmalarının nedeni, bu hizalamaların hep nihai sonuçta yer almasıdır. Yani bir dizi bir ÇDH içinde yerini aldıktan sonra onun hizalaması tekrar gözden geçirilmez. Bu yaklaşıklık (approximation) berimsel hızı artırır ama doğruluktan kaybetme pahasına. Buna karşın, tekrarlayıcı yöntemler, daha önce hesaplanmış ikili hizalamalara veya sorgu dizisini içeren alt-ÇDH'ler geri gelebilirler. Bu sayede, yüksek kaliteli bir hizalama skoru elde etmeyi sağlayacak bir genel optimize edilebilir.
Birbirinden ince farklılıklar gösteren çeşitli tekrarlayıcı yöntemler uygulamaya konmuş ve yazılım paketi olarak kullanıma sunulmuştur; bu yazılımlar hakkında çeşitli inceleme ve kıyaslama makaleleri "en iyi" yöntemi ilan etmekten kaçınmışlardır. adlı yazılım paketi bir kullanır, ÇDH hizalama skorunu optimize etmek için. büyüyen ÇDH'nin hem hizalama ağırlıklarını hem de yerel olarak ıraksamış veya "boşluklu" bölgelerini tekrarlayan bir şekilde düzeltir. PRRP, daha hızlı bir yöntemle inşa edilmiş bir hizalamayı iyileştirmede kullanıldığında en iyi performans gösterir.
Başka bir tekrarlayıcı program, DIALIGN, ise olağandışı bir yaklaşım kullanır, boşluk cezası kullanmadan veya alt dizilerin lokal hizalamalarına odaklanır. İkili hizalama yapmakta kullanılan bir nokta matris grafiğine benzer bir matris gösterimi kullanılarak bireysel motifler hizalanır. Yavaş bir global hizalama için hızlı lokal hizalamaları birer "tohum" olarak kullanan bir alternatif yöntem CHAOS/DIALIGN25 Ağustos 2010 tarihinde Wayback Machine sitesinde . paketinde kullanılır.
Tekrarlama-temelli üçüncü bir popüler yöntem MUSCLE23 Temmuz 2010 tarihinde Wayback Machine sitesinde . (multiple sequence alignment by log-expectation; log-beklenti ile çoklu dizi hizalaması) olarak adlandırılır, iki dizinin yakınlığını belirlemek için daha doğruluklu bir uzaklık değeri hesaplayarak, ilerleyici yöntemlerden daha yüksek bir başarı gösterir. Uzaklık ölçütü, tekrarlama aşamaları arasında yenilenir.
Gizli Markov modelleri
(GMM), boşluk, uyuşma ve uyuşmamaların tüm kombinasyonlarına bir olasılık değeri atayan olasılıksal modellerdir. GMMler yüksek skorlu bir çıktı verebilirler ama ayrıca bir olasıl hizalamalar ailesi de üretebilirler, bunlar sonradan biyolojik anlamlılıkları bakımından değerlendirilebilir. GMM-temelli yöntemler nipeten yakın zamanda geliştirilmiş olmalarına rağmen, berimsel hızda önemli iyileşme göstermişlerdir, özellikle örtüşen bölgelere sahip dizilerde.
Tipik GMM-temelli yöntemler, bir ÇDH'yi kısmî-dereceli çizit (partial order graph) (bir tipi) olarak temsil ederek çalışırlar. Bu çizitin düğümleri, ÇDH'nin sütunlarındaki olasıl değerleri temsil eder. Bu gösterimde, tamamen korunmuş bir sütun (yani ÇDH'deki tüm diziler bir pozisyonda aynı karaktere sahipler) tek bir düğüm olarak gösterilir, bu düğümden çıkan bağlantı sayısı, hizalamanın bir sonraki sütunundaki farklı karakter sayısına eşittir. Tipik bir gizli Markov modeli için, gözlemlenen haller, bireysel hizalama sütunlarıdır, "gizli" haller ise, sorgu kümseinde bulunan dizilerin evrimleşmiş olduğu varsayılan atasal diziyi temsil eder. Dinamik programlama yönteminin verimli bir varyantı olan , büyüyen ÇDH'yi sorgu kümesindeki bir sonraki dizi ile hizalamak için kullanılır, böylece yeni bir ÇDH elde edilir. Bu yöntem, ilerleyici hizalama yönteminden farklıdır çünkü her yeni dizi eklenmesinde evvelki dizilerin hizalaması da yenilenir. Ancak, ilerleyici yöntemlerde olduğu gibi, bu yöntem de sorgu kümesindeki dizilerin hizalamaya katılmasının sırasına bağlı sonuç verebilir, özellikle diziler uzak ilişkilyse.
GMM-temelli yöntemlerin uygulandığı, verimlilikleri ve bakımından başarılı sayılan çeşitli yazılım programları mevcuttur. Ancak GMM yöntemleri, yaygın ilerleyici yöntemlerden daha karmaşıktır. En basit olanı POA25 Aralık 2009 tarihinde Wayback Machine sitesinde . (Partial-Order Alignment Kısmî dereceli hizalama);,
Benzer ama daha genelleştirilmiş bir yöntem SAM16 Ekim 2011 tarihinde Wayback Machine sitesinde . (Sequence Alignment and Modeling System Dizi hizalama ve modelleme sistemi)'dır. ve 'dir. SAM, yapmak için hizalama kaynağı olarak ve mayasında protein kodlayıcı öndeyili diziler içeren bir veri tabanı geliştirmek için kullanılmıştır. GMMlerin ikili karşılaştırması ile uzak ilişkili protein dizilerinin tespiti için bir yazılımdır. HHsearch () çalıştıran bir sunucu CASP7 and CASP8 yapı öndeyi yarışmasındaki en iyi 10 otomatik protein yapı öndeyi sunucularının en hızlısıydı.
Genetik algoritmalar ve benzetmeli tavlama
Bilgisayar bilimlerindeki standart optimizasyon teknikleri, kaliteli ÇDH üretimi için kullanılmıştır. Bu yöntemlerden biri olan genetik algoritmalar, sorgu kümesindeki dizileri meydana getiren evrimsel süreci ana hatlarıyla benzeterek (simüle ederek) ÇDH üretimi için kullanılmıştır. Bu yöntemde, bir seri olasıl ÇDH, kısa parçalara bölünür ve bunların içinde çeşitli yerlere boşluklar konarak tekrar tekrar diziler düzenlenir. Genel bir objektif fonksiyon, (en yaygın olarak dinamik programlama ile ÇDH yöntemlerinde kullanılan "çiftler toplamı" maksimizasyon fonksiyonu) bu simülasyon sırasında optimize edilir. Protein dizileri için bir teknik, SAGA (Sequence Alignment by Genetic Algorithm Genetik algoritma ile dizi hizalaması) ve RNA iiçin onun karşılığı olan RAGA. adlı yazılım programlarında uygulanmıştır.
Benzetilmiş tavlama tekniğinde, başka bir yöntemle elde edilmiş mevcut bir ÇDH, bir seri yeniden düzenleme yoluyla iyileştilir. Hizalama uzayında başlangış hizalamasından daha optimal bölgeler bulunmaya çalışılır. Genetik algoritmada olduğu gibi benzetilmiş tavlama da çiftler toplamı gibi bir objektif fonksiyonu maksimize etmeye çalışır. Benzetilmiş tavlamada, mecazî bir "sıcaklık faktörü", değişimlerin meydana gelme hızını ve her bir değişimin olasılığını belirler; tipik kullanımda farklı özelliklere sahip olan iki tip evre vardır: yüksek değişim hızı ve nispeten düşük olasılıklara sahip evreler ile (hizalama uzayının uzak bölgelerini araştırmak için) düşük hız ve yüksek olasılıklı evreler (yeni varılmış bir bölgedeki lokal minimumları daha ayrıntılı olarak keşif yapmak için) birbirini takip eder. Bu yaklaşım MSASA (Multiple Sequence Alignment by Simulated Annealing) programında uygulanmıştır.
Motif bulma
Motif bulmak veya bir diğer adıyla profil analizi, global ÇDH'de dizi motifi bulma yöntemidir. Hem daha iyi ÇDH üretmeye hem de benzer motifler içeren başka benzer diziler bulmak için bir skor matrisi üretmeye yarar. Motifleri bulmak için çeşitli yöntemler geliştirilmiştir, bunların hepsi, büyük bir hizalama içinde yer alan, çok korunmuş, kısa dizi örüntüleri (motifleri) bulmaya, sonra da bulunan motifin her pozisyonundaki nükleotit veya amino asit bileşimini yansıtan, substitusyon matrisine benzer bir matris inşasına dayalıdır. Bu matrisler kullanılarak hizalama daha da iyileştirilebilir. Standart profil analizinde, matriste her karakter ve ayrıca boşluk için değerler bulunur. Alternatif olarak, istatistik örüntü bulma algoritmaları ile bulunan motifler, ÇDH için bir ön adım oluşturabilir, ondan türeyen bir bilgi olmak yerine. Çoğu durumda, sorgu kümesi eğer az sayıda dizi içerirse veya birbirine çok benzeyen diziler içerirse, skor matrisindeki dağılımı normalleştirmek için (pseudocount) eklenebilir. Bu yolla matriste sıfır sıklığa sahip değerler sıfır olmayan küçük değerlere dönüştürülür.
Blok analizi, motifleri hizalamada boşluksuz bölgelere sınırlayan bir motif bulma yöntemidir. Bloklar bir ÇDH'den üretilebilir veya hizalanmamış dizilerden, bilinen gen ailelerinden elde edilmiş, önceden hesaplanmış motif grupları kullanılarak hizalanmamış dizilerden bulunabilir. Blok skorlaması genelde yüksek frekanslı karakterlerin arasındaki uzaklığa dayalıdır, bir substitusyon matrisinin hesaplanması yerine. sunucusu hizalanmamış dizilerde bu tür motiflerin bulunması için enteraktif bir yöntem sağlar.
İstatistik örüntü eşleme (pattern-matching), hem hem de için uygulanmıştır. En yaygın motif bulma araçlarından biri olan MEME, motif bulmak için beklenti maksimizasyon ve gizli Markov modelleri kullanır, bu motifler sonra paketindeki yardımcı program MAST tarafından arama aracı olarak kullanılır.
Görselleme ve düzeltim (editing) araçları
Çoklu dizi hizalamasında buluşsal (höristik) yöntemlerin kullanılması, herhangi bir grup protein dizilerinin hizalamasında hata olma olasılığının yüksek olacağı anlamını taşır. Evrim sırasında dizilerden bir veya birkaçına rastgele bir insersiyon olması veya daha karmaşık bir evrimsel süreç sonucu dizi analizi ile kolayca hizalanamayan proteinler meydana gelmesi bu tür hatalar meydana gelebilir. hizalamaların görsel şekilde kontrolüne olanak verir. İki veya daha çok dizide tanımlanmış olan işlevsel konumlara bakılarak hizalama kalitesi anlaşılabilir. Bu programların çoğu, bu tür (genelde ufak) hataların düzeltilmesini de sağlar, böylece filogenetik analiz veya karşılaştırmalı modelleme için uygun, optimal, bir uzman tarafından düzenlenmiş (curated) hizalama elde edilmiş olur.
Filogenetikteki kullanımı
Çoklu dizi hizalamaları filogenetik ağaç üretmekte kullanılabilir. Bunun iki nedeni vardır. Birincisi, açıklamalı (annotated) dizilerdeki işlevsel protein bölgeleri bilinmeyen protein bölgelerinin hizalanmasında kullanılabilir. Öbür neden ise işlevsel olarak önemli olan korunmuş bölgeler bu yolla bulunabilir. Çoklu dizi hizalamaları kullanılarak, diziler arasında homolojiden yararlanarak evrimsel ilişkiler bulunabilir. Nokta mutasyonlar ve delesyonlar (indel olarak adlandırılır) tespit edilebilir.
Çoklu dizi hizalamaları işlevsel olarak önemli konumların tespit edilmesinde kullanılabilir. Korunmuş bölgeler sayesinde örneğin, bağlanma bölgeleri, aktif bölgeler veya diğer anahtar fonksiyonlara karşılık gelen konumlar bulunabilir. Çoklu dizi hizalamalarına bakarken, dizileri kıyaslamakta farklı özellikleri göz önüne almak yararlı olabilir. Bu özelliklerin arasında aynılık, benzerlik ve homoloji sayılabilir. Aynılık, dizilerin birbirine karşılık gelen pozisyonlarında aynı kalıntıya (rezidüye) sahip olmasıdır. Buna karşın, benzerlik, karşılaştırılan dizilerin nitel olarak benzer kimyasal kalıntılara sahip olmasıdır. Örneğin, nükleotit dizilerinde, pirimidinler birbirine, pürinler de birbirine benzer sayılırlar. Benzerlik sonunda homolojiye varır, diziler ne kadar birbirlerine benzerse homolog olmaya o kadar yakındırlar. Dizilerde homoloji, ortak ataları bulmaya yardımcı olur.
Ayrıca bakınız
Kaynakça
- ^ . European Bioinformatics Institute. 3 Mart 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Mart 2010.
- ^ Wang L, Jiang T. (1994) On the complexity of multiple sequence alignment. J Comput Biol 1:337-348.
- ^ Just W. (2001). Computational complexity of multiple sequence alignment with SP-score. J Comput Biol 8(6):615-23.
- ^ Carrillo H, Lipman DJ,(1988) The Multiple Sequence Alignment Problem in Biology. SIAM Journal of Applied Mathematics, Vol.48, No. 5, 1073-1082
- ^ Lipman DJ, Altschul SF, Kececioglu JD.(1989) A tool for multiple sequence alignment. Proc Natl Acad Sci U S A. 86, 4412-4415.
- ^ "Genetic analysis software". National Center for Biotechnology Information. 2 Kasım 2015 tarihinde kaynağından . Erişim tarihi: 3 Mart 2010.
- ^ a b c d e f g Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
- ^ Higgins DG, Sharp PM (1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene. 73 (1). ss. 237-244. doi:10.1016/0378-1119(88)90330-7.
- ^ Thompson JD, Higgins DG, Gibson TJ (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice". Nucleic Acids Res. Cilt 22. ss. 4673-4680. doi:10.1093/nar/22.22.4673. (PMID) 7984417.
- ^ Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). Comprehensive study on iterative algorithms of multiple sequence alignment. Comput Appl Biosci 11:13-18.
- ^ Gotoh O. (1996). Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol 264(4):823-38.
- ^ a b Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B. (2003) Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 4:66.
- ^ Edgar RC. (2004), MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research 32(5), 1792-97.
- ^ a b Hughey R, Krogh A. (1996). Hidden Markov models for sequence analysis: extension and analysis of the basic method. CABIOS 12(2):95-107. Kaynak hatası: Geçersiz
<ref>
etiketi: "hughey" adı farklı içerikte birden fazla tanımlanmış (Bkz: ) - ^ Grasso C, Lee C. (2004). Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems. Bioinformatics 20(10):1546-56.
- ^ Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
- ^ Söding J (2005). "Protein homology detection by HMM-HMM comparison". Bioinformatics. 21 (7). ss. 951-960. doi:10.1093/bioinformatics/bti125. (PMID) 15531603.
- ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Automated server predictions in CASP7". Proteins. 69 (Suppl 8). ss. 68-82. doi:10.1002/prot.21761. (PMID) 17894354.
- ^ Notredame C, Higgins DG. (1996). SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res 24(8):1515-24.
- ^ Notredame C, O'Brien EA, Higgins DG. (1997). RAGA: RNA sequence alignment by genetic algorithm. Nucleic Acids Res 25(22):4570-80.
- ^ Kim J, Pramanik S, Chung MJ. (1994). Multiple sequence alignment using simulated annealing. Comput Appl Biosci 10(4):419-26.
- ^ Henikoff S, Henikoff JG (1991). "Automated assembly of protein blocks for database searching". Nucleic Acids Res. Cilt 19. ss. 6565-6572. doi:10.1093/nar/19.23.6565. (PMID) 1754394.
- ^ Bailey TL, Elkan C (1994). "Fitting a mixture model by expectation maximization to discover motifs in biopolymers". Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology. Menlo Park, California: AAAI Press. ss. 28-36.
- ^ Bailey TL, Gribskov M (1998). "Combining evidence using p-values: application to sequence homology searches". Bioinformatics. Cilt 14. ss. 48-54. doi:10.1093/bioinformatics/14.1.48. (PMID) 9520501.
- ^ . European Molecular Biology Laboratory. 2007. 24 Eylül 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 7 Mart 2010.
- ^ a b Budd, Aidan (Şubat 2009). "Multiple sequence alignment exercises and demonstrations". European Molecular Biology Laboratory. Erişim tarihi: 7 Mart 2010.[]
İnceleme makaleleri
- Duret, L. (2000). "Multiple alignment for structural functional or phylogenetic analyses of homologous sequences". D. Higgins and W. Taylor (Ed.). Bioinformatics sequence structure and databanks. Oxford: Oxford University Press.
- Notredame, C. (2002). "Recent progresses in multiple sequence alignment: a survey". Pharmacogenomics. 31 (1). ss. 131-144. doi:10.1517/14622416.3.1.131.
- Thompson, J. D. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Research. 27 (13). ss. 12682-2690. doi:10.1093/nar/27.13.2682. (PMID) 10373585.
- Wallace, I.M. (2005). "Multiple sequence alignments". Curr Opin Struct Biol. 15 (3). ss. 261-266. doi:10.1016/j.sbi.2005.04.002.
- Notredame, C (2007). "Recent evolutions of multiple sequence alignment algorithms". PLOS Computational Biology. 8 (3). s. e123. doi:10.1371/journal.pcbi.0030123.
Dış bağlantılar
- ExPASy dizi hizalama araçları13 Nisan 2010 tarihinde Wayback Machine sitesinde .
- — from the Virtual School of Natural Sciences
- — from Pôle Bioinformatique Lyonnais
- An entry point to clustal servers and information29 Mayıs 2010 tarihinde Wayback Machine sitesinde .
- An entry point to the main T-Coffee servers21 Aralık 2010 tarihinde Wayback Machine sitesinde .
- European Bioinformatics Institute servers:
- ClustalW25 Ağustos 2010 tarihinde Wayback Machine sitesinde . — general purpose multiple sequence alignment program for DNA or proteins.
- Muscle27 Temmuz 2010 tarihinde Wayback Machine sitesinde . — MUltiple Sequence Comparison by Log-Expectation
- T-coffee27 Temmuz 2010 tarihinde Wayback Machine sitesinde . — multiple sequence alignment.
- MAFFT2 Ağustos 2010 tarihinde Wayback Machine sitesinde . — Multiple Alignment using Fast Fourier Transform
- KALIGN30 Temmuz 2010 tarihinde Wayback Machine sitesinde . — a fast and accurate multiple sequence alignment algorithm.
Lecture notes, tutorials, and courses
- Multiple sequence alignment lectures30 Ağustos 2006 tarihinde Wayback Machine sitesinde . — from the Max Planck Institute for Molecular Genetics
- on multiple sequences alignments at the
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Coklu dizi hizalamasi uc ya da cok biyolojik dizinin genelde protein DNA veya RNA dizisinin dizi hizalamasidir Cogu durumda girdi kumesindeki sorgu dizilerinin evrimsel bir iliskiye sahip oldugu yani ortak bir ataya sahip olduklari varsayilir Elde edilen coklu dizi hizalamasindan homoloji oldugu cikarimi yapilabilir ve filogenetik analiz ile dizilerin evrimsel kokenleri degerlendirilebilir Hizalamanin sagdaki resimdeki gibi gosterimiyle noktasal mutasyonlar hizalamadaki sutunlardan birinde farkli bir harf olarak ensersiyon ve delesyonlar ise hizalamadaki satirlardan bir veya daha fazlasinda tire seklinde beliren eklemeler seklinde mutasyon olaylari gorulebilir Protein bolgelerinde ikincil veya ucuncul yapilarda ve hatta bireysel amino asit veya nukleotitlerin dizi degerlendirmek icin coklu dizi hizalamalari sikca kullanilir Cesitli organizmalarin ribozom proteini P0 L10E in coklu dizi hizalamasinin ilk 90 pozisyonu ile elde edilmistir Coklu dizi hizalamasi terimi ayrica bir dizi kumesinin hizalanmasi sureci icin kullanilir Uc veya daha cok dizinin elle hizalanmasi zor oldugu ve genelde cok zaman alici oldugu icin hizalamalarin uretim ve analizi icin berimsel hesaplamali algoritmalar kullanilir CDH ler ikili dizi hizalamasindan daha ileri yontemlerin kullanimini gerektirir cunku Nispeten kisa birkac diziden fazlasinin optimal hizalamasini bulmak berimsel bakimdan cok pahalidir bu yuzden cogu coklu dizileme programlari yerine yontemler kullanir Dinamik programlama ve berimsel karmasiklikBir CDH uretiminde global optimal cozumunu bulmak icin dinamik programlama teknigi kullanilir Proteinler icin bu yontem iki parametre grubu kullanilir bir ve bir Substitusyon matrisi her bir amino asit ciftinin birbiriyle hizalanmasina karsilik gelen bir puan skor veya olasilik degeri icerir bu degerler amino asitlerin kimyasal ozelliklerinin benzerligine ve mutasyonun olmasinin evrimsel olasiligina dayalidir Nukleotit dizileri icin benzer bir bosluk ceza degeri vardir ama substitusyon matrisi cok daha basittir tipik olarak sadece ayni olma veya olmamaya gore skorlar bulunur Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sirf pozitif olabilir veya hem pozitif hem negatif degerler icerebilirler ama lokal hizalama durumunda hem pozitif hem negatif degerler icermek zorundadir Iki dizinin hizalanmasinda bir matris kullanilmasindan yola cikarak n adet dizinin hizalanmasi icin o matrisin n boyutlu karsiligi bir matris kullanmak cozume ulasmanin toy saf bir yolu olur Bu yaklasimin sonucu arama uzayi artan n ile ussel sekilde buyur ve dizi uzunluguna da kuvvetle bagimlidir olcmekte kullanilan ile ifade edilirse toy yaklasimla elde edilmis bir CDH n dizi icin O Uzunlukn surede tamamlanir Bu n dizi icin global optimumu bulmanin problem oldugu gosterilmistir Altschul 1989 da Carrillo Lipman Algorithmasini kullanarak n boyutlu arama uzayinin ikili hizalamalar yaparak sinirlanabilecegini gostermistir Bu yaklasim ile sorgu kumesindeki her bir dizi cifti icin dinzmik programlama hizalamalari yapilir sonra bu hizalamalarin n boyutlu kesisimi civarinda n li hizalama icin arama yapilir Bu CDH algoritmasi hizalamadaki her pozisyon icin karakter ciftlerinin toplamlarini ciftler toplami skorunu optimize eder Algoritma coklu dizi hizalamasi yapan bir yazilim programi olarak uygulamaya sokulmustur Ilerleyici hizalama insasiCoklu dizi hizalamasinda en yaygin kullanilan yontem ilerleyici Ing progressive yontem olarak bilinen hiyerarsik veya agac yontemi olarak da bilinir bir bulussal horistik aramadir Bu yontemde CDH yi insa etmek icin once birbirine en benzer olan ciftten baslanir sonra gittikce daha az benzesen ciftler eklenir Ilerleyici hizalama yontemlerinin hepsi iki asamadan olusur diziler arasindaki iliskinin kilavuz agac denen bir filogenetik agac olarak gosterildigi birinci asama ve buyuyen CDH ye dizilerin sirayla eklenerek CDH nin insa edildigi bir ikinci asama Ilk kilavuz agaci olusturmak icin dinamik programlama hizalamasi yapmak yerine verimli bir kumeleme clustering yontemi kullanilir veya gibi Kumelemede uzaklik degeri olarak ayni iki harfli altdizilerin sayisi kullanilabilir programinda oldugu gibi Ilerleyici hizalamalar global optimal olamaz Temel sorun CDH olusturulurken yapilan hatalarin nihai sonuca kadar tasinmasidir Kumedeki diziler birbirlerine uzaktan iliskiliyse algoritmanin performansi ozellikle kotudur Cogu modern ilerleyici yontemler sorgu kumesinin her bir uyesi icin skor fonksiyonlarini degistirir Bu degisken skor dizilerin en yakin komsularina olan genetik uzakligina bagli olarak nonlineer degisen bir agirlik fonksiyonuyla hesaplanir Boylece hizalama programinin dizileri rastgele olmayan bir sekilde secmesinin etkisi duzeltilmis olur Ilerleyici hizalama yontemler cok sayida yuzlerce ila binlerce arasi diziye uygulanabilecek derecede verimli calisirlar Ilerleyici hizalama hizmetleri kamuya acik Web sunucularinda mevcuttur bu yuzden kullanicilar bu programi kendi bilgisayarlarinda kurmak zorunda degildirler En populer ilerleyici hizalama yontemi ailesi olmustur ozellikle agirlikli versiyonu olan clustalW bunlara cesitli Web portallerindan erisilebilir EBI5 Agustos 2010 tarihinde Wayback Machine sitesinde and EMBNet1 Mayis 2011 tarihinde Wayback Machine sitesinde dahil olmak uzere Farkli portaller veya uyarlamalar kullanici arayuzu ve kullanicinin degistirebilecegi parametreler bakimindan faklilik gosterebilirler ClustalW nun dogrudan filogenetik agac insasi icin kullanilmamasi gerektigine dair programcinin acik ikazlarina ragmen programin ciktilari bu amac icin yaygin olarak kullanilir ClustalW ciktisi homoloji modellemesi ile girdi olarak da kullanilmamalidir olarak adlandirilan bir diger yaygin ilerleyici hizalama yontemi Clustal ve onun turevlerinden daha yavastir ama birbiriyle uzaktan iliskili diziler icin daha dogru hizalamalar uretir Ikili hizalamalar hesaplamak icin T Coffee iki farkli yontemle elde edilen hizalamalari birlestirir ciftin dogrudan hizalamasi ve ciftteki her diziyi ucuncu bir dizi ile hizalanmasi ile elde edilen indirekt hizalamalar Bu program hem Clustal ciktisini hem de baska bir lokal hizalama programi olan ve iki dizideki coklu lokal hizalanma bolgeleri bulan LALIGN programini kullanir Elde edilen hizalama ve filogenetik agac yeni ve daha dogru agirlik faktorleri uretmek icin kullanilir Ileleyici yontemler bulussal olduklari icin global bir optimuma yakinsama garantileri yoktur hizalamanin kalitesini degerlendirmek zor olabilir ve gercek biyolojik anlami belirsiz olabilir Tekrarlayici yontemlerCDH uretip ilerleyici yontemlere ozgu hatalari azaltan bir yontemler grubu tekrarlayici iterative olarak siniflandirilmistir cunku bunlar ilerleyici yontemlere benzer olarak calismakla beraber buyuyen CDH ye yeni diziler eklerken ilk dizileri tekrar tekrar hizalamaya devam eder Ilerleyici yontemlerin yuksek kaliteli ilk hizalamalara muhtac olmalarinin nedeni bu hizalamalarin hep nihai sonucta yer almasidir Yani bir dizi bir CDH icinde yerini aldiktan sonra onun hizalamasi tekrar gozden gecirilmez Bu yaklasiklik approximation berimsel hizi artirir ama dogruluktan kaybetme pahasina Buna karsin tekrarlayici yontemler daha once hesaplanmis ikili hizalamalara veya sorgu dizisini iceren alt CDH ler geri gelebilirler Bu sayede yuksek kaliteli bir hizalama skoru elde etmeyi saglayacak bir genel optimize edilebilir Birbirinden ince farkliliklar gosteren cesitli tekrarlayici yontemler uygulamaya konmus ve yazilim paketi olarak kullanima sunulmustur bu yazilimlar hakkinda cesitli inceleme ve kiyaslama makaleleri en iyi yontemi ilan etmekten kacinmislardir adli yazilim paketi bir kullanir CDH hizalama skorunu optimize etmek icin buyuyen CDH nin hem hizalama agirliklarini hem de yerel olarak iraksamis veya bosluklu bolgelerini tekrarlayan bir sekilde duzeltir PRRP daha hizli bir yontemle insa edilmis bir hizalamayi iyilestirmede kullanildiginda en iyi performans gosterir Baska bir tekrarlayici program DIALIGN ise olagandisi bir yaklasim kullanir bosluk cezasi kullanmadan veya alt dizilerin lokal hizalamalarina odaklanir Ikili hizalama yapmakta kullanilan bir nokta matris grafigine benzer bir matris gosterimi kullanilarak bireysel motifler hizalanir Yavas bir global hizalama icin hizli lokal hizalamalari birer tohum olarak kullanan bir alternatif yontem CHAOS DIALIGN25 Agustos 2010 tarihinde Wayback Machine sitesinde paketinde kullanilir Tekrarlama temelli ucuncu bir populer yontem MUSCLE23 Temmuz 2010 tarihinde Wayback Machine sitesinde multiple sequence alignment by log expectation log beklenti ile coklu dizi hizalamasi olarak adlandirilir iki dizinin yakinligini belirlemek icin daha dogruluklu bir uzaklik degeri hesaplayarak ilerleyici yontemlerden daha yuksek bir basari gosterir Uzaklik olcutu tekrarlama asamalari arasinda yenilenir Gizli Markov modelleri GMM bosluk uyusma ve uyusmamalarin tum kombinasyonlarina bir olasilik degeri atayan olasiliksal modellerdir GMMler yuksek skorlu bir cikti verebilirler ama ayrica bir olasil hizalamalar ailesi de uretebilirler bunlar sonradan biyolojik anlamliliklari bakimindan degerlendirilebilir GMM temelli yontemler nipeten yakin zamanda gelistirilmis olmalarina ragmen berimsel hizda onemli iyilesme gostermislerdir ozellikle ortusen bolgelere sahip dizilerde Tipik GMM temelli yontemler bir CDH yi kismi dereceli cizit partial order graph bir tipi olarak temsil ederek calisirlar Bu cizitin dugumleri CDH nin sutunlarindaki olasil degerleri temsil eder Bu gosterimde tamamen korunmus bir sutun yani CDH deki tum diziler bir pozisyonda ayni karaktere sahipler tek bir dugum olarak gosterilir bu dugumden cikan baglanti sayisi hizalamanin bir sonraki sutunundaki farkli karakter sayisina esittir Tipik bir gizli Markov modeli icin gozlemlenen haller bireysel hizalama sutunlaridir gizli haller ise sorgu kumseinde bulunan dizilerin evrimlesmis oldugu varsayilan atasal diziyi temsil eder Dinamik programlama yonteminin verimli bir varyanti olan buyuyen CDH yi sorgu kumesindeki bir sonraki dizi ile hizalamak icin kullanilir boylece yeni bir CDH elde edilir Bu yontem ilerleyici hizalama yonteminden farklidir cunku her yeni dizi eklenmesinde evvelki dizilerin hizalamasi da yenilenir Ancak ilerleyici yontemlerde oldugu gibi bu yontem de sorgu kumesindeki dizilerin hizalamaya katilmasinin sirasina bagli sonuc verebilir ozellikle diziler uzak iliskilyse GMM temelli yontemlerin uygulandigi verimlilikleri ve bakimindan basarili sayilan cesitli yazilim programlari mevcuttur Ancak GMM yontemleri yaygin ilerleyici yontemlerden daha karmasiktir En basit olani POA25 Aralik 2009 tarihinde Wayback Machine sitesinde Partial Order Alignment Kismi dereceli hizalama Benzer ama daha genellestirilmis bir yontem SAM16 Ekim 2011 tarihinde Wayback Machine sitesinde Sequence Alignment and Modeling System Dizi hizalama ve modelleme sistemi dir ve dir SAM yapmak icin hizalama kaynagi olarak ve mayasinda protein kodlayici ondeyili diziler iceren bir veri tabani gelistirmek icin kullanilmistir GMMlerin ikili karsilastirmasi ile uzak iliskili protein dizilerinin tespiti icin bir yazilimdir HHsearch calistiran bir sunucu CASP7 and CASP8 yapi ondeyi yarismasindaki en iyi 10 otomatik protein yapi ondeyi sunucularinin en hizlisiydi Genetik algoritmalar ve benzetmeli tavlamaBilgisayar bilimlerindeki standart optimizasyon teknikleri kaliteli CDH uretimi icin kullanilmistir Bu yontemlerden biri olan genetik algoritmalar sorgu kumesindeki dizileri meydana getiren evrimsel sureci ana hatlariyla benzeterek simule ederek CDH uretimi icin kullanilmistir Bu yontemde bir seri olasil CDH kisa parcalara bolunur ve bunlarin icinde cesitli yerlere bosluklar konarak tekrar tekrar diziler duzenlenir Genel bir objektif fonksiyon en yaygin olarak dinamik programlama ile CDH yontemlerinde kullanilan ciftler toplami maksimizasyon fonksiyonu bu simulasyon sirasinda optimize edilir Protein dizileri icin bir teknik SAGA Sequence Alignment by Genetic Algorithm Genetik algoritma ile dizi hizalamasi ve RNA iicin onun karsiligi olan RAGA adli yazilim programlarinda uygulanmistir Benzetilmis tavlama tekniginde baska bir yontemle elde edilmis mevcut bir CDH bir seri yeniden duzenleme yoluyla iyilestilir Hizalama uzayinda baslangis hizalamasindan daha optimal bolgeler bulunmaya calisilir Genetik algoritmada oldugu gibi benzetilmis tavlama da ciftler toplami gibi bir objektif fonksiyonu maksimize etmeye calisir Benzetilmis tavlamada mecazi bir sicaklik faktoru degisimlerin meydana gelme hizini ve her bir degisimin olasiligini belirler tipik kullanimda farkli ozelliklere sahip olan iki tip evre vardir yuksek degisim hizi ve nispeten dusuk olasiliklara sahip evreler ile hizalama uzayinin uzak bolgelerini arastirmak icin dusuk hiz ve yuksek olasilikli evreler yeni varilmis bir bolgedeki lokal minimumlari daha ayrintili olarak kesif yapmak icin birbirini takip eder Bu yaklasim MSASA Multiple Sequence Alignment by Simulated Annealing programinda uygulanmistir Motif bulmaDrosophila nin yedi dizisinin hizalanmasi ve MEME programi tarafindan tespit edilmis renkli olarak gosterilen motifler Motif pozisyonlari ve dizi hizalamalari birbirlerinden bagimsiz olarak uretilirse birbirleriyle bagintilari bu ornekte goruldugu uzere genelde iyidir ama mukemmel degildir Motif bulmak veya bir diger adiyla profil analizi global CDH de dizi motifi bulma yontemidir Hem daha iyi CDH uretmeye hem de benzer motifler iceren baska benzer diziler bulmak icin bir skor matrisi uretmeye yarar Motifleri bulmak icin cesitli yontemler gelistirilmistir bunlarin hepsi buyuk bir hizalama icinde yer alan cok korunmus kisa dizi oruntuleri motifleri bulmaya sonra da bulunan motifin her pozisyonundaki nukleotit veya amino asit bilesimini yansitan substitusyon matrisine benzer bir matris insasina dayalidir Bu matrisler kullanilarak hizalama daha da iyilestirilebilir Standart profil analizinde matriste her karakter ve ayrica bosluk icin degerler bulunur Alternatif olarak istatistik oruntu bulma algoritmalari ile bulunan motifler CDH icin bir on adim olusturabilir ondan tureyen bir bilgi olmak yerine Cogu durumda sorgu kumesi eger az sayida dizi icerirse veya birbirine cok benzeyen diziler icerirse skor matrisindeki dagilimi normallestirmek icin pseudocount eklenebilir Bu yolla matriste sifir sikliga sahip degerler sifir olmayan kucuk degerlere donusturulur Blok analizi motifleri hizalamada bosluksuz bolgelere sinirlayan bir motif bulma yontemidir Bloklar bir CDH den uretilebilir veya hizalanmamis dizilerden bilinen gen ailelerinden elde edilmis onceden hesaplanmis motif gruplari kullanilarak hizalanmamis dizilerden bulunabilir Blok skorlamasi genelde yuksek frekansli karakterlerin arasindaki uzakliga dayalidir bir substitusyon matrisinin hesaplanmasi yerine sunucusu hizalanmamis dizilerde bu tur motiflerin bulunmasi icin enteraktif bir yontem saglar Istatistik oruntu esleme pattern matching hem hem de icin uygulanmistir En yaygin motif bulma araclarindan biri olan MEME motif bulmak icin beklenti maksimizasyon ve gizli Markov modelleri kullanir bu motifler sonra paketindeki yardimci program MAST tarafindan arama araci olarak kullanilir Gorselleme ve duzeltim editing araclariCoklu dizi hizalamasinda bulussal horistik yontemlerin kullanilmasi herhangi bir grup protein dizilerinin hizalamasinda hata olma olasiliginin yuksek olacagi anlamini tasir Evrim sirasinda dizilerden bir veya birkacina rastgele bir insersiyon olmasi veya daha karmasik bir evrimsel surec sonucu dizi analizi ile kolayca hizalanamayan proteinler meydana gelmesi bu tur hatalar meydana gelebilir hizalamalarin gorsel sekilde kontrolune olanak verir Iki veya daha cok dizide tanimlanmis olan islevsel konumlara bakilarak hizalama kalitesi anlasilabilir Bu programlarin cogu bu tur genelde ufak hatalarin duzeltilmesini de saglar boylece filogenetik analiz veya karsilastirmali modelleme icin uygun optimal bir uzman tarafindan duzenlenmis curated hizalama elde edilmis olur Filogenetikteki kullanimiCoklu dizi hizalamalari filogenetik agac uretmekte kullanilabilir Bunun iki nedeni vardir Birincisi aciklamali annotated dizilerdeki islevsel protein bolgeleri bilinmeyen protein bolgelerinin hizalanmasinda kullanilabilir Obur neden ise islevsel olarak onemli olan korunmus bolgeler bu yolla bulunabilir Coklu dizi hizalamalari kullanilarak diziler arasinda homolojiden yararlanarak evrimsel iliskiler bulunabilir Nokta mutasyonlar ve delesyonlar indel olarak adlandirilir tespit edilebilir Coklu dizi hizalamalari islevsel olarak onemli konumlarin tespit edilmesinde kullanilabilir Korunmus bolgeler sayesinde ornegin baglanma bolgeleri aktif bolgeler veya diger anahtar fonksiyonlara karsilik gelen konumlar bulunabilir Coklu dizi hizalamalarina bakarken dizileri kiyaslamakta farkli ozellikleri goz onune almak yararli olabilir Bu ozelliklerin arasinda aynilik benzerlik ve homoloji sayilabilir Aynilik dizilerin birbirine karsilik gelen pozisyonlarinda ayni kalintiya reziduye sahip olmasidir Buna karsin benzerlik karsilastirilan dizilerin nitel olarak benzer kimyasal kalintilara sahip olmasidir Ornegin nukleotit dizilerinde pirimidinler birbirine purinler de birbirine benzer sayilirlar Benzerlik sonunda homolojiye varir diziler ne kadar birbirlerine benzerse homolog olmaya o kadar yakindirlar Dizilerde homoloji ortak atalari bulmaya yardimci olur Ayrica bakinizKladistik FilogenetikKaynakca European Bioinformatics Institute 3 Mart 2013 tarihinde kaynagindan arsivlendi Erisim tarihi 3 Mart 2010 Wang L Jiang T 1994 On the complexity of multiple sequence alignment J Comput Biol 1 337 348 Just W 2001 Computational complexity of multiple sequence alignment with SP score J Comput Biol 8 6 615 23 Carrillo H Lipman DJ 1988 The Multiple Sequence Alignment Problem in Biology SIAM Journal of Applied Mathematics Vol 48 No 5 1073 1082 Lipman DJ Altschul SF Kececioglu JD 1989 A tool for multiple sequence alignment Proc Natl Acad Sci U S A 86 4412 4415 Genetic analysis software National Center for Biotechnology Information 2 Kasim 2015 tarihinde kaynagindan Erisim tarihi 3 Mart 2010 a b c d e f g Mount DM 2004 Bioinformatics Sequence and Genome Analysis 2nd ed Cold Spring Harbor Laboratory Press Cold Spring Harbor NY Higgins DG Sharp PM 1988 CLUSTAL a package for performing multiple sequence alignment on a microcomputer Gene 73 1 ss 237 244 doi 10 1016 0378 1119 88 90330 7 Thompson JD Higgins DG Gibson TJ 1994 CLUSTAL W improving the sensitivity of progressive multiple sequence alignment through sequence weighting positions specific gap penalties and weight matrix choice Nucleic Acids Res Cilt 22 ss 4673 4680 doi 10 1093 nar 22 22 4673 PMID 7984417 KB1 bakim Birden fazla ad yazar listesi link Hirosawa M Totoki Y Hoshida M Ishikawa M 1995 Comprehensive study on iterative algorithms of multiple sequence alignment Comput Appl Biosci 11 13 18 Gotoh O 1996 Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments J Mol Biol 264 4 823 38 a b Brudno M Chapman M Gottgens B Batzoglou S Morgenstern B 2003 Fast and sensitive multiple alignment of large genomic sequences BMC Bioinformatics 4 66 Edgar RC 2004 MUSCLE multiple sequence alignment with high accuracy and high throughput Nucleic Acids Research 32 5 1792 97 a b Hughey R Krogh A 1996 Hidden Markov models for sequence analysis extension and analysis of the basic method CABIOS 12 2 95 107 Kaynak hatasi Gecersiz lt ref gt etiketi hughey adi farkli icerikte birden fazla tanimlanmis Bkz Kaynak gosterme Grasso C Lee C 2004 Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems Bioinformatics 20 10 1546 56 Durbin R Eddy S Krogh A Mitchison G 1998 Biological sequence analysis probabilistic models of proteins and nucleic acids Cambridge University Press 1998 Soding J 2005 Protein homology detection by HMM HMM comparison Bioinformatics 21 7 ss 951 960 doi 10 1093 bioinformatics bti125 PMID 15531603 Battey JN Kopp J Bordoli L Read RJ Clarke ND Schwede T 2007 Automated server predictions in CASP7 Proteins 69 Suppl 8 ss 68 82 doi 10 1002 prot 21761 PMID 17894354 KB1 bakim Birden fazla ad yazar listesi link Notredame C Higgins DG 1996 SAGA sequence alignment by genetic algorithm Nucleic Acids Res 24 8 1515 24 Notredame C O Brien EA Higgins DG 1997 RAGA RNA sequence alignment by genetic algorithm Nucleic Acids Res 25 22 4570 80 Kim J Pramanik S Chung MJ 1994 Multiple sequence alignment using simulated annealing Comput Appl Biosci 10 4 419 26 Henikoff S Henikoff JG 1991 Automated assembly of protein blocks for database searching Nucleic Acids Res Cilt 19 ss 6565 6572 doi 10 1093 nar 19 23 6565 PMID 1754394 Bailey TL Elkan C 1994 Fitting a mixture model by expectation maximization to discover motifs in biopolymers Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology Menlo Park California AAAI Press ss 28 36 Bailey TL Gribskov M 1998 Combining evidence using p values application to sequence homology searches Bioinformatics Cilt 14 ss 48 54 doi 10 1093 bioinformatics 14 1 48 PMID 9520501 European Molecular Biology Laboratory 2007 24 Eylul 2015 tarihinde kaynagindan arsivlendi Erisim tarihi 7 Mart 2010 a b Budd Aidan Subat 2009 Multiple sequence alignment exercises and demonstrations European Molecular Biology Laboratory Erisim tarihi 7 Mart 2010 olu kirik baglanti Inceleme makaleleri Duret L 2000 Multiple alignment for structural functional or phylogenetic analyses of homologous sequences D Higgins and W Taylor Ed Bioinformatics sequence structure and databanks Oxford Oxford University Press Notredame C 2002 Recent progresses in multiple sequence alignment a survey Pharmacogenomics 31 1 ss 131 144 doi 10 1517 14622416 3 1 131 Thompson J D 1999 A comprehensive comparison of multiple sequence alignment programs Nucleic Acids Research 27 13 ss 12682 2690 doi 10 1093 nar 27 13 2682 PMID 10373585 Wallace I M 2005 Multiple sequence alignments Curr Opin Struct Biol 15 3 ss 261 266 doi 10 1016 j sbi 2005 04 002 Notredame C 2007 Recent evolutions of multiple sequence alignment algorithms PLOS Computational Biology 8 3 s e123 doi 10 1371 journal pcbi 0030123 Dis baglantilarExPASy dizi hizalama araclari13 Nisan 2010 tarihinde Wayback Machine sitesinde from the Virtual School of Natural Sciences from Pole Bioinformatique Lyonnais An entry point to clustal servers and information29 Mayis 2010 tarihinde Wayback Machine sitesinde An entry point to the main T Coffee servers21 Aralik 2010 tarihinde Wayback Machine sitesinde European Bioinformatics Institute servers ClustalW25 Agustos 2010 tarihinde Wayback Machine sitesinde general purpose multiple sequence alignment program for DNA or proteins Muscle27 Temmuz 2010 tarihinde Wayback Machine sitesinde MUltiple Sequence Comparison by Log Expectation T coffee27 Temmuz 2010 tarihinde Wayback Machine sitesinde multiple sequence alignment MAFFT2 Agustos 2010 tarihinde Wayback Machine sitesinde Multiple Alignment using Fast Fourier Transform KALIGN30 Temmuz 2010 tarihinde Wayback Machine sitesinde a fast and accurate multiple sequence alignment algorithm Lecture notes tutorials and courses Multiple sequence alignment lectures30 Agustos 2006 tarihinde Wayback Machine sitesinde from the Max Planck Institute for Molecular Genetics on multiple sequences alignments at the