Pfam, kullanılarak oluşturulan ek açıklamalarını ve çoklu dizi hizalamalarını içeren bir veritabanıdır. Pfam'ın en son sürümü olan 37.0, Haziran 2024'te yayınlandı ve 21.979 aile içeriyor. Şu anda web sitesi aracılığıyla sağlanmaktadır.
![]() | |
İçerik | |
---|---|
Açıklama | Pfam veritabanı, protein alanları için hizalamalar ve gizli Markov modelleri sağlar. |
Yakalanan veri türleri | Protein aileleri |
Organizmalar | tümü |
İletişim | |
Araştırma merkezi | |
Birincil alıntı | (PMID) 19920124 |
Erişim | |
Veri formatı | |
İnternet sitesi | ebi.ac.uk/interpro/entry/pfam/ |
İndirme bağlantısı | FTP |
Diğer | |
Lisans | GNU Kısıtlı Genel Kamu Lisansı |
Sürüm | 37.0 |
Yer imi konulabilir varlıklar | evet |
Kullanım
Pfam veritabanının genel amacı, protein ailelerinin ve alanlarının eksiksiz ve doğru bir sınıflandırmasını sağlamaktır. Başlangıçta, veritabanının oluşturulmasının ardındaki mantık, genomların açıklanmasının verimliliğini artırmak için bilinen protein aileleri hakkında bilgi toplamak için yarı otomatik bir yönteme sahip olmaktı. Protein ailelerinin Pfam sınıflandırması, proteinlerin geniş kapsamı ve mantıklı adlandırma kuralları nedeniyle biyologlar tarafından yaygın olarak benimsenmiştir.
Belirli proteinleri araştıran deneysel biyologlar tarafından, yapı belirleme için yeni hedefleri tanımlamak üzere yapısal biyologlar tarafından, dizileri düzenlemek için hesaplamalı biyologlar tarafından ve proteinlerin kökenlerini izleyen evrimsel biyologlar tarafından kullanılır. İnsan ve sinek gibi ilk genom projeleri, genomik verilerin işlevsel ek açıklamaları için Pfam'ı kapsamlı bir şekilde kullanmıştır.
InterPro web sitesi, kullanıcıların Pfam veritabanındaki ailelerle eşleşmeleri aramak için protein veya DNA dizileri göndermelerine olanak tanır. DNA gönderilirse, altı çerçeveli bir translasyon yapılır, ardından her çerçeve aranır. Pfam, tipik bir BLAST araması yapmak yerine, bölgelerdeki eşleşmelere daha fazla ağırlık veren, daha iyi uzaktan homoloji tespitine izin veren profil kullanır ve bu da onları iyi notlandırılmış yakın akrabaları olmayan organizmaların genomlarını açıklamak için daha uygun hale getirir.
Pfam, yapı veritabanlarındaki bilgilere ve Pfam alanlarının bu yapılarla eşleştirilmesine dayanarak proteinlerin içindeki ve arasındaki alan-alan etkileşimlerini kataloglayan iPfam gibi diğer kaynakların oluşturulmasında da kullanılmıştır.
İçerikler
Pfam'daki her aile için bir tane olabilir:
- Ailenin açıklamasını görüntüleyin
- Çoklu hizalamalara bakın
- Protein alan mimarilerini görüntüleyin
- Türlerin dağılımını inceleyin
- Diğer veritabanlarına giden bağlantıları takip edin
- Bilinen protein yapılarını görüntüleyin
Girişler çeşitli türlerde olabilir: aile, alan, tekrar veya motif. Aile, basitçe üyelerin ilişkili olduğunu gösteren varsayılan sınıftır. Etki alanları, birden fazla protein bağlamında bulunabilen özerk bir yapısal birim veya yeniden kullanılabilir sekans birimi olarak tanımlanır. Tekrarlar genellikle izolasyonda kararlı değildir, bunun yerine genellikle bir alan veya genişletilmiş yapı oluşturmak için tandem tekrarlar oluşturmak için gereklidir. Motifler genellikle globüler alanların dışında bulunan daha kısa dizi birimleridir.
Pfam ailelerinin açıklamaları Vikipedi kullanılarak genel halk tarafından yönetilmektedir (bkz. #Topluluk küratörlüğü).
Sürüm 29.0 itibarıyla, UniprotKB'deki protein dizilerinin %76,1'i en az bir Pfam alanıyla eşleşmiştir.
Yeni girişlerin oluşturulması
Yeni aileler, başta PDB ve Pfam isabeti olmayan genleri bulmak için eksiksiz proteomların analizi olmak üzere bir dizi kaynaktan gelmektedir.
Her aile için, dizilerin temsili bir alt kümesi yüksek kaliteli bir tohum hizalamasına hizalanır. Tohum hizalaması için diziler öncelikle UniprotKB'den bir miktar takviye ile pfamseq'ten (referans proteomların yedekli olmayan bir veritabanı) alınır. Bu tohum hizalaması daha sonra kullanılarak bir profil gizli Markov modeli oluşturmak için kullanılır. Bu HMM daha sonra dizi veritabanlarına karşı aranır ve küratörlü bir toplama eşiğine ulaşan tüm isabetler protein ailesinin üyeleri olarak sınıflandırılır. Ortaya çıkan üye koleksiyonu daha sonra tam bir hizalama oluşturmak için profil HMM ile hizalanır.
Her aile için, yanlış pozitif eşleşmeleri hariç tutarken aileyle doğru eşleşme sayısını en üst düzeye çıkaran manuel olarak küratörlü bir toplama eşiği atanır. Yanlış pozitifler, aynı klandan olmayan Pfam ailesi isabetleri arasındaki örtüşmeler gözlemlenerek tahmin edilir. Bu eşik, bir aile HMM'si ile eşleşmenin protein ailesine dahil edilip edilmeyeceğini değerlendirmek için kullanılır. Pfam'ın her güncellemesinde, yeni ve mevcut aileler arasındaki çakışmaları önlemek için toplama eşikleri yeniden değerlendirilir.
Bilinmeyen işlev alanları
(DUF'lar) Pfam veritabanının giderek büyüyen bir bölümünü temsil etmektedir. Bu aileler, türler arasında korundukları ancak bilinmeyen bir rol oynadıkları tespit edildiği için bu şekilde adlandırılmıştır. Yeni eklenen her DUF, eklenme sırasına göre adlandırılır. Bu girdilerin isimleri, işlevleri belirlendikçe güncellenir. Normalde, bir DUF'a ait en az bir proteinin işlevi belirlendiğinde, tüm DUF'un işlevi güncellenir ve aile yeniden adlandırılır. Bazı adlandırılmış aileler hala işlevi bilinmeyen alanlardır ve YbbR gibi temsili bir proteinden sonra adlandırılırlar. İşlevi bilinmeyen korunmuş diziler sekans verilerinde tanımlanmaya devam ettikçe DUF'ların sayısının artmaya devam etmesi beklenmektedir. DUF'ların sonunda işlevi bilinen ailelerin sayısından fazla olması beklenmektedir.
Klanlar
Zaman içinde hem dizi hem de kalıntı kapsamı artmış ve aileler büyüdükçe, ailelerin klanlar halinde gruplandırılmasına izin veren daha fazla evrimsel ilişki keşfedilmiştir. Klanlar ilk olarak 2005 yılında Pfam veritabanına tanıtılmıştır. Bunlar, yapısal, işlevsel, sekans ve HMM karşılaştırmalarıyla doğrulandığı gibi, tek bir evrimsel kökeni paylaşan ilgili ailelerin gruplandırılmasıdır. Sürüm 29.0 itibarıyla, protein ailelerinin yaklaşık üçte biri bir klana aitti. Bu oran 2019 itibarıyla yaklaşık dörtte üçe çıkmıştır (sürüm 32.0).
Olası klan ilişkilerini belirlemek için Pfam küratörleri, Çıktıların Basit Karşılaştırma Programını (SCOOP) ve veritabanındaki bilgileri kullanır. ECOD, Pfam girişleriyle kolayca eşleşen aileler ve genellikle Pfam klanlarıyla eşleşen homoloji seviyeleri ile bilinen yapılara sahip protein ailelerinin yarı otomatik hiyerarşik bir veritabanıdır.
Tarihçe
Pfam 1995 yılında Erik Sonnhammer, ve tarafından, çok hücreli hayvanların protein kodlayan genlerini açıklamak için kullanılabilecek yaygın olarak oluşan protein alanlarının bir koleksiyonu olarak kurulmuştur. Başlangıçtaki en önemli amaçlarından biri C. elegans genomunun açıklanmasına yardımcı olmaktı. Proje kısmen Cyrus Chothia'nın 'One thousand families for the molecular biologist' adlı kitabında yaklaşık 1500 farklı protein ailesi olduğu ve proteinlerin çoğunun bunlardan sadece 1000'ine girdiği iddiasıyla yönlendirildi. Bu iddianın aksine, Pfam veritabanı şu anda benzersiz protein alanlarına ve ailelerine karşılık gelen 16.306 giriş içermektedir. Bununla birlikte, bu ailelerin çoğu, ortak bir evrimsel kökene işaret eden yapısal ve işlevsel benzerlikler içermektedir (bkz. Klanlar).
Başlangıçta Pfam ve diğer veritabanları arasındaki önemli bir fark noktası, girişler için iki hizalama türünün kullanılmasıydı: daha küçük, manuel olarak kontrol edilen bir tohum hizalaması ve dizileri tohum hizalamasından oluşturulan bir profil gizli Markov modeline hizalayarak oluşturulan tam bir hizalama. Bu daha küçük tohum hizalamasının, dizi veritabanlarının yeni sürümleri çıktıkça güncellenmesi daha kolaydı ve bu nedenle, genom dizilimi daha verimli hale geldikçe ve zaman içinde daha fazla verinin işlenmesi gerektiğinde veritabanının nasıl güncel tutulacağı ikilemine umut verici bir çözüm sundu. Veritabanının güncellenme hızındaki bir başka gelişme, HMMER2'den ~100 kat daha hızlı ve daha hassas olan HMMER3'ün tanıtılmasıyla 24.0 sürümünde geldi.
Pfam-A'daki girişler bilinen tüm proteinleri kapsamadığından, Pfam-B adı verilen otomatik olarak oluşturulmuş bir ek sağlanmıştır. Pfam-B, ADDA adı verilen bir algoritma tarafından üretilen kümelerden türetilen çok sayıda küçük aile içeriyordu. Daha düşük kalitede olmasına rağmen, Pfam-A aileleri bulunamadığında Pfam-B aileleri yararlı olabilirdi. Pfam-B, 28.0 sürümünden itibaren durdurulmuş, daha sonra yeni bir kümeleme algoritması olan MMSeqs2 kullanılarak 33.1 sürümünde yeniden kullanıma sunulmuştur.
Pfam başlangıçta yedekliliği korumak için dünya çapında üç barındırılıyordu. Ancak 2012 ve 2014 yılları arasında Pfam kaynağı 'ye taşındı ve bu da web sitesinin tek bir alandan (xfam.org), iki bağımsız veri merkezi kullanılarak barındırılmasına olanak sağladı. Bu, güncellemelerin daha iyi merkezileştirilmesine ve , , iPfam ve diğerleri gibi diğer Xfam projeleriyle gruplandırmaya izin verirken, birden fazla merkezden barındırmanın sağladığı kritik esnekliği korudu.
Yaklaşık 2014'ten 2016'ya kadar Pfam, küratörlükle ilgili manuel çabayı daha da azaltmak ve daha sık güncellemelere izin vermek için önemli bir yeniden yapılanma geçirdi. 2022 civarında Pfam, 'ya entegre edildi.
Topluluk küratörlüğü
Bu kadar büyük bir veritabanının düzenlenmesi, yeni ailelerin ve eklenmesi gereken güncellenmiş bilgilerin hacmine ayak uydurma açısından sorunlar ortaya çıkardı. Veritabanının yayınlanmasını hızlandırmak için geliştiriciler, veritabanının yönetiminde daha fazla topluluk katılımına izin vermek için bir dizi girişim başlattılar.
Girişlerin güncellenme ve iyileştirilme hızını artırmada kritik bir adım, 26.0 sürümünde Pfam alanlarının işlevsel açıklamasını Vikipedi topluluğuna açmaktı. Halihazırda bir Vikipedi girişi olan girdiler için bu Pfam sayfasına bağlandı ve olmayanlar için topluluk bir tane oluşturmaya ve bağlanması için küratörleri bilgilendirmeye davet edildi. Topluluk katılımının bu ailelerin açıklama düzeyini büyük ölçüde geliştireceği, ancak bazılarının Vikipedi'ye dahil edilmek için yeterince kayda değer olmayacağı ve bu durumda orijinal Pfam açıklamalarını koruyacakları beklenmektedir. Çinko parmak maddesi gibi bazı Vikipedi maddeleri birden fazla aileyi kapsamaktadır. InterPro ve Pfam verilerine dayalı makaleler oluşturmak için otomatik bir prosedür de uygulanmıştır; bu prosedür, bir sayfayı bilgi ve veritabanlarına bağlantıların yanı sıra mevcut resimlerle doldurur, ardından bir makale bir küratör tarafından incelendikten sonra Sandbox'tan Vikipedi'ye taşınır. Maddelerin vandalizmine karşı koruma sağlamak amacıyla, her Vikipedi revizyonu Pfam web sitesinde gösterilmeden önce küratörler tarafından gözden geçirilir. Ancak neredeyse tüm vandalizm vakaları, küratörlere ulaşmadan önce topluluk tarafından düzeltilmiştir.
Pfam üç gruptan oluşan uluslararası bir konsorsiyum tarafından yönetilmektedir. Pfam'ın önceki sürümlerinde, aile girişleri yalnızca Cambridge, İngiltere sitesinde değiştirilebiliyordu ve bu da konsorsiyum üyelerinin site küratörlüğüne katkıda bulunma yeteneğini sınırlıyordu. 26.0 sürümünde, geliştiriciler dünyanın herhangi bir yerindeki kayıtlı kullanıcıların Pfam ailelerini eklemelerine veya değiştirmelerine izin veren yeni bir sisteme geçtiler.
Kaynakça
- ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "The Pfam protein families database". Nucleic Acids Res. 36 (Database issue). ss. D281-8. doi:10.1093/nar/gkm960. (PMC) 2238907 $2. (PMID) 18039703.
- ^ Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, S. R.; Sonnhammer, E. L.; Bateman, A. (Jan 2006). "Pfam: clans, web tools and services". Nucleic Acids Research (Free full text) . 34 (Database issue). ss. D247-D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. (PMC) 1347511 $2. (PMID) 16381856.
- ^ ; Coin, L.; ; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, E. L.; Studholme, D. J.; Yeats, C.; (2004). "The Pfam protein families database". . 32 (Database issue). ss. 138D-1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. (PMC) 308855 $2. (PMID) 14681378.
- ^ "Xfam Blog". Xfam Blog (İngilizce). 14 Haziran 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Eylül 2024.
- ^ a b c d Sammut, Stephen; Finn, Robert D.; Bateman, Alex (2008). "Pfam 10 years on: 10 000 families and still growing". Briefings in Bioinformatics. 9 (3). ss. 210-219. doi:10.1093/bib/bbn010. (PMID) 18344544.
- ^ a b c Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (1997). "Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments". Proteins. 28 (3). ss. 405-420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. (PMID) 9223186.
- ^ Xu, Qifang; Dunbrack, Roland L. (2012). "Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB". Bioinformatics. 28 (21). ss. 2763-2772. doi:10.1093/bioinformatics/bts533. (PMC) 3476341 $2. (PMID) 22942020.
- ^ a b c Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A. (2009). "The Pfam protein families database". Nucleic Acids Research. 38 (Database). ss. D211-D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. (PMC) 2808889 $2. (PMID) 19920124.
- ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). "The Pfam protein families database". Nucleic Acids Res. 30 (1). ss. 276-80. doi:10.1093/nar/30.1.276. (PMC) 99071 $2. (PMID) 11752314.
- ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, ve diğerleri. (2000). "The genome sequence of Drosophila melanogaster". Science. 287 (5461). ss. 2185-95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 $2. doi:10.1126/science.287.5461.2185. (PMID) 10731132.
- ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; ve diğerleri. (2001). "Initial sequencing and analysis of the human genome". Nature. 409 (6822). ss. 860-921. doi:10.1038/35057062. hdl:2027.42/62798. ISSN 0028-0836. (PMID) 11237011.
- ^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik L. L.; Tate, John; Punta, Marco (2014). "Pfam: the protein families database". Nucleic Acids Research. 42 (D1). ss. D222-D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. (PMC) 3965110 $2. (PMID) 24288371.
- ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). "Pfam: multiple sequence alignments and HMM-profiles of protein domains". Nucleic Acids Res. 26 (1). ss. 320-2. doi:10.1093/nar/26.1.320. (PMC) 147209 $2. (PMID) 9399864.
- ^ Finn, R. D.; Marshall, M.; Bateman, A. (2004). "iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions". Bioinformatics. 21 (3). ss. 410-412. doi:10.1093/bioinformatics/bti011. ISSN 1367-4803. (PMID) 15353450.
- ^ a b c d Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, John; Bateman, Alex (2016). "The Pfam protein families database: towards a more sustainable future". Nucleic Acids Research. 44 (D1). ss. D279-D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. (PMC) 4702930 $2. (PMID) 26673716.
- ^ a b c d e f Punta, M.; Coggill, P. C.; Eberhardt, R. Y.; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K.; Ceric, G.; Clements, J.; Heger, A.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A.; Finn, R. D. (2011). "The Pfam protein families database". Nucleic Acids Research. 40 (D1). ss. D290-D301. doi:10.1093/nar/gkr1065. ISSN 0305-1048. (PMC) 3245129 $2. (PMID) 22127870.
- ^ a b El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J; Salazar, Gustavo A; Smart, Alfredo; Sonnhammer, Erik L L; Hirsh, Layla; Paladin, Lisanna; Piovesan, Damiano; Tosatto, Silvio C E; Finn, Robert D (8 Ocak 2019). "The Pfam protein families database in 2019". Nucleic Acids Research. 47 (D1). ss. D427-D432. doi:10.1093/nar/gky995. (PMC) 6324024 $2. (PMID) 30357350.
- ^ "Evolutionary Classification of Protein Domains". prodata.swmed.edu. 15 Temmuz 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Mayıs 2019.
- ^ Chothia, Cyrus (1992). "One thousand families for the molecular biologist". Nature. 357 (6379). ss. 543-544. Bibcode:1992Natur.357..543C. doi:10.1038/357543a0. ISSN 0028-0836. (PMID) 1608464.
- ^ Heger, A.; Wilton, C. A.; Sivakumar, A.; Holm, L. (Jan 2005). "ADDA: a domain database with global coverage of the protein universe". Nucleic Acids Research (Free full text) . 33 (Database issue). ss. D188-D191. doi:10.1093/nar/gki096. ISSN 0305-1048. (PMC) 540050 $2. (PMID) 15608174.
- ^ "Pfam 28.0 release notes". 24 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 30 Haziran 2015.
- ^ "A new Pfam-B is released". Xfam Blog (İngilizce). 30 Haziran 2020. 11 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Ocak 2021.
- ^ "Moving to xfam.org". 19 Ekim 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Kasım 2016.
- ^ Paysan-Lafosse, Typhaine (2023). "InterPro in 2022". Nucleic Acids Research. 51 (D1). ss. D418-D427. doi:10.1093/nar/gkac993. (PMC) 9825450 $2.
Dış bağlantılar
- Pfam - , İngiltere'deki protein ailesi veritabanı
- PDBfam - , ABD'de Pfam alanlarının PDB'deki dizilere atanması
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Pfam gizli Markov modelleri kullanilarak olusturulan ek aciklamalarini ve coklu dizi hizalamalarini iceren protein ailelerinin bir veritabanidir 1 2 3 Pfam in en son surumu olan 37 0 Haziran 2024 te yayinlandi ve 21 979 aile iceriyor 4 Su anda InterPro web sitesi araciligiyla saglanmaktadir PfamIcerikAciklamaPfam veritabani protein alanlari icin hizalamalar ve gizli Markov modelleri saglar Yakalanan veri turleriProtein aileleriOrganizmalartumuIletisimArastirma merkeziEBIBirincil alintiPMID 19920124ErisimVeri formatiStockholm formatiInternet sitesiebi ac uk interpro entry pfam Indirme baglantisiFTPDigerLisansGNU Kisitli Genel Kamu LisansiSurum37 0Yer imi konulabilir varliklarevet Icindekiler 1 Kullanim 2 Icerikler 2 1 Yeni girislerin olusturulmasi 2 2 Bilinmeyen islev alanlari 2 3 Klanlar 3 Tarihce 3 1 Topluluk kuratorlugu 4 Kaynakca 5 Dis baglantilarKullanimdegistirPfam veritabaninin genel amaci protein ailelerinin ve alanlarinin eksiksiz ve dogru bir siniflandirmasini saglamaktir 5 Baslangicta veritabaninin olusturulmasinin ardindaki mantik genomlarin aciklanmasinin verimliligini artirmak icin bilinen protein aileleri hakkinda bilgi toplamak icin yari otomatik bir yonteme sahip olmakti 6 Protein ailelerinin Pfam siniflandirmasi proteinlerin genis kapsami ve mantikli adlandirma kurallari nedeniyle biyologlar tarafindan yaygin olarak benimsenmistir 7 Belirli proteinleri arastiran deneysel biyologlar tarafindan yapi belirleme icin yeni hedefleri tanimlamak uzere yapisal biyologlar tarafindan dizileri duzenlemek icin hesaplamali biyologlar tarafindan ve proteinlerin kokenlerini izleyen evrimsel biyologlar tarafindan kullanilir 8 Insan ve sinek gibi ilk genom projeleri genomik verilerin islevsel ek aciklamalari icin Pfam i kapsamli bir sekilde kullanmistir 9 10 11 InterPro web sitesi kullanicilarin Pfam veritabanindaki ailelerle eslesmeleri aramak icin protein veya DNA dizileri gondermelerine olanak tanir DNA gonderilirse alti cerceveli bir translasyon yapilir ardindan her cerceve aranir 12 Pfam tipik bir BLAST aramasi yapmak yerine korunmus bolgelerdeki eslesmelere daha fazla agirlik veren daha iyi uzaktan homoloji tespitine izin veren profil gizli Markov modellerini kullanir ve bu da onlari iyi notlandirilmis yakin akrabalari olmayan organizmalarin genomlarini aciklamak icin daha uygun hale getirir 13 Pfam yapi veritabanlarindaki bilgilere ve Pfam alanlarinin bu yapilarla eslestirilmesine dayanarak proteinlerin icindeki ve arasindaki alan alan etkilesimlerini kataloglayan iPfam gibi diger kaynaklarin olusturulmasinda da kullanilmistir 14 IceriklerdegistirPfam daki her aile icin bir tane olabilir Ailenin aciklamasini goruntuleyin Coklu hizalamalara bakin Protein alan mimarilerini goruntuleyin Turlerin dagilimini inceleyin Diger veritabanlarina giden baglantilari takip edin Bilinen protein yapilarini goruntuleyin Girisler cesitli turlerde olabilir aile alan tekrar veya motif Aile basitce uyelerin iliskili oldugunu gosteren varsayilan siniftir Etki alanlari birden fazla protein baglaminda bulunabilen ozerk bir yapisal birim veya yeniden kullanilabilir sekans birimi olarak tanimlanir Tekrarlar genellikle izolasyonda kararli degildir bunun yerine genellikle bir alan veya genisletilmis yapi olusturmak icin tandem tekrarlar olusturmak icin gereklidir Motifler genellikle globuler alanlarin disinda bulunan daha kisa dizi birimleridir 9 Pfam ailelerinin aciklamalari Vikipedi kullanilarak genel halk tarafindan yonetilmektedir bkz Topluluk kuratorlugu Surum 29 0 itibariyla UniprotKB deki protein dizilerinin 76 1 i en az bir Pfam alaniyla eslesmistir 15 Yeni girislerin olusturulmasidegistir Yeni aileler basta PDB ve Pfam isabeti olmayan genleri bulmak icin eksiksiz proteomlarin analizi olmak uzere bir dizi kaynaktan gelmektedir 16 Her aile icin dizilerin temsili bir alt kumesi yuksek kaliteli bir tohum hizalamasina hizalanir Tohum hizalamasi icin diziler oncelikle UniprotKB den bir miktar takviye ile pfamseq ten referans proteomlarin yedekli olmayan bir veritabani alinir 15 Bu tohum hizalamasi daha sonra HMMER kullanilarak bir profil gizli Markov modeli olusturmak icin kullanilir Bu HMM daha sonra dizi veritabanlarina karsi aranir ve kuratorlu bir toplama esigine ulasan tum isabetler protein ailesinin uyeleri olarak siniflandirilir Ortaya cikan uye koleksiyonu daha sonra tam bir hizalama olusturmak icin profil HMM ile hizalanir Her aile icin yanlis pozitif eslesmeleri haric tutarken aileyle dogru eslesme sayisini en ust duzeye cikaran manuel olarak kuratorlu bir toplama esigi atanir Yanlis pozitifler ayni klandan olmayan Pfam ailesi isabetleri arasindaki ortusmeler gozlemlenerek tahmin edilir Bu esik bir aile HMM si ile eslesmenin protein ailesine dahil edilip edilmeyecegini degerlendirmek icin kullanilir Pfam in her guncellemesinde yeni ve mevcut aileler arasindaki cakismalari onlemek icin toplama esikleri yeniden degerlendirilir 16 Bilinmeyen islev alanlaridegistir Islevi bilinmeyen alanlar DUF lar Pfam veritabaninin giderek buyuyen bir bolumunu temsil etmektedir Bu aileler turler arasinda korunduklari ancak bilinmeyen bir rol oynadiklari tespit edildigi icin bu sekilde adlandirilmistir Yeni eklenen her DUF eklenme sirasina gore adlandirilir Bu girdilerin isimleri islevleri belirlendikce guncellenir Normalde bir DUF a ait en az bir proteinin islevi belirlendiginde tum DUF un islevi guncellenir ve aile yeniden adlandirilir Bazi adlandirilmis aileler hala islevi bilinmeyen alanlardir ve YbbR gibi temsili bir proteinden sonra adlandirilirlar Islevi bilinmeyen korunmus diziler sekans verilerinde tanimlanmaya devam ettikce DUF larin sayisinin artmaya devam etmesi beklenmektedir DUF larin sonunda islevi bilinen ailelerin sayisindan fazla olmasi beklenmektedir 16 Klanlardegistir Zaman icinde hem dizi hem de kalinti kapsami artmis ve aileler buyudukce ailelerin klanlar halinde gruplandirilmasina izin veren daha fazla evrimsel iliski kesfedilmistir 8 Klanlar ilk olarak 2005 yilinda Pfam veritabanina tanitilmistir Bunlar yapisal islevsel sekans ve HMM karsilastirmalariyla dogrulandigi gibi tek bir evrimsel kokeni paylasan ilgili ailelerin gruplandirilmasidir 5 Surum 29 0 itibariyla protein ailelerinin yaklasik ucte biri bir klana aitti 15 Bu oran 2019 itibariyla yaklasik dortte uce cikmistir surum 32 0 17 Olasi klan iliskilerini belirlemek icin Pfam kuratorleri Ciktilarin Basit Karsilastirma Programini SCOOP ve ECOD veritabanindaki bilgileri kullanir 17 ECOD Pfam girisleriyle kolayca eslesen aileler ve genellikle Pfam klanlariyla eslesen homoloji seviyeleri ile bilinen yapilara sahip protein ailelerinin yari otomatik hiyerarsik bir veritabanidir 18 TarihcedegistirPfam 1995 yilinda Erik Sonnhammer Sean Eddy ve Richard Durbin tarafindan cok hucreli hayvanlarin protein kodlayan genlerini aciklamak icin kullanilabilecek yaygin olarak olusan protein alanlarinin bir koleksiyonu olarak kurulmustur 6 Baslangictaki en onemli amaclarindan biri C elegans genomunun aciklanmasina yardimci olmakti 6 Proje kismen Cyrus Chothia nin One thousand families for the molecular biologist adli kitabinda yaklasik 1500 farkli protein ailesi oldugu ve proteinlerin cogunun bunlardan sadece 1000 ine girdigi iddiasiyla yonlendirildi 5 19 Bu iddianin aksine Pfam veritabani su anda benzersiz protein alanlarina ve ailelerine karsilik gelen 16 306 giris icermektedir Bununla birlikte bu ailelerin cogu ortak bir evrimsel kokene isaret eden yapisal ve islevsel benzerlikler icermektedir bkz Klanlar 5 Baslangicta Pfam ve diger veritabanlari arasindaki onemli bir fark noktasi girisler icin iki hizalama turunun kullanilmasiydi daha kucuk manuel olarak kontrol edilen bir tohum hizalamasi ve dizileri tohum hizalamasindan olusturulan bir profil gizli Markov modeline hizalayarak olusturulan tam bir hizalama Bu daha kucuk tohum hizalamasinin dizi veritabanlarinin yeni surumleri ciktikca guncellenmesi daha kolaydi ve bu nedenle genom dizilimi daha verimli hale geldikce ve zaman icinde daha fazla verinin islenmesi gerektiginde veritabaninin nasil guncel tutulacagi ikilemine umut verici bir cozum sundu Veritabaninin guncellenme hizindaki bir baska gelisme HMMER2 den 100 kat daha hizli ve daha hassas olan HMMER3 un tanitilmasiyla 24 0 surumunde geldi 8 Pfam A daki girisler bilinen tum proteinleri kapsamadigindan Pfam B adi verilen otomatik olarak olusturulmus bir ek saglanmistir Pfam B ADDA adi verilen bir algoritma tarafindan uretilen kumelerden turetilen cok sayida kucuk aile iceriyordu 20 Daha dusuk kalitede olmasina ragmen Pfam A aileleri bulunamadiginda Pfam B aileleri yararli olabilirdi Pfam B 28 0 surumunden itibaren durdurulmus 21 daha sonra yeni bir kumeleme algoritmasi olan MMSeqs2 kullanilarak 33 1 surumunde yeniden kullanima sunulmustur 22 Pfam baslangicta yedekliligi korumak icin dunya capinda uc ayna sitede barindiriliyordu Ancak 2012 ve 2014 yillari arasinda Pfam kaynagi EMBL EBI ye tasindi ve bu da web sitesinin tek bir alandan xfam org iki bagimsiz veri merkezi kullanilarak barindirilmasina olanak sagladi Bu guncellemelerin daha iyi merkezilestirilmesine ve Rfam TreeFam iPfam ve digerleri gibi diger Xfam projeleriyle gruplandirmaya izin verirken birden fazla merkezden barindirmanin sagladigi kritik esnekligi korudu 23 Yaklasik 2014 ten 2016 ya kadar Pfam kuratorlukle ilgili manuel cabayi daha da azaltmak ve daha sik guncellemelere izin vermek icin onemli bir yeniden yapilanma gecirdi 15 2022 civarinda Pfam Avrupa Biyoenformatik Enstitusundeki InterPro ya entegre edildi 24 Topluluk kuratorlugudegistir Bu kadar buyuk bir veritabaninin duzenlenmesi yeni ailelerin ve eklenmesi gereken guncellenmis bilgilerin hacmine ayak uydurma acisindan sorunlar ortaya cikardi Veritabaninin yayinlanmasini hizlandirmak icin gelistiriciler veritabaninin yonetiminde daha fazla topluluk katilimina izin vermek icin bir dizi girisim baslattilar Girislerin guncellenme ve iyilestirilme hizini artirmada kritik bir adim 26 0 surumunde Pfam alanlarinin islevsel aciklamasini Vikipedi topluluguna acmakti 16 Halihazirda bir Vikipedi girisi olan girdiler icin bu Pfam sayfasina baglandi ve olmayanlar icin topluluk bir tane olusturmaya ve baglanmasi icin kuratorleri bilgilendirmeye davet edildi Topluluk katiliminin bu ailelerin aciklama duzeyini buyuk olcude gelistirecegi ancak bazilarinin Vikipedi ye dahil edilmek icin yeterince kayda deger olmayacagi ve bu durumda orijinal Pfam aciklamalarini koruyacaklari beklenmektedir Cinko parmak maddesi gibi bazi Vikipedi maddeleri birden fazla aileyi kapsamaktadir InterPro ve Pfam verilerine dayali makaleler olusturmak icin otomatik bir prosedur de uygulanmistir bu prosedur bir sayfayi bilgi ve veritabanlarina baglantilarin yani sira mevcut resimlerle doldurur ardindan bir makale bir kurator tarafindan incelendikten sonra Sandbox tan Vikipedi ye tasinir Maddelerin vandalizmine karsi koruma saglamak amaciyla her Vikipedi revizyonu Pfam web sitesinde gosterilmeden once kuratorler tarafindan gozden gecirilir Ancak neredeyse tum vandalizm vakalari kuratorlere ulasmadan once topluluk tarafindan duzeltilmistir 16 Pfam uc gruptan olusan uluslararasi bir konsorsiyum tarafindan yonetilmektedir Pfam in onceki surumlerinde aile girisleri yalnizca Cambridge Ingiltere sitesinde degistirilebiliyordu ve bu da konsorsiyum uyelerinin site kuratorlugune katkida bulunma yetenegini sinirliyordu 26 0 surumunde gelistiriciler dunyanin herhangi bir yerindeki kayitli kullanicilarin Pfam ailelerini eklemelerine veya degistirmelerine izin veren yeni bir sisteme gectiler 16 Kaynakcadegistir Finn RD Tate J Mistry J Coggill PC Sammut SJ Hotz HR Ceric G Forslund K Eddy SR Sonnhammer EL Bateman A 2008 The Pfam protein families database Nucleic Acids Res 36 Database issue ss D281 8 doi 10 1093 nar gkm960 PMC 2238907 2 PMID 18039703 Finn R D Mistry J Schuster Bockler B Griffiths Jones S Hollich V Lassmann T Moxon S Marshall M Khanna A Durbin R Eddy S R Sonnhammer E L Bateman A Jan 2006 Pfam clans web tools and services Nucleic Acids Research Free full text bicim kullanmak icin url gerekiyor yardim 34 Database issue ss D247 D251 doi 10 1093 nar gkj149 ISSN 0305 1048 PMC 1347511 2 PMID 16381856 Bateman A Coin L Durbin R Finn R D Hollich V Griffiths Jones S Khanna A Marshall M Moxon S Sonnhammer E L Studholme D J Yeats C Eddy S R 2004 The Pfam protein families database Nucleic Acids Research 32 Database issue ss 138D 1141 doi 10 1093 nar gkh121 ISSN 0305 1048 PMC 308855 2 PMID 14681378 nbsp Xfam Blog Xfam Blog Ingilizce 14 Haziran 2009 tarihinde kaynagindan arsivlendi Erisim tarihi 10 Eylul 2024 a b c d Sammut Stephen Finn Robert D Bateman Alex 2008 Pfam 10 years on 10 000 families and still growing Briefings in Bioinformatics 9 3 ss 210 219 doi 10 1093 bib bbn010 PMID 18344544 a b c Sonnhammer Erik L L Eddy Sean R Durbin Richard 1997 Pfam A Comprehensive Database of Protein Domain Families Based on Seed Alignments Proteins 28 3 ss 405 420 doi 10 1002 sici 1097 0134 199707 28 3 lt 405 aid prot10 gt 3 0 co 2 l PMID 9223186 Xu Qifang Dunbrack Roland L 2012 Assignment of protein sequences to existing domain and family classification systems Pfam and the PDB Bioinformatics 28 21 ss 2763 2772 doi 10 1093 bioinformatics bts533 PMC 3476341 2 PMID 22942020 a b c Finn R D Mistry J Tate J Coggill P Heger A Pollington J E Gavin O L Gunasekaran P Ceric G Forslund K Holm L Sonnhammer E L L Eddy S R Bateman A 2009 The Pfam protein families database Nucleic Acids Research 38 Database ss D211 D222 doi 10 1093 nar gkp985 ISSN 0305 1048 PMC 2808889 2 PMID 19920124 a b Bateman A Birney E Cerruti L Durbin R Etwiller L Eddy SR Griffiths Jones S Howe KL Marshall M Sonnhammer EL 2002 The Pfam protein families database Nucleic Acids Res 30 1 ss 276 80 doi 10 1093 nar 30 1 276 PMC 99071 2 PMID 11752314 Adams MD Celniker SE Holt RA Evans CA Gocayne JD ve digerleri 2000 The genome sequence of Drosophila melanogaster Science 287 5461 ss 2185 95 Bibcode 2000Sci 287 2185 CiteSeerX 10 1 1 549 8639 2 doi 10 1126 science 287 5461 2185 PMID 10731132 Lander Eric S Linton Lauren M Birren Bruce Nusbaum Chad Zody Michael C ve digerleri 2001 Initial sequencing and analysis of the human genome Nature 409 6822 ss 860 921 doi 10 1038 35057062 hdl 2027 42 62798 ISSN 0028 0836 PMID 11237011 Finn Robert D Bateman Alex Clements Jody Coggill Penelope Eberhardt Ruth Y Eddy Sean R Heger Andreas Hetherington Kirstie Holm Liisa Mistry Jaina Sonnhammer Erik L L Tate John Punta Marco 2014 Pfam the protein families database Nucleic Acids Research 42 D1 ss D222 D230 doi 10 1093 nar gkt1223 ISSN 0305 1048 PMC 3965110 2 PMID 24288371 Sonnhammer EL Eddy SR Birney E Bateman A Durbin R 1998 Pfam multiple sequence alignments and HMM profiles of protein domains Nucleic Acids Res 26 1 ss 320 2 doi 10 1093 nar 26 1 320 PMC 147209 2 PMID 9399864 Finn R D Marshall M Bateman A 2004 iPfam visualization of protein protein interactions in PDB at domain and amino acid resolutions Bioinformatics 21 3 ss 410 412 doi 10 1093 bioinformatics bti011 ISSN 1367 4803 PMID 15353450 a b c d Finn Robert D Coggill Penelope Eberhardt Ruth Y Eddy Sean R Mistry Jaina Mitchell Alex L Potter Simon C Punta Marco Qureshi Matloob Sangrador Vegas Amaia Salazar Gustavo A Tate John Bateman Alex 2016 The Pfam protein families database towards a more sustainable future Nucleic Acids Research 44 D1 ss D279 D285 doi 10 1093 nar gkv1344 ISSN 0305 1048 PMC 4702930 2 PMID 26673716 a b c d e f Punta M Coggill P C Eberhardt R Y Mistry J Tate J Boursnell C Pang N Forslund K Ceric G Clements J Heger A Holm L Sonnhammer E L L Eddy S R Bateman A Finn R D 2011 The Pfam protein families database Nucleic Acids Research 40 D1 ss D290 D301 doi 10 1093 nar gkr1065 ISSN 0305 1048 PMC 3245129 2 PMID 22127870 a b El Gebali Sara Mistry Jaina Bateman Alex Eddy Sean R Luciani Aurelien Potter Simon C Qureshi Matloob Richardson Lorna J Salazar Gustavo A Smart Alfredo Sonnhammer Erik L L Hirsh Layla Paladin Lisanna Piovesan Damiano Tosatto Silvio C E Finn Robert D 8 Ocak 2019 The Pfam protein families database in 2019 Nucleic Acids Research 47 D1 ss D427 D432 doi 10 1093 nar gky995 PMC 6324024 2 PMID 30357350 Evolutionary Classification of Protein Domains prodata swmed edu 15 Temmuz 2019 tarihinde kaynagindan arsivlendi Erisim tarihi 18 Mayis 2019 Chothia Cyrus 1992 One thousand families for the molecular biologist Nature 357 6379 ss 543 544 Bibcode 1992Natur 357 543C doi 10 1038 357543a0 ISSN 0028 0836 PMID 1608464 Heger A Wilton C A Sivakumar A Holm L Jan 2005 ADDA a domain database with global coverage of the protein universe Nucleic Acids Research Free full text bicim kullanmak icin url gerekiyor yardim 33 Database issue ss D188 D191 doi 10 1093 nar gki096 ISSN 0305 1048 PMC 540050 2 PMID 15608174 Pfam 28 0 release notes 24 Mayis 2023 tarihinde kaynagindan arsivlendi Erisim tarihi 30 Haziran 2015 A new Pfam B is released Xfam Blog Ingilizce 30 Haziran 2020 11 Ocak 2021 tarihinde kaynagindan arsivlendi Erisim tarihi 15 Ocak 2021 Moving to xfam org 19 Ekim 2016 tarihinde kaynagindan arsivlendi Erisim tarihi 25 Kasim 2016 Paysan Lafosse Typhaine 2023 InterPro in 2022 Nucleic Acids Research 51 D1 ss D418 D427 doi 10 1093 nar gkac993 PMC 9825450 2 Dis baglantilardegistirPfam EMBL EBI Ingiltere deki protein ailesi veritabani PDBfam Fox Chase Kanser Merkezi ABD de Pfam alanlarinin PDB deki dizilere atanmasi https tr wikipedia org w index php title Pfam amp oldid 34740933 sayfasindan alinmistir