🌐 English / Беларуская / Українська / Русский

Асноўны сайт, дзе размяшчаецца база дадзеных RiboGrove, можа быць недасяжным па-за межамі Беларусі праз тэхнічныя прычыны ды бяду даогул. Таму існуе гэтае люстэрка, а файлы RiboGrove дасяжныя праз Дропбокс (спасылкі ніжэй).


RiboGrove



Змест


Што такое RiboGrove

RiboGrove — гэта база дадзеных паслядоўнасцей генаў 16S рРНК бактэрый і архей.

RiboGrove асноўваецца на базе дадзеных RefSeq. RiboGrove змяшчае толькі поўнапамерныя паслядоўнасці генаў 16S рРНК, а самі паслядоўнасці паходзяць з цалкам сабраных геномаў прокарыёт, дэпанаваных у RefSeq. Таму мы пастулюем высокую надзейнасць паслядоўнасцей, размешчаных у RiboGrove.

Табліца ніжэй паказвае, чым (якасна) RiboGrove адрозніваецца ад падобных баз дадзеных паслядоўнасцей РНК, а менавіта rrnDB, Silva, RDP і Greengenes. Кажучы каротка, RiboGrove саступае аналагам у колькасці паслядоўнасцей і іх разнастайнасці, але пераўзыходзіць у надзейнасці паслядоўнасцей.

RiboGroverrnDBSilvaRDPGreengenes
Прадстаўленыя арганізмыБактэрыі
Археі
Бактэрыі
Археі
Бактэрыі
Археі
Эўкарыёты
Бактэрыі
Археі
Эўкарыёты
Бактэрыі
Археі
Прадстаўленыя субадзінкі рыбасомМалаяМалаяВялікая
Малая
Вялікая
Малая
Малая
Змяшчае паслядоўнасці сабраных геномаўТакТакТакТакТак
Змяшчае паслядоўнасці ампліконаўНеНеТакТакТак
Змяшчае няпоўныя паслядоўнасці генаўНеТакТакТакТак
Адрознівае катэгорыі геномаўТакНеКрытэр
непрымянімы
Крытэр
непрымянімы
Крытэр
непрымянімы

Катэгорыі геномаў

Усе геномы, з якіх браліся дадзеныя для стварэння RiboGrove, былі падзеленыя на тры катэгорыі паводле іхняй надзейнасці:

  1. Катэгорыя 1 (найбольшая надзейнасць). Геномы, якія не дэманструюць прыкмет нізкаякаснай зборкі і якія былі секвенаваныя з дапамогай тэхналогіі PacBio альбо камбінацыі (Oxford Nanopore + Illumina).
  2. Катэгорыя 2. Геномы, якія не дэманструюць прыкмет нізкаякаснай зборкі, секвенаваныя з дапамогай любой іншай тэхналогіі (або тыя, для якіх тэхналогія секвенавання не была ўказаная).
  3. Катэгорыя 3 (найменшая надзейнасць). Геномы, якія дэманструюць хаця б адну прыкмету нізкаякаснай зборкі.

Прыкметы нізкаякаснай зборкі:


Праграмы, з дапамогай якіх была створана RiboGrove, знаходзяцца ў наступным ГітХаб-рэпазіторыі: ribogrove-tools.


Файлы

Актуальны выпуск RiboGrove — 24.230 (2025-05-08)

Выпуск заснованы на базе дадзеных RefSeq 230.

Файл fasta сціснуты з дапамогаю праграмы gzip, а файлы з метададзенымі сціснутыя ў zip-архіў. Каб распакаваць іх, карыстальнікі Linux і Mac OS могуць скарастыцца якраз праграмамі gzip і zip; гэтыя праграмы звычайна ўсталяваныя разам з аперыцыйнай сістэмай. Карыстальнікам Windows можа прыдацца бясплатная праграма-архіватар 7-Zip.

Архіў выпускаў RiboGrove

Усе папярэднія выпускі можна знайсці ў архіве выпускаў RiboGrove. На жаль, ён вядзецца толькі па-англійску.

Каментары да выпуску

Няма прынцыповых адрозненняў ад папярэдняга выпуску.

Каментары да ўсіх выпускаў RiboGrove можна знайсці на старонцы каментароў да выпускаў.


Статыстычнае апісанне

Памер RiboGrove
БактэрыіАрхеіУсяго
Колькасць паслядоўнасцяў генаў 268 758 1 076 269 834
Колькасць унікальных паслядоўнасцяў 64 436 759 65 195
Колькасць відаў 12 338 492 12 830
Колькасць геномаў 48 707 616 49 323
Колькасць геномаў 1-й катэгорыі 32 507 250 32 757
Колькасць геномаў 2-й катэгорыі 15 934 366 16 300
Колькасць геномаў 3-й катэгорыі 266 0 266
Даўжыня генаў 16S рРНК
БактэрыіАрхеі
Мінімальная даўжыня, п.а. 1 401,00 1 439,00
25-ы працэнтыль, п.а. * 1 517,00 1 471,00
Медыяна, п.а. * 1 529,00 1 473,50
75-ы працэнтыль, п.а. * 1 542,00 1 483,00
Сярэдняя даўжыня, п.а. * 1 526,85 1 491,31
Мода, п.а. * 1 537,00 1 472,00
Максімальная даўжыня, п.а. 2 438,00 3 604,00
Сярэднеквадратычнае адхіленне, п.а.* 25,10 121,54

* Метрыкі, пазначаныя зорачкай, вылічаныя з папярэдняй нармалізацыяй: вылічэннем медыян даўжынь генаў у межах віду.

Колькасць копій генаў 16S рРНК
Колькасць копій *БактэрыіАрхеі
Колькасць відаўАдсотак відаў, %Колькасць відаўАдсотак відаў, %
1 1 575 12,77 245 49,80
2 2 126 17,23 149 30,28
3 1 694 13,73 74 15,04
4 1 486 12,04 18 3,66
5 934 7,57 6 1,22
6 1 599 12,96 0 0,00
7 1 131 9,17 0 0,00
8 649 5,26 0 0,00
9 324 2,63 0 0,00
10 312 2,53 0 0,00
11 156 1,26 0 0,00
12 137 1,11 0 0,00
13 56 0,45 0 0,00
14 86 0,70 0 0,00
15 26 0,21 0 0,00
16 12 0,10 0 0,00
17 12 0,10 0 0,00
18 6 0,05 0 0,00
19 2 0,02 0 0,00
20 9 0,07 0 0,00
21 1 0,01 0 0,00
22 1 0,01 0 0,00
24 1 0,01 0 0,00
25 1 0,01 0 0,00
27 1 0,01 0 0,00
37 1 0,01 0 0,00

* Медыянная колькасць копій у межах віду.

Топ-10 найдаўжэйшых генаў 16S рРНК
АрганізмДаўжыня, п.а.SeqID *Код доступу
геномнай зборкі
Бактэрыі
Thermus thermophilus AA2-2 2 438 GCF_019974355.1:NZ_AP024929.1:249100-251537:minus GCF_019974355.1
Ca. Annandia pinicola Ad13-065 1 887 GCF_020541245.1:NZ_CP045876.1:290071-291957:minus GCF_020541245.1
Thermoanaerobacter ethanolicus JW 200 1 812 GCF_003722315.1:NZ_CP033580.1:456062-457873:plus GCF_003722315.1
Nitrosophilus labii HRV44 1 806 GCF_014466985.1:NZ_AP022826.1:1258017-1259822:minus
GCF_014466985.1:NZ_AP022826.1:1532588-1534393:minus
GCF_014466985.1:NZ_AP022826.1:1939914-1941719:minus
GCF_014466985.1
Sporomusa rhizae DSM 16652 1 802 GCF_041428845.1:NZ_CP156925.1:3123180-3124981:minus GCF_041428845.1
Gelria sp. Kuro-4 1 788 GCF_019668485.1:NZ_AP024619.1:2016182-2017969:minus GCF_019668485.1
Helicobacter mastomyrinus Hm-17 1 785 GCF_039555295.1:NZ_CP145316.1:765140-766924:minus GCF_039555295.1
Thermoanaerobacter brockii Ako-1 1 781 GCF_000175295.2:NC_014964.1:2252888-2254668:minus GCF_000175295.2
Thermoanaerobacter pseudethanolicus
ATCC 33223
1 781 GCF_000019085.1:NC_010321.1:2265744-2267524:minus GCF_000019085.1
Thermoanaerobacter sp. RKWS2 1 754 GCF_026240795.1:NZ_CP110888.1:94012-95765:plus GCF_026240795.1
Археі
Pyrobaculum ferrireducens 1860 3 604 GCF_000234805.1:NC_016645.1:127214-130817:plus GCF_000234805.1
Pyrobaculum aerophilum IM2 2 213 GCF_000007225.1:NC_003364.1:1089640-1091852:plus GCF_000007225.1
Pyrobaculum arsenaticum DSM 13514 2 212 GCF_000016385.1:NC_009376.1:623323-625534:minus GCF_000016385.1
Aeropyrum pernix K1 2 202 GCF_000011125.1:NC_000854.2:1218712-1220913:minus GCF_000011125.1
Pyrobaculum neutrophilum V24Sta 2 197 GCF_000019805.1:NC_010525.1:690419-692615:plus GCF_000019805.1
Ca. Mancarchaeum acidiphilum Mia14 2 008 GCF_002214165.1:NZ_CP019964.1:751297-753304:minus GCF_002214165.1
Ca. Micrarchaeum sp. A_DKE 2 003 GCF_016806735.1:NZ_CP060530.1:203642-205644:minus GCF_016806735.1
Caldivirga maquilingensis IC-167 1 679 GCF_000018305.1:NC_009954.1:129150-130828:minus GCF_000018305.1
Aeropyrum camini SY1 1 650 GCF_000591035.1:NC_022521.1:1165168-1166817:minus GCF_000591035.1
Pyrolobus fumarii 1A 1 576 GCF_000223395.1:NC_015931.1:84671-86246:minus GCF_000223395.1

* SeqID — гэта ідэнтыфікатар паслядоўнасці RiboGrove.

Топ-10 найкарацейшых генаў 16S рРНК
АрганізмДаўжыня, п.а.SeqID *Код доступу
геномнай зборкі
Бактэрыі
Anabaena sp. YBS01 1 401 GCF_009498015.1:NZ_CP034058.1:6920299-6921699:minus GCF_009498015.1
Clostridioides difficile TW11 1 426 GCF_009362915.1:NZ_CP045224.1:4068440-4069865:minus GCF_009362915.1
Staphylococcus warneri TWSL_1 1 440 GCF_032147125.1:NZ_CP135051.1:2625669-2627108:plus GCF_032147125.1
Roseicitreum antarcticum ZS2-28 1 447 GCF_014681765.1:NZ_CP061498.1:3436150-3437596:plus GCF_014681765.1
Hirschia baltica ATCC 49814 1 448 GCF_000023785.1:NC_012982.1:2336679-2338126:minus GCF_000023785.1
Sagittula sp. P11 1 449 GCF_002814095.1:NZ_CP021913.1:3597920-3599368:plus
GCF_002814095.1:NZ_CP021913.1:2386837-2388285:plus
GCF_002814095.1
Mameliella sp. 1 449 GCF_965212485.1:NZ_OZ243118.1:780420-781868:minus
GCF_965212485.1:NZ_OZ243118.1:3042962-3044410:plus
GCF_965212485.1:NZ_OZ243118.1:4611080-4612528:minus
GCF_965212485.1
Mameliella sp. 1 449 GCF_965249415.1:NZ_OZ252233.1:702863-704311:plus
GCF_965249415.1:NZ_OZ252233.1:1895495-1896943:plus
GCF_965249415.1:NZ_OZ252233.1:3463560-3465008:minus
GCF_965249415.1
Sagittula sp. MA-2 1 449 GCF_030126985.1:NZ_CP126145.1:439-1887:plus
GCF_030126985.1:NZ_CP126145.1:2907211-2908659:minus
GCF_030126985.1
Sagittula stellata E-37 1 449 GCF_039724765.1:NZ_CP155729.1:664616-666064:plus
GCF_039724765.1:NZ_CP155729.1:1804792-1806240:plus
GCF_039724765.1
Mameliella alba KU6B 1 449 GCF_011405015.1:NZ_AP022337.1:1420943-1422391:plus
GCF_011405015.1:NZ_AP022337.1:3191212-3192660:minus
GCF_011405015.1:NZ_AP022337.1:267140-268588:plus
GCF_011405015.1
Археі
Ignicoccus hospitalis KIN4/I 1 439 GCF_000017945.1:NC_009776.1:728362-729800:plus GCF_000017945.1
Methanocaldococcus lauensis SG7 1 457 GCF_902827225.1:NZ_LR792632.1:542755-544211:plus GCF_902827225.1
Halorubrum sp. BOL3-1 1 463 GCF_004114375.1:NZ_CP034692.1:397753-399215:minus GCF_004114375.1
Salinirubellus litoreus SYNS196 1 466 GCF_037335815.1:NZ_CP147841.1:597195-598660:minus GCF_037335815.1
Natronomonas marina ZY43 1 466 GCF_024298905.1:NZ_CP101154.1:18680-20145:plus GCF_024298905.1
Natronomonas gomsonensis KCTC 4088 1 466 GCF_024300825.1:NZ_CP101323.1:2500564-2502029:plus GCF_024300825.1
Ca. Methanomethylophilus alvi Mx1201 1 466 GCF_000300255.2:NC_020913.1:283607-285072:plus GCF_000300255.2
Salinirubellus salinus ZS-35-S2 1 466 GCF_025231485.1:NZ_CP104003.1:3070232-3071697:plus GCF_025231485.1
Methanomethylophilus alvi
MGYG-HGUT-02456
1 466 GCF_902387285.1:NZ_LR699000.1:283607-285072:plus GCF_902387285.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
1 466 GCF_018502485.1:NZ_CP075546.1:133354-134819:plus
GCF_018502485.1:NZ_CP075546.1:825954-827419:plus
GCF_018502485.1:NZ_CP075546.1:872641-874106:plus
GCF_018502485.1:NZ_CP075546.1:1727419-1728884:plus
GCF_018502485.1
Methanospirillum stamsii Pt1 1 466 GCF_046244385.1:NZ_CP176366.1:1311724-1313189:plus
GCF_046244385.1:NZ_CP176366.1:2035802-2037267:plus
GCF_046244385.1:NZ_CP176366.1:2042927-2044392:plus
GCF_046244385.1:NZ_CP176366.1:3625347-3626812:minus
GCF_046244385.1
Methanomethylophilus alvi Mx-05 1 466 GCF_003711245.1:NZ_CP017686.1:283608-285073:plus GCF_003711245.1
Natronomonas halophila C90 1 466 GCF_013391085.1:NZ_CP058334.1:1530622-1532087:minus GCF_013391085.1
Methanospirillum purgamenti GP1 1 466 GCF_019263745.1:NZ_CP077107.1:4649-6114:plus
GCF_019263745.1:NZ_CP077107.1:1359562-1361027:minus
GCF_019263745.1:NZ_CP077107.1:1365502-1366967:minus
GCF_019263745.1:NZ_CP077107.1:1986020-1987485:minus
GCF_019263745.1
Methanospirillum hungatei JF-1 1 466 GCF_000013445.1:NC_007796.1:39814-41279:plus
GCF_000013445.1:NC_007796.1:1301079-1302544:minus
GCF_000013445.1:NC_007796.1:3501525-3502990:minus
GCF_000013445.1:NC_007796.1:3507609-3509074:minus
GCF_000013445.1

* SeqID — гэта ідэнтыфікатар паслядоўнасці RiboGrove.

Топ-10 геномаў з найбольшай колькасцю копій генаў 16S рРНК
АрганізмКолькасць копійКод доступу
геномнай зборкі
Бактэрыі
Tumebacillus avium AR23208 37 GCF_002162355.1
Tumebacillus algifaecis THMBR28 27 GCF_002243515.1
Photobacterium piscicola WVL24019 25 GCF_046058925.1
Photobacterium phosphoreum MIP2473 24 GCF_949787665.1
Mesobacillus maritimus ADH-29 22 GCF_044803185.1
Photobacterium damselae Pdd1411 21 GCF_030168855.1
Photobacterium damselae Phdp Wu-1 21 GCF_003130755.1
Photobacterium leiognathi Sr3.10 21 GCF_048537505.1
Aneurinibacillus sp. Ricciae_BoGa-3 21 GCF_028421645.1
Photobacterium leiognathi Sr3.21 21 GCF_048537525.1
Peribacillus asahii KF4 21 GCF_023823975.1
Археі
Natronorubrum aibiense 7-3 5 GCF_009392895.1
Methanococcoides orientis LMO-1 5 GCF_021184045.1
Natrinema sp. SYSU A 869 5 GCF_019879105.1
Methanolobus sp. ZRKC3 5 GCF_045291275.1
Natronorubrum bangense JCM 10635 5 GCF_004799645.1
Methanoplanus endosymbiosus DSM 3599 5 GCF_024662215.1
Halomicrobium urmianum IBRC-M: 10911 4 GCF_020217425.1
Halomicrobium salinisoli LT50 4 GCF_020405185.1
Halomicrobium salinisoli TH30 4 GCF_020405245.1
Methanospirillum purgamenti J.3.6.1-F.2.7.3 4 GCF_018502485.1
Haloarcula sinaiiensis ATCC 33800 4 GCF_018200015.1
Haloterrigena salifodinae BOL5-1 4 GCF_016906025.1
Methanolobus sediminis FTZ6 4 GCF_031312595.1
Methanogenium sp. S4BF 4 GCF_029633965.1
Methanospirillum hungatei JF-1 4 GCF_000013445.1
Natronococcus occultus SP4 4 GCF_000328685.1
Methanosphaera stadtmanae
MGYG-HGUT-02164
4 GCF_902384015.1
Methanolobus sp. WCC4 4 GCF_038022665.1
Methanochimaera problematica FWC-SCC4 4 GCF_032878975.1
Methanolobus mangrovi FTZ2 4 GCF_031312535.1
Methanococcus vannielii SB 4 GCF_000017165.1
Methanospirillum lacunae Ki8-1 4 GCF_046195335.1
Methanosphaera stadtmanae DSM 3091 4 GCF_000012545.1
Methanospirillum purgamenti GP1 4 GCF_019263745.1
Natrinema thermotolerans A29 4 GCF_031165565.1
Methanospirillum stamsii Pt1 4 GCF_046244385.1
Methanogenium organophilum DSM 3596 4 GCF_026684035.1
Топ-10 геномаў з найбольшай зменлівасцю генаў 16S рРНК
АрганізмСума энтрапіі *, бітыСярэдняя энтрапія *, бітыКолькасць зменлівых пазіцыйКолькасць копій генаўКод доступу
геномнай зборкі
Бактэрыі
Clostridium perfringens A SNU21005 780,95 0,41 1 171 9 GCF_047150065.1
Escherichia coli P276M 433,81 0,26 569 6 GCF_009762385.1
Listeria monocytogenes
10-092876-1155 LM6
357,10 0,20 370 3 GCF_001999045.1
Klebsiella pneumoniae GZ-1 304,27 0,18 464 8 GCF_014854815.1
Streptococcus infantis SO 291,50 0,18 308 3 GCF_021497965.1
Synechococcus sp. NB0720_010 243,35 0,16 265 3 GCF_023078835.1
Streptomyces griseorubiginosus
NBC_00586
231,55 0,15 342 6 GCF_036345135.1
Caminibacter mediatlanticus TB-2 228,78 0,15 282 4 GCF_005843985.1
Xanthomonas oryzae YNCX 227,74 0,15 248 3 GCF_024499285.1
Sporomusa termitida DSM 4440 226,25 0,13 247 12 GCF_007641255.1
Археі
Halomicrobium sp. ZPS1 ** 137,00 0,09 137 2 GCF_009217585.1
Halomicrobium urmianum
IBRC-M: 10911
131,55 0,09 146 4 GCF_020217425.1
Halapricum desulfuricans HSR12-2 128,00 0,09 128 2 GCF_017094525.1
Halomicrobium salinisoli TH30 127,74 0,09 145 4 GCF_020405245.1
Halapricum desulfuricans HSR-Bgl 127,00 0,09 127 2 GCF_017094445.1
Halomicrobium mukohataei JP60 125,81 0,09 137 3 GCF_004803735.1
Halomicrobium sp. HM KBTZ05 124,38 0,08 134 3 GCF_041530035.1
Halomicrobium salinisoli LT50 123,31 0,08 140 4 GCF_020405185.1
Halapricum desulfuricans HSR-Est 111,00 0,08 111 2 GCF_017094465.1
Halapricum desulfuricans HSR12-1 109,00 0,07 109 2 GCF_017094505.1

* Энтрапія ў гэтым выпадку — гэта энтрапія Шэнана, якую вылічалі для кожнай калонкі множнага выраўноўвання поўнапамерных паслядоўнасцяў генаў 16S рРНК кожнага геному. Пасля гэтага падсумоўвалі энтрапію (калонка «Сума энтрапіі») і усярэднівалі (калонка «Сярэдняя энтрапія»).

** Halomicrobium sp. ZPS1 — паказальны выпадак. У гэтым геноме два гены 16S рРНК, таму энтрапія роўная колькасці нуклеатыдаў, якія не супадаюць у іхніх паслядоўнасцях. Вылічыўшы адсотак ідэнтычнасці (скарочана АІ) паслядоўнасцяў гэтых двух генаў, атрымаем 90,70%! Нагадаем, што за парог АІ паслядоўнасцяў генаў 16S рРНК для аднясення арганізмаў да адрозных родаў звычайна бярэцца (зрэшты, адвольна) значэнне 95%.

Спектр дзеяння* пар праймераў да розных V-регіёнаў бактэрыяльных генаў 16S рРНК

* Спектр дзеяння пары праймераў — гэта адсотак геномаў, якія маюць прынамсі адзін ген 16S рРНК, які магчыма ампліфікаваць з дапамогай ПЛР і з выкарыстаннем гэтай пары праймераў. Падрабязнасці апісаныя ў нашым артыкуле пра RiboGrove.

У табліцах нижэй можна знайсці спектры дзеяння пар праймераў, якія звычайна выкарыстозваюцца для ампліфікацыі бактэрыяльных і архейных генаў 16S рРНК (т.б.м., „бактэрыяльныя“ і „архейныя“ праймеры).

Ёсць больш падрабязная табліца — у файле primer_pair_genomic_coverage.tsv у метададзеных metadata. Тая табліца змяшчае спектр дзеяння не толькі для тыпаў (phyla), але і для кожнага класу, парадку, сямейства, роду ды віду. Апроч таго, тая табліца змяшчае спектр дзеяння для дадатковых пар праймераў, а менавіта 1115F-1492R, 349f-519r, 1106F-Ar1378R, 1106F-SSU1492Rngs, SSU1ArF-SSU468R, SSU1ArF-SSU520R. У табліцах ніжэй няма гэтых пар, каб табліцы не былі занадта вялікімі.

Бактэрыяльныя гены, „бактэрыяльныя“ праймеры
Тып Колькасць
геномаў
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Pseudomonadota 26 698 99,70 99,50 99,68 99,93 84,03 99,89 84,10 88,96 88,65 93,47 92,52 96,43
Bacillota 11 206 99,83 99,75 99,79 99,93 95,23 99,97 95,10 99,46 98,08 97,50 98,63 99,37
Actinomycetota 4 976 99,90 99,14 99,72 94,82 67,02 94,61 66,78 96,91 99,76 99,84 99,84 96,93
Bacteroidota 1 681 96,43 96,07 96,55 99,94 64,78 99,41 64,37 37,89 38,01 92,44 91,97 95,48
Campylobacterota 1 314 100,00 100,00 100,00 100,00 100,00 99,92 99,92 99,92 99,47 99,47 99,70 99,54
Mycoplasmatota 751 90,28 83,89 72,30 98,93 91,21 99,07 91,61 74,43 48,34 42,74 76,43 0,67
Spirochaetota 398 54,27 54,77 54,77 93,22 99,75 93,22 99,75 99,75 75,38 75,38 90,20 43,47
Cyanobacteriota 370 99,73 99,73 99,73 100,00 3,78 100,00 3,78 100,00 1,08 1,08 100,00 99,73
Chlamydiota 234 0,00 0,00 0,00 100,00 100,00 0,00 0,00 0,00 100,00 100,00 100,00 94,44
Fusobacteriota 229 100,00 98,69 99,56 99,56 99,56 99,56 99,56 99,56 99,56 99,56 100,00 0,00
Thermodesulfobacteriota 147 100,00 99,32 100,00 100,00 41,50 100,00 41,50 100,00 95,24 91,16 95,92 99,32
Verrucomicrobiota 140 99,29 0,00 99,29 100,00 12,86 100,00 12,86 100,00 1,43 1,43 98,57 98,57
Deinococcota 97 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 52,58 100,00
Planctomycetota 72 100,00 25,00 100,00 100,00 62,50 100,00 62,50 0,00 0,00 0,00 2,78 0,00
Myxococcota 65 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chloroflexota 52 100,00 92,31 100,00 42,31 0,00 94,23 0,00 90,38 11,54 11,54 94,23 26,92
Bdellovibrionota 44 100,00 100,00 100,00 100,00 77,27 100,00 77,27 100,00 100,00 100,00 100,00 100,00
Thermotogota 44 100,00 97,73 100,00 100,00 9,09 100,00 9,09 100,00 0,00 0,00 59,09 97,73
Acidobacteriota 43 97,67 97,67 97,67 100,00 100,00 100,00 100,00 100,00 72,09 58,14 86,05 100,00
Aquificota 18 100,00 16,67 100,00 100,00 16,67 100,00 16,67 100,00 0,00 0,00 0,00 16,67
Rhodothermota 16 43,75 43,75 43,75 100,00 100,00 100,00 100,00 81,25 81,25 100,00 100,00 100,00
Chlorobiota 15 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 100,00 93,33 86,67 6,67
Nitrospirota 15 100,00 100,00 100,00 100,00 73,33 100,00 73,33 100,00 100,00 73,33 73,33 100,00
Ca. Saccharibacteria 12 100,00 100,00 100,00 100,00 8,33 8,33 8,33 8,33 0,00 0,00 100,00 100,00
Gemmatimonadota 12 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Synergistota 10 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 100,00
Deferribacterota 6 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Elusimicrobiota 5 100,00 60,00 100,00 100,00 0,00 100,00 0,00 100,00 60,00 60,00 100,00 100,00
Atribacterota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ignavibacteriota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Armatimonadota 2 100,00 50,00 100,00 50,00 50,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermodesulfobiota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00
Thermomicrobiota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 50,00 50,00
Balneolota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chrysiogenota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Dictyoglomota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 0,00
Fibrobacterota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Kiritimatiellota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Fervidibacterota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Cloacimonadota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00
Ca. Absconditibacteriota 1 100,00 0,00 100,00 100,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Caldisericota 1 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 100,00
Ca. Omnitrophota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Ca. Paceibacterota 1 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Vulcanimicrobiota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Thermosulfidibacterota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Nitrospinota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Fidelibacterota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Coprothermobacterota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 100,00 0,00

Архейныя гены, „архейныя“ праймеры
Тып Колькасць
геномаў
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Methanobacteriota 452 89,16 86,95 89,38 89,16 51,55 50,66 100,00 99,34 100,00 100,00 99,56 89,60
Thermoproteota 107 96,26 98,13 100,00 100,00 72,90 98,13 100,00 69,16 93,46 100,00 99,07 98,13
Nitrososphaerota 30 96,67 96,67 96,67 96,67 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermoplasmatota 19 84,21 68,42 100,00 100,00 42,11 42,11 100,00 63,16 84,21 100,00 100,00 52,63
Ca. Nanohalarchaeota 4 0,00 25,00 0,00 100,00 0,00 0,00 100,00 50,00 100,00 100,00 100,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Nanobdellota 1 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Promethearchaeota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00 100,00

Бактэрыяльныя гены, „архейныя“ праймеры
Бактэрыяльныя гены, „архейныя“ праймеры
Тып Колькасць
геномаў
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Pseudomonadota 26 698 1,22 0,03 0,55 0,58 0,00 0,00 0,09 0,00 0,00 99,89 28,03 0,00
Bacillota 11 206 2,54 0,05 0,13 1,45 0,02 0,00 0,06 0,01 0,00 99,97 98,42 0,00
Actinomycetota 4 976 0,94 0,24 0,74 1,21 0,00 0,00 0,04 0,00 0,00 94,61 87,64 0,00
Bacteroidota 1 681 1,90 0,00 1,84 1,96 0,00 0,00 0,18 0,00 0,00 99,41 99,29 0,00
Campylobacterota 1 314 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,92 0,15 0,00
Mycoplasmatota 751 2,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,07 78,16 0,00
Spirochaetota 398 0,50 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 93,22 92,96 0,00
Cyanobacteriota 370 2,97 0,00 0,27 0,27 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlamydiota 234 1,71 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Fusobacteriota 229 0,44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,56 99,56 0,00
Thermodesulfobacteriota 147 6,12 0,68 1,36 1,36 0,00 0,00 0,00 0,00 0,00 100,00 72,79 0,00
Verrucomicrobiota 140 5,71 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 10,00 0,71
Deinococcota 97 39,18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 96,91 0,00
Planctomycetota 72 1,39 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 81,94 0,00
Myxococcota 65 13,85 7,69 6,15 6,15 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chloroflexota 52 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 94,23 100,00 0,00
Bdellovibrionota 44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,55 0,00 100,00 27,27 0,00
Thermotogota 44 43,18 0,00 31,82 31,82 0,00 0,00 2,27 0,00 0,00 100,00 100,00 0,00
Acidobacteriota 43 11,63 0,00 0,00 6,98 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Aquificota 18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 83,33 44,44
Rhodothermota 16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlorobiota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nitrospirota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Saccharibacteria 12 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 8,33 8,33 0,00
Gemmatimonadota 12 0,00 8,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Synergistota 10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deferribacterota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Elusimicrobiota 5 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Atribacterota 3 33,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ignavibacteriota 3 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Armatimonadota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 50,00 0,00
Thermodesulfobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermomicrobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Balneolota 2 50,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chrysiogenota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Dictyoglomota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fibrobacterota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Kiritimatiellota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Fervidibacterota 1 100,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Cloacimonadota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Absconditibacteriota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Caldisericota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Omnitrophota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Paceibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Vulcanimicrobiota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermosulfidibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Nitrospinota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fidelibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Coprothermobacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00

Архейныя гены, „бактэрыяльныя“ праймеры
Архейныя гены, „бактэрыяльныя“ праймеры
Тып Колькасць
геномаў
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Methanobacteriota 452 0,00 0,00 0,00 0,00 0,00 100,00 0,00 82,08 0,00 0,00 0,00 0,00
Thermoproteota 107 0,93 0,00 0,00 0,00 0,00 100,00 0,00 88,79 0,00 0,00 0,00 0,00
Nitrososphaerota 30 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermoplasmatota 19 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Nanohalarchaeota 4 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nanobdellota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Promethearchaeota 1 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00

Праймеры, спектр дзеяння якіх ацэньваўся
Праймеры, спектр дзеяння якіх ацэньваўся
Назва праймераПаслядоўнасцьСпасылка
27FAGAGTTTGATYMTGGCTCAGFrank et al., 2008
338RGCTGCCTCCCGTAGGAGTSuzuki et al., 1996
341F *CCTACGGGNGGCWGCAGKlindworth et al., 2013
515FGTGCCAGCMGCCGCGGTAATurner et al., 1999
534RATTACCGCGGCTGCTGGWalker et al., 2015
784FAGGATTAGATACCCTGGTAAndersson et al., 2008
785R *GACTACHVGGGTATCTAATCCKlindworth et al., 2013
806RGGACTACHVGGGTWTCTAATCaporaso et al., 2010
939FGAATTGACGGGGGCCCGCACAAGLebuhn et al., 2014
944RGAATTAAACCACATGCTCFuks et al., 2018
1100RAGGGTTGCGCTCGTTGTurner et al., 1999
1193RACGTCATCCCCACCTTCCBodenhausen et al, 2013
1378RCGGTGTGTACAAGGCCCGGGAACGLebuhn et al., 2014
1492RTACCTTGTTACGACTTFrank et al., 2008
SSU1ArFTCCGGTTGATCCYGCBRGBahram et al., 2018
SSU520RGCTACGRRYGYTTTARRCBahram et al., 2018
340fCCCTAYGGGGYGCASCAGGantner et al., 2011
806rBGGACTACNVGGGTWTCTAATAppril et al., 2015
349fGYGCASCAGKCGMGAAWTakai and Horikoshi, 2000
519rTTACCGCGGCKGCTGKlindworth et al., 2013
515fBGTGYCAGCMGCCGCGGTAAParada et al., 2015
Parch519fCAGCCGCCGCGGTAAOvreås et al., 1997
Arch915rGTGCTCCCCCGCCAATTCCTRaskin et al., 1994
1106FTTWAGTCAGGCAACGAGCWatanabe et al., 2007
Ar1378R **TGTGCAAGGAGCAGGGACWatanabe et al., 2007
A751FCCGACGGTGAGRGRYGAABaker et al., 2003
SSU1492RngsCGGNTACCTTGTKACGACBahram et al., 2018
SSU280ArRTCAGWNYCCNWCTCSRGGBahram et al., 2018
SSU470RDCNGCNGGTDTTACCGCGBahram et al., 2018
SSU468RGNDCNGCNGGTDTTACCGBahram et al., 2018
A519RGGTDTTACCGCGGCKGCTGWang and Qian, 2009
SSU666ArRHGCYTTCGCCACHGGTRGBahram et al., 2018
SSU1000ArRGGCCATGCAMYWCCTCTCBahram et al., 2018
UA1204RTTMGGGGCATRCIKACCTBaker et al., 2003

* Праймеры 341F і 785R выкарыстоўваюцца ў пратаколе падрыхтоўкі бібліятэкі для секвенавання ампліконаў регіёнаў V3–V4 генаў 16S рРНК на апараце Illumina MiSeq.

** Зыходная назва праймера Ar1378R — 1378R. Мы змянілі назву, каб пазбегнуць блытаніны.


Пошук дадзеных у RiboGrove

RiboGrove — вельмі мінімалістычная база дадзеных: яна складаецца з двух файлаў fasta з дадатковымі метададзенымі. Таму пашыраных сродкаў пошуку няма. Мы прызнае́м гэтую праблему і пакідаем ніжэй некалькі парад наконт пошуку дадзеных у RiboGrove.

Фармат загалоўка

Запісы паслядоўнасцяў RiboGrove у фармаце fasta маюць наступны фармат загалоўка:

>GCF_000978375.1:NZ_CP009686.1:8908-10459:plus ;d__Bacteria;p__Firmicutes;c__Bacilli;o__Bacillales;f__Bacillaceae;g__Bacillus;s__cereus; category:1

Асноўныя часткі загалоўка адасобленыя адна ад адной прабеламі. У загалоўку павінна быць тры такія часткі:

  1. Ідэнтыфікатар паслядоўнасці (SeqID): GCF_000978375.1:NZ_CP009686.1:8908-10459:plus. SeqID, у сваю чаргу, складаецца з чатырох частак, адасобленых двукропʼямі (:):
    1. Код доступу зборкі геному, з якога паходзіць паслядоўнасць гена: GCF_000978375.1.
    2. Код доступу паслядоўнасці RefSeq, з якой паходзіць паслядоўнасць гена: NZ_CP009686.1.
    3. Каардынаты гена у гэтай геномнай паслядоўнасці: 8908-10459 (нумерацыя ідзе з 1-кі, інтэрвалы уключаюць левыя і правыя межы).
    4. Ланцуг геномнай паслядоўнасці, на якой ген знаходзіцца: plus (альбо minus).
  2. Радок таксаноміі, а менавіта назвы дамену (Bacteria), тыпу (Firmicutes), класу (Bacilli), парадку (Bacillales), сямейства (Bacillaceae), роду (Bacillus), а таксама відавы эпітэт (cereus).
    Перад кожнай назвай пішацца прэфікс, які пазначае ранг: d__ для дамену, p__ для тыпу, c__ для класу, o__ для парадку, f__ для сямейства, g__ для роду і s__ для відавага эпітэту. У прэфіксах пасля літары пішуцца два знакі ніжняга падкрэслівання.
    Таксанамічныя назвы адасобленыя і аточаныя кропкамі з коскай (;).
  3. Катэгорыя геному, з якога паслядоўнасць гена паходзіць: (category:1).

Адбор паслядоўнасцяў

Адбіраць тыя ці іншыя паслядоўнасці з файлаў fasta можна з дапамогай праграмы Seqkit (ГітХаб-рэпазіторый, дакументацыя). Гэта бясплатная, кросплатформавая, шматфункцыянальная і даволі шустрая праграма, якая можа апрацоўваць як „гзіпʼнутыя“, так і простыя нясціснутыя файлы fasta. Для адбору паслядоўнасцяў зручна выкарыстоўваць падпраграмы seqkit grep і seqkit seq .

Адбор паслядоўнасцяў паводле загалоўкаў

Няхай мы робім выбарку з файла ribogrove_24.230_sequences.fasta.gz. Карыснымі могуць быць наступныя прыклады каманд карыстання праграмай seqkit grep:

Прыклад 1. Выбраць адну паслядоўнасць паводле SeqID.

seqkit grep -p "GCF_000978375.1:NZ_CP009686.1:8908-10459:plus" ribogrove_24.230_sequences.fasta.gz

Опцыя -p задае радок, які праграма будзе шукаць у fasta-загалоўках (на самой справе, толькі ў той частцы загалоўкаў, дзе запісаны SeqID: да першага прабела).

Прыклад 2. Выбраць усе паслядоўнасці генаў адной геномнай паслядоўнасці RefSeq паводле кода доступу NZ_CP009686.1.

seqkit grep -nrp ":NZ_CP009686.1:" ribogrove_24.230_sequences.fasta.gz

Тут спатрэбяцца яшчэ дзве опцыі: -n і -r. Першая кажа праграме шукаць падрадкі́ у загалоўках цалкам, а не толькі ў ідэнтыфікатарах (SeqID). Другая опцыя кажа праграме, што ёй трэба шукаць не толькі тыя загалоўкі, якія цалкам супадаюць з шуканым радком, а таксама і тыя, якія змяшчаюць шуканы радок як сваю частку.

Каб забяспечыць спецыфічнасць пошуку, атачайце код доступу двукропʼямі (:).

Прыклад 3. Выбраць усе паслядоўнасці генаў аднаго геному (код доступу геномнай зборкі GCF_019357495.1).

seqkit grep -nrp "GCF_019357495.1:" ribogrove_24.230_sequences.fasta.gz

Каб забяспечыць спецыфічнасць пошуку, пішыце двукропʼе (:) пасля коду доступу зборкі.

Прыклад 4. Выбраць усе паслядоўнасці актынабактэрый.

seqkit grep -nrp ";p__Actinobacteria;" ribogrove_24.230_sequences.fasta.gz

Каб забяспечыць спецыфічнасць пошуку, атачайце таксаномію кропкамі з коскай (;).

Прыклад 5. Выбраць усе паслядоўнасці з геномаў катэгорыі 1.

seqkit grep -nrp "category:1" ribogrove_24.230_sequences.fasta.gz

Прыклад 6. Выбраць усе паслядоўнасці апроч тых, якія належаць да тыпу Firmicutes.

seqkit grep -nvrp ";p__Firmicutes;" ribogrove_24.230_sequences.fasta.gz

Звярніце ўвагу на опцыю -v у шэгару опцый -nvrp. Гэтая опцыя інвертуе паводзіны праграмы, і цяпер яна знойдзе ўсе паслядоўнасці, у загалоўках якіх няма радку «;p__Firmicutes;».

Адбор паслядоўнасцяў паводле даўжыні

Адбіраць паслядоўнасці паводле даўжыні можна з дапамогай праграмы seqkit seq.

Прыклад 1. Выбраць усе паслядоўнасці даўжэй за 1600 п.а.

seqkit seq -m 1601 ribogrove_24.230_sequences.fasta.gz

Опцыя -m задае мінімальную даўжыню паслядоўнасцяў, якія праграма падасць на выхад.

Прыклад 2. Выбраць усе паслядоўнасці карацей за 1500 п.а.

seqkit seq -M 1499 ribogrove_24.230_sequences.fasta.gz

Опцыя -M задае максімальную даўжыню паслядоўнасці, якія праграма падасць на выхад.

Прыклад 3. Выбраць усе паслядоўнасці, даўжыня якіх знаходзіцца ў прамежку [1500, 1600] п.а.

seqkit seq -m 1500 -M 1600 ribogrove_24.230_sequences.fasta.gz

Адбор дадзеных загалоўкаў

Часам бывае карысна атрымаць толькі дадзеныя загалоўкаў з файла fasta. Гэта можна зрабіць з дапамогай праграмы seqkit seq.

Прыклад 1. Выбраць проста ўсе загалоўкі.

seqkit seq -n ribogrove_24.230_sequences.fasta.gz

Опцыя -n кажа праграме, каб тая падавала на выхад толькі загалоўкі.

Прыклад 2. Выбраць усе ідэнтыфікатары паслядоўнасцяў (то бок часткі загалоўкаў да першага прабела).

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz

Опцыя -i кажа праграме, каб тая падавала на выхад толькі ідэнтыфікатары.

Прыклад 3. Выбраць усе коды доступу геномных паслядоўнасцяў з БД RefSeq.

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz | cut -f2 -d':' | sort | uniq

Такая команда спрацуе, толькі калі на кампʼютары ўсталяваныя ўтыліты cut, sort, і uniq (на Linux і Mac OS гэтыя праграмы звычайна ўсталяваныя разам з аперацыйная сістэмай).

Прыклад 4. Выбраць усе коды доступу геномных зборак.

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz | cut -f1 -d':' | sort | uniq

Такая команда спрацуе, толькі калі на кампʼютары ўсталяваныя ўтыліты cut, sort і uniq (на Linux і Mac OS гэтыя праграмы звычайна ўсталяваныя разам з аперацыйная сістэмай).

Прыклад 5. Выбраць усе назвы тыпаў арганізмаў.

seqkit seq -n ribogrove_24.230_sequences.fasta.gz | grep -Eo ';p__[^;]+' | sed -E 's/;|p__//g' | sort | uniq

Такая команда спрацуе, толькі калі на кампʼютары ўсталяваныя ўтыліты grep, sed, sort і uniq (на Linux і Mac OS гэтыя праграмы звычайна ўсталяваныя разам з аперацыйная сістэмай).


Кантакты

Калі вы маеце пытанне пра RiboGrove, калі ласка, звяртайцеся да Максіма Сікаленкі на эл. адрас sikolenko[ at ]mbio.bas-net.by або maximdeynonih[ at ]gmail.com.


Цытаванне RiboGrove

Калі база дадзеных RiboGrove прыдалася вам у вашых даследаваннях, спасылайцеся, калі ласка, на наступную публікацыю:

Maxim A. Sikolenko, Leonid N. Valentovich. “RiboGrove: a database of full-length prokaryotic 16S rRNA genes derived from completely assembled genomes” // Research in Microbiology, Volume 173, Issue 4, May 2022, 103936.
(ЛІА: 10.1016/j.resmic.2022.103936).


Пытанні, якія ў людзей узнікаюць пра RiboGrove

1. Як зрабіць файл з таксаноміяй, з якім маглі бы працаваць праграмы з пакета QIIME2?

Для гэтага можаце скарыстацца скрыптом make_qiime_taxonomy_file.py: ён трансфармуе файл metadata/taxonomy.tsv у файл, з якім змогуць працаваць праграмы QIIME2. Даведку-кіраўніцтва для гэтага скрыпта можаце знайсці ў адпаведным файле README.


2. Як захаваць у файл дадзеныя, адабраныя з дапамогай Seqkit?

У адпаведнай дыскусіі на форуме ўжо далі некалькі карысных адказаў і парад: https://bioinformatics.stackexchange.com/questions/20915/how-do-i-save-selected-sequences-in-seqkit-to-a-file.


3. Як знайсці патрэбныя запісы у fasta-файле паводле паслядоўнасці з дапамогай Seqkit?

У адпаведнай дыскусіі на форуме ўжо далі некалькі карысных адказаў і парад: https://www.biostars.org/p/9561418.



RiboGrove, 2025-05-08