🌐 English / Беларуская / Українська / Русский

Головний сайт, де ми розміщуємо базу даних RiboGrove, може бути недосяжним поза межами Білорусі через технічні проблеми та біду взагалі. Актуальний реліз RiboGrove можна знайти тут — нехай база даних буде досяжна принаймни такою мірою.


RiboGrove



Зміст


Що таке RiboGrove

RiboGrove — це база даних послідовностей генів 16S рРНК бактерій та архей.

RiboGrove базується на базі даних RefSeq. RiboGrove утримує тільки повнорозмірні послідовності генів 16S рРНК, а самі послідовності походять із повністю зібраних геномів прокаріотів, депонуваних у RefSeq. Тому ми постулюємо високу надійність послідовностей, розміщених у RiboGrove.

RiboGrove і інші бази даних 16S рРНК

Таблиця нижче показує, чим (якісно) RiboGrove відрізнювається від подібних баз даних послідовностей РНК, а саме rrnDB, Silva, RDP та Greengenes. Кажучи коротко, RiboGrove менша за аналоги щодо кількості послідовностей та їх різноманітності, але виграє у надійності послідовностей.

RiboGroverrnDBSilvaRDPGreengenes
Репрезентовані організмиБактерії
Археї
Бактерії
Археї
Бактерії
Археї
Еукаріоти
Бактерії
Археї
Еукаріоти
Бактерії
Археї
Репрезентовані субодиниці рибосомМалаМалаВелика
Мала
Велика
Мала
Мала
Утримує послідовності зібраних геномівТакТакТакТакТак
Утримує послідовності ампліконівНіНіТакТакТак
Утримує неповні послідовності генівНіТакТакТакТак
Відрізняє категориї геномівТакНіКритерій
непридатний
Критерій
непридатний
Критерій
непридатний

Категорії геномів

Всі геноми, з якіх бралися дані для створення RiboGrove, були розділені на три категорії згідно з їхньою надійностю:

  1. Категорія 1 (найбільша надійність). Геноми, які не демонструють прикмет низкоякісної збірки і які були секвенувані за допомогою технології PacBio або комбінації (Oxford Nanopore + Illumina).
  2. Категорія 2. Геноми, які не демонструють прикмет низкоякісної збірки, секвенувані за допомогою будь-якої іншої технології (або ті, для яких технологія секвенування не була задекларувана).
  3. Категорія 3 (найменша надійність). Геноми, які демонструють принаймні одну прикмету низкоякісної збірки.

Прикмети низкоякісної збірки


Програми, за допомогую яких RiboGrove була створена, знаходиться у наступному ҐітХаб-репозиторії: ribogrove-tools.


Завантаження

Актуальний реліз RiboGrove — 26.232 (2025-09-09)

Реліз заснований на базі даних RefSeq 232.

Файл fasta стиснутий за допомогою програми gzip, а файли метаданих стиснуті у zip-архів. Щоби розпакувати їх, користувачі Linux та Mac OS можуть скористатися саме програмамі gzip та zip; оці програми звичайно установлені разом із операційною системою. Користувачам Windows може придатися безкоштовна програма-архіватор 7-Zip.

Архів релізів RiboGrove

Всі попередні релізи можна знайти в архіві релізів RiboGrove. На жаль, він ведеться тільки англійською.

Коментарі до релізу

Починаючи з релизу 26.232, кожна послідовність має відповідну таксономічну назву царства (kingdom: 10.1099/ijsem.0.006242).

Коментарі до всіх релізів RiboGrove можна знайти на сторінці коментарів до релізів.


Статистичний опис

Розмір RiboGrove
БактеріїАрхеїУсього
Кількість послідовностей генів 288 462 1 111 289 573
Кількість унікальних послідовностей 68 300 780 69 080
Кількість видів 13 234 503 13 737
Кількість геномів 52 357 633 52 990
Кількість геномів 1-ої категорії 34 853 262 35 115
Кількість геномів 2-ої категорії 17 226 371 17 597
Кількість геномів 3-ої категорії 278 0 278
Довжина генів 16S рРНК
БактеріїАрхеї
Мінімальна довжина, п.о. 1 401,00 1 439,00
25-й перцентиль, п.о. * 1 517,00 1 471,00
Медіана, п.о. * 1 529,00 1 474,00
75-й перцентиль, п.о. * 1 542,00 1 483,00
Середня довжина, п.о. * 1 527,13 1 491,07
Мода, п.о. * 1 537,00 1 472,00
Максимальна довжина, п.о. 2 438,00 3 604,00
Сереньоквадратичне відхилення, п.о.* 25,12 120,22

* Метрики, позначені зірочкою, розрахувано зі попередньою нормалізацією: вирахуванням медіан довжин генів у межах виду.

Кількість копій генів 16S рРНК
Кількість копій *БактеріїАрхеї
Кількість видівВідсоток видів, %Кількість видівВідсоток видів, %
1 1 644 12,42 249 49,50
2 2 257 17,05 151 30,02
3 1 800 13,60 79 15,71
4 1 697 12,82 18 3,58
5 1 024 7,74 6 1,19
6 1 749 13,22 0 0,00
7 1 197 9,04 0 0,00
8 667 5,04 0 0,00
9 344 2,60 0 0,00
10 323 2,44 0 0,00
11 162 1,22 0 0,00
12 146 1,10 0 0,00
13 59 0,45 0 0,00
14 91 0,69 0 0,00
15 26 0,20 0 0,00
16 12 0,09 0 0,00
17 13 0,10 0 0,00
18 6 0,05 0 0,00
19 3 0,02 0 0,00
20 8 0,06 0 0,00
21 1 0,01 0 0,00
22 1 0,01 0 0,00
24 1 0,01 0 0,00
25 1 0,01 0 0,00
27 1 0,01 0 0,00
37 1 0,01 0 0,00

* Медіанна кількість копій у межах виду.

Топ-10 найдовших генів 16S рРНК
ОрганізмДовжина, п.о.<SeqID *Код доступу
геномної збірки
Бактерії
Thermus thermophilus AA2-2 2 438 GCF_019974355.1:NZ_AP024929.1:249100-251537:minus GCF_019974355.1
Ca. Annandia pinicola Ad13-065 1 887 GCF_020541245.1:NZ_CP045876.1:290071-291957:minus GCF_020541245.1
Thermoanaerobacter ethanolicus
JW 200
1 812 GCF_003722315.1:NZ_CP033580.1:456062-457873:plus GCF_003722315.1
Nitrosophilus labii HRV44 1 806 GCF_014466985.1:NZ_AP022826.1:1258017-1259822:minus
GCF_014466985.1:NZ_AP022826.1:1532588-1534393:minus
GCF_014466985.1:NZ_AP022826.1:1939914-1941719:minus
GCF_014466985.1
Agarivorans sp. QJM3NY_29 1 803 GCF_050870835.2:NZ_CP194036.2:4273146-4274948:minus GCF_050870835.2
Agarivorans sp. QJM3NY_30 1 803 GCF_050870855.2:NZ_CP194038.2:4273147-4274949:minus GCF_050870855.2
Agarivorans sp. Z349TD_7 1 803 GCF_050870845.2:NZ_CP194040.2:4273139-4274941:minus GCF_050870845.2
Sporomusa rhizae DSM 16652 1 802 GCF_041428845.1:NZ_CP156925.1:3123180-3124981:minus GCF_041428845.1
Gelria sp. Kuro-4 1 788 GCF_019668485.1:NZ_AP024619.1:2016182-2017969:minus GCF_019668485.1
Helicobacter mastomyrinus Hm-17 1 785 GCF_039555295.1:NZ_CP145316.1:765140-766924:minus GCF_039555295.1
Археї
ОрганізмДовжина, п.о.<SeqID *Код доступу
геномної збірки
Pyrobaculum ferrireducens 1860 3 604 GCF_000234805.1:NC_016645.1:127214-130817:plus GCF_000234805.1
Pyrobaculum aerophilum IM2 2 213 GCF_000007225.1:NC_003364.1:1089640-1091852:plus GCF_000007225.1
Pyrobaculum arsenaticum DSM 13514 2 212 GCF_000016385.1:NC_009376.1:623323-625534:minus GCF_000016385.1
Aeropyrum pernix K1 2 202 GCF_000011125.1:NC_000854.2:1218712-1220913:minus GCF_000011125.1
Pyrobaculum neutrophilum V24Sta 2 197 GCF_000019805.1:NC_010525.1:690419-692615:plus GCF_000019805.1
Ca. Mancarchaeum
acidiphilum Mia14
2 008 GCF_002214165.1:NZ_CP019964.1:751297-753304:minus GCF_002214165.1
Ca. Micrarchaeum sp. A_DKE 2 003 GCF_016806735.1:NZ_CP060530.1:203642-205644:minus GCF_016806735.1
Caldivirga maquilingensis IC-167 1 679 GCF_000018305.1:NC_009954.1:129150-130828:minus GCF_000018305.1
Aeropyrum camini SY1 1 650 GCF_000591035.1:NC_022521.1:1165168-1166817:minus GCF_000591035.1
Pyrolobus fumarii 1A 1 576 GCF_000223395.1:NC_015931.1:84671-86246:minus GCF_000223395.1

* SeqID — це ідентифікатор послідовності RiboGrove.

Топ-10 найкоротших генів 16S рРНК
ОрганізмДовжина, п.о.SeqID *Код доступу
геномної збірки
Бактерії
Anabaena sp. YBS01 1 401 GCF_009498015.1:NZ_CP034058.1:6920299-6921699:minus GCF_009498015.1
Clostridioides difficile TW11 1 426 GCF_009362915.1:NZ_CP045224.1:4068440-4069865:minus GCF_009362915.1
Roseicitreum
antarcticum ZS2-28
1 447 GCF_014681765.1:NZ_CP061498.1:3436150-3437596:plus GCF_014681765.1
Hirschia baltica ATCC 49814 1 448 GCF_000023785.1:NC_012982.1:2336679-2338126:minus GCF_000023785.1
Sagittula stellata E-37 1 449 GCF_039724765.1:NZ_CP155729.1:664616-666064:plus
GCF_039724765.1:NZ_CP155729.1:1804792-1806240:plus
GCF_039724765.1
Mameliella sp. 1 449 GCF_965277915.1:NZ_OZ255849.1:1028793-1030241:plus
GCF_965277915.1:NZ_OZ255849.1:2596915-2598363:minus
GCF_965277915.1:NZ_OZ255849.1:4859504-4860952:plus
GCF_965277915.1
Sagittula sp. P11 1 449 GCF_002814095.1:NZ_CP021913.1:3597920-3599368:plus
GCF_002814095.1:NZ_CP021913.1:2386837-2388285:plus
GCF_002814095.1
Mameliella sp. 1 449 GCF_965249415.1:NZ_OZ252233.1:702863-704311:plus
GCF_965249415.1:NZ_OZ252233.1:1895495-1896943:plus
GCF_965249415.1:NZ_OZ252233.1:3463560-3465008:minus
GCF_965249415.1
Sagittula sp. MA-2 1 449 GCF_030126985.1:NZ_CP126145.1:439-1887:plus
GCF_030126985.1:NZ_CP126145.1:2907211-2908659:minus
GCF_030126985.1
Mameliella alba KU6B 1 449 GCF_011405015.1:NZ_AP022337.1:1420943-1422391:plus
GCF_011405015.1:NZ_AP022337.1:3191212-3192660:minus
GCF_011405015.1:NZ_AP022337.1:267140-268588:plus
GCF_011405015.1
Позосталі гени такої ж довжижи (у десятку не увійшли випадково)
ОрганізмДовжина, п.о.SeqID *Код доступу
геномної збірки
Mameliella sp. 1 449 GCF_965212485.1:NZ_OZ243118.1:780420-781868:minus
GCF_965212485.1:NZ_OZ243118.1:3042962-3044410:plus
GCF_965212485.1:NZ_OZ243118.1:4611080-4612528:minus
GCF_965212485.1
Археї
ОрганізмДовжина, п.о.SeqID *Код доступу
геномної збірки
Ignicoccus hospitalis KIN4/I 1 439 GCF_000017945.1:NC_009776.1:728362-729800:plus GCF_000017945.1
Methanocaldococcus lauensis SG7 1 457 GCF_902827225.1:NZ_LR792632.1:542755-544211:plus GCF_902827225.1
Halorubrum sp. BOL3-1 1 463 GCF_004114375.1:NZ_CP034692.1:397753-399215:minus GCF_004114375.1
Methanomethylophilus alvi
MGYG-HGUT-02456
1 466 GCF_902387285.1:NZ_LR699000.1:283607-285072:plus GCF_902387285.1
Salinirubellus salinus ZS-35-S2 1 466 GCF_025231485.1:NZ_CP104003.1:3070232-3071697:plus GCF_025231485.1
Methanospirillum purgamenti GP1 1 466 GCF_019263745.1:NZ_CP077107.1:4649-6114:plus
GCF_019263745.1:NZ_CP077107.1:1359562-1361027:minus
GCF_019263745.1:NZ_CP077107.1:1365502-1366967:minus
GCF_019263745.1:NZ_CP077107.1:1986020-1987485:minus
GCF_019263745.1
Methanospirillum stamsii Pt1 1 466 GCF_046244385.1:NZ_CP176366.1:1311724-1313189:plus
GCF_046244385.1:NZ_CP176366.1:2035802-2037267:plus
GCF_046244385.1:NZ_CP176366.1:2042927-2044392:plus
GCF_046244385.1:NZ_CP176366.1:3625347-3626812:minus
GCF_046244385.1
Salinirubellus litoreus SYNS196 1 466 GCF_037335815.1:NZ_CP147841.1:597195-598660:minus GCF_037335815.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
1 466 GCF_018502485.1:NZ_CP075546.1:133354-134819:plus
GCF_018502485.1:NZ_CP075546.1:825954-827419:plus
GCF_018502485.1:NZ_CP075546.1:872641-874106:plus
GCF_018502485.1:NZ_CP075546.1:1727419-1728884:plus
GCF_018502485.1
Natronomonas halophila C90 1 466 GCF_013391085.1:NZ_CP058334.1:1530622-1532087:minus GCF_013391085.1
Позосталі гени такої ж довжижи (у десятку не увійшли випадково)
ОрганізмДовжина, п.о.SeqID *Код доступу
геномної збірки
Natronomonas marina ZY43 1 466 GCF_024298905.1:NZ_CP101154.1:18680-20145:plus GCF_024298905.1
Methanospirillum hungatei JF-1 1 466 GCF_000013445.1:NC_007796.1:39814-41279:plus
GCF_000013445.1:NC_007796.1:1301079-1302544:minus
GCF_000013445.1:NC_007796.1:3501525-3502990:minus
GCF_000013445.1:NC_007796.1:3507609-3509074:minus
GCF_000013445.1
Methanomethylophilus alvi Mx-05 1 466 GCF_003711245.1:NZ_CP017686.1:283608-285073:plus GCF_003711245.1
Ca. Methanomethylophilus alvi Mx1201 1 466 GCF_000300255.2:NC_020913.1:283607-285072:plus GCF_000300255.2
Natronomonas gomsonensis KCTC 4088 1 466 GCF_024300825.1:NZ_CP101323.1:2500564-2502029:plus GCF_024300825.1
Топ-10 геномів за найбільшею кількістю копій генів 16S рРНК
ОрганізмКількість копійКод доступу
геномної збірки
Бактерії
Tumebacillus avium AR23208 37 GCF_002162355.1
Tumebacillus algifaecis THMBR28 27 GCF_002243515.1
Photobacterium piscicola WVL24019 25 GCF_046058925.1
Photobacterium phosphoreum MIP2473 24 GCF_949787665.1
Mesobacillus maritimus ADH-29 22 GCF_044803185.1
Peribacillus asahii KF4 21 GCF_023823975.1
Photobacterium damselae Pdd1411 21 GCF_030168855.1
Photobacterium leiognathi Sr3.10 21 GCF_048537505.1
Aneurinibacillus sp. Ricciae_BoGa-3 21 GCF_028421645.1
Photobacterium leiognathi Sr3.21 21 GCF_048537525.1
Позосталі геноми з такою ж кількістю копій (у десятку не увійшли випадково)
ОрганізмКількість копійКод доступу
геномної збірки
Photobacterium damselae Phdp Wu-1 21 GCF_003130755.1
ОрганізмКількість копійКод доступу
геномної збірки
Археї
Methanoplanus endosymbiosus DSM 3599 5 GCF_024662215.1
Methanococcoides orientis LMO-1 5 GCF_021184045.1
Natrinema sp. SYSU A 869 5 GCF_019879105.1
Natronorubrum aibiense 7-3 5 GCF_009392895.1
Natronorubrum bangense JCM 10635 5 GCF_004799645.1
Methanolobus sp. ZRKC3 5 GCF_045291275.1
Methanospirillum lacunae Ki8-1 4 GCF_046195335.1
Natronococcus occultus SP4 4 GCF_000328685.1
Methanolobus sediminis FTZ6 4 GCF_031312595.1
Methanogenium organophilum DSM 3596 4 GCF_026684035.1
Позосталі геноми з такою ж кількістю копій (у десятку не увійшли випадково)
ОрганізмКількість копійКод доступу
геномної збірки
Methanogenium sp. S4BF 4 GCF_029633965.1
Methanococcus vannielii SB 4 GCF_000017165.1
Haloarcula marismortui ATCC 33800 4 GCF_018200015.1
Haloterrigena salifodinae BOL5-1 4 GCF_016906025.1
Halomicrobium salinisoli LT50 4 GCF_020405185.1
Halomicrobium urmianum IBRC-M: 10911 4 GCF_020217425.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
4 GCF_018502485.1
Natrinema thermotolerans A29 4 GCF_031165565.1
Methanosphaera stadtmanae DSM 3091 4 GCF_000012545.1
Methanospirillum hungatei JF-1 4 GCF_000013445.1
Methanolobus mangrovi FTZ2 4 GCF_031312535.1
Methanolobus sp. WCC4 4 GCF_038022665.1
Methanospirillum purgamenti GP1 4 GCF_019263745.1
Halomicrobium salinisoli TH30 4 GCF_020405245.1
Methanospirillum stamsii Pt1 4 GCF_046244385.1
Methanochimaera problematica FWC-SCC4 4 GCF_032878975.1
Methanococcoides sp. FTZ1 4 GCF_052057775.1
Methanosphaera stadtmanae MGYG-HGUT-02164 4 GCF_902384015.1
Топ-10 геномів за найбільшею мінливістю генів 16S рРНК
ОрганізмСума ентропії *, бітиСередня ентропія *, бітиКількість мінливих позіційКількість копій генівКод доступу
геномної збірки
Бактерії
Clostridium perfringens A SNU21005 780,95 0,41 1 171 9 GCF_047150065.1
Escherichia coli P276M 433,81 0,26 569 6 GCF_009762385.1
Listeria monocytogenes
10-092876-1155 LM6
357,10 0,20 370 3 GCF_001999045.1
Klebsiella pneumoniae GZ-1 304,27 0,18 464 8 GCF_014854815.1
Streptococcus infantis SO 291,50 0,18 308 3 GCF_021497965.1
Synechococcus sp. NB0720_010 243,35 0,16 265 3 GCF_023078835.1
Streptomyces griseorubiginosus NBC_00586 231,55 0,15 342 6 GCF_036345135.1
Caminibacter mediatlanticus TB-2 228,78 0,15 282 4 GCF_005843985.1
Xanthomonas oryzae YNCX 227,74 0,15 248 3 GCF_024499285.1
Sporomusa termitida DSM 4440 226,25 0,13 247 12 GCF_007641255.1
Археї
Halomicrobium sp. ZPS1 ** 137,00 0,09 137 2 GCF_009217585.1
Halomicrobium urmianum IBRC-M: 10911 131,55 0,09 146 4 GCF_020217425.1
Halapricum desulfuricans HSR12-2 128,00 0,09 128 2 GCF_017094525.1
Halomicrobium salinisoli TH30 127,74 0,09 145 4 GCF_020405245.1
Halapricum desulfuricans HSR-Bgl 127,00 0,09 127 2 GCF_017094445.1
Halomicrobium mukohataei JP60 125,81 0,09 137 3 GCF_004803735.1
Halomicrobium sp. HM KBTZ05 124,38 0,08 134 3 GCF_041530035.1
Halomicrobium salinisoli LT50 123,31 0,08 140 4 GCF_020405185.1
Halapricum desulfuricans HSR-Est 111,00 0,08 111 2 GCF_017094465.1
Halapricum desulfuricans HSR12-1 109,00 0,07 109 2 GCF_017094505.1

* Ентропія тут — це ентропія Шеннона, яку розрахувовали для кожної колонки множинного вирівнювання повнорозмірних послідовностей генів 16S рРНК кожного геному. І далі ентропію підсумовували (колонка «Сума ентропії») і усереднювали (колонка «Середня ентропія»).

** Halomicrobium sp. ZPS1 — показовий випадок. У цьому геномі два гени 16S рРНК, тому ентропія є рівною кількості нуклеотидів, які не співпадають у їхніх послідовностях. Коли підрахувати відсоток ідентичності (скорочено ВІ) послідовностей оцих двох генів, отримуємо 90,70%! Нагадуємо, що за поріг ВІ послідовностей генів 16S рРНК для віднесення організмів до відрізных родів звычайно береться (хоча і довільно) значення 95%.

Спектр дії* пар праймерів до різних V-регіонів бактеріальних генів 16S рРНК

* Спектр дії пары праймерів — це видсоток геномів, які мають принаймні один ген 16S рРНК, який можливо заампліфікувати за допомогою ПЛР з застосуванням цієї пари праймерів. Деталі описані у нашому артикулі про RiboGrove.

У таблицях нижче можна знайти спектри дії пар праймерів, які звичайно застосовуються для ампліфікації бактеріальних та архейних генів 16S рРНК („бактеріальні“ і „архейні“ праймери).

Є більш детальна таблиця — у файлі primer_pair_genomic_coverage.tsv у метаданих metadata. Та таблиця утримує спектри дії не тільки для типів (phyla), але і для кожного царства (kingdom), класу, ряду, родини, роду та виду. Крім того, та таблиця утримує спектри дії для додаткових пар праймерів, а саме: 1115F-1492R, 349f-519r, 1106F-Ar1378R, 1106F-SSU1492Rngs, SSU1ArF-SSU468R, SSU1ArF-SSU520R. У таблицях нижче нема цих пар, щоб таблиці не були занадто великими.

Бактеріальні гени, „бактеріальні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Pseudomonadota 28 599 99,49 99,31 99,48 99,82 84,10 99,90 84,28 88,49 88,16 93,55 92,65 96,47
Bacillota 12 125 99,84 99,77 99,82 99,94 95,28 99,98 95,16 99,49 98,13 97,58 98,74 99,41
Actinomycetota 5 430 99,91 99,12 99,74 94,95 65,71 94,77 65,47 97,15 99,78 99,85 99,85 97,13
Bacteroidota 1 794 96,71 96,38 96,77 99,89 64,33 99,39 63,94 38,24 38,35 92,25 92,08 95,76
Campylobacterota 1 327 100,00 100,00 100,00 100,00 100,00 99,92 99,92 99,92 99,47 99,47 99,70 99,55
Mycoplasmatota 846 90,31 84,52 73,76 99,05 91,96 99,17 92,32 72,46 48,82 43,97 78,84 0,71
Spirochaetota 421 57,48 57,72 57,96 93,59 99,76 93,59 99,76 99,76 72,45 72,45 89,31 45,61
Cyanobacteriota 383 99,74 99,74 99,74 100,00 3,92 100,00 3,92 100,00 1,31 1,31 100,00 99,74
Fusobacteriota 246 100,00 98,78 99,59 99,59 99,59 99,59 99,59 99,59 99,59 99,59 100,00 0,00
Chlamydiota 241 0,00 0,00 0,00 100,00 100,00 0,00 0,00 0,00 100,00 100,00 100,00 94,61
Thermodesulfobacteriota 156 100,00 99,36 100,00 100,00 39,10 100,00 39,10 100,00 95,51 91,67 96,15 99,36
Verrucomicrobiota 142 99,30 0,00 99,30 100,00 13,38 100,00 13,38 100,00 1,41 1,41 98,59 98,59
Myxococcota 124 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Deinococcota 98 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 52,04 100,00
Planctomycetota 84 100,00 26,19 100,00 100,00 61,90 100,00 61,90 0,00 0,00 0,00 2,38 0,00
Chloroflexota 52 100,00 92,31 100,00 42,31 0,00 94,23 0,00 90,38 11,54 11,54 94,23 26,92
Thermotogota 50 100,00 98,00 100,00 100,00 8,00 100,00 8,00 100,00 0,00 0,00 52,00 98,00
Bdellovibrionota 44 100,00 100,00 100,00 100,00 77,27 100,00 77,27 100,00 100,00 100,00 100,00 100,00
Acidobacteriota 43 97,67 97,67 97,67 100,00 100,00 100,00 100,00 100,00 72,09 58,14 86,05 100,00
Aquificota 18 100,00 16,67 100,00 100,00 16,67 100,00 16,67 100,00 0,00 0,00 0,00 16,67
Rhodothermota 16 43,75 43,75 43,75 100,00 100,00 100,00 100,00 81,25 81,25 100,00 100,00 100,00
Chlorobiota 15 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 100,00 93,33 86,67 6,67
Nitrospirota 15 100,00 100,00 100,00 100,00 73,33 100,00 73,33 100,00 100,00 73,33 73,33 100,00
Ca. Saccharimonadota 13 100,00 100,00 100,00 100,00 7,69 7,69 7,69 7,69 0,00 0,00 100,00 100,00
Gemmatimonadota 13 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Synergistota 10 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 100,00
Elusimicrobiota 6 100,00 66,67 100,00 100,00 0,00 100,00 0,00 100,00 50,00 50,00 100,00 100,00
Deferribacterota 6 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Atribacterota 5 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ignavibacteriota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Balneolota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermodesulfobiota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00
Thermomicrobiota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 50,00 50,00
Armatimonadota 2 100,00 50,00 100,00 50,00 50,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chrysiogenota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Dictyoglomota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 0,00
Fibrobacterota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Kiritimatiellota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Fervidibacterota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Cloacimonadota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00
Ca. Absconditibacteriota 1 100,00 0,00 100,00 100,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Caldisericota 1 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 100,00
Ca. Omnitrophota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Coprothermobacterota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 100,00 0,00
Vulcanimicrobiota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Thermosulfidibacterota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Nitrospinota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Minisyncoccota 1 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Fidelibacterota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00

Архейні гени, „архейні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Methanobacteriota 465 89,03 86,24 89,25 89,03 51,40 50,32 100,00 99,35 100,00 100,00 99,57 89,68
Thermoproteota 110 96,36 98,18 100,00 100,00 72,73 98,18 100,00 69,09 93,64 100,00 99,09 98,18
Nitrososphaerota 31 96,77 96,77 96,77 96,77 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermoplasmatota 19 84,21 68,42 100,00 100,00 42,11 42,11 100,00 63,16 84,21 100,00 100,00 52,63
Ca. Nanohalarchaeota 4 0,00 25,00 0,00 100,00 0,00 0,00 100,00 50,00 100,00 100,00 100,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Nanobdellota 1 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Promethearchaeota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00 100,00

Бактеріальні гени, „архейні“ праймери
Бактеріальні гени, „архейні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Pseudomonadota 28 599 1,19 0,02 0,51 0,58 0,00 0,00 0,09 0,00 0,00 99,90 27,72 0,00
Bacillota 12 125 2,43 0,06 0,12 1,39 0,02 0,00 0,06 0,01 0,00 99,98 98,44 0,00
Actinomycetota 5 430 0,96 0,22 0,77 1,22 0,00 0,00 0,04 0,00 0,00 94,77 88,07 0,00
Bacteroidota 1 794 1,95 0,00 1,90 2,01 0,00 0,00 0,17 0,00 0,00 99,39 99,28 0,00
Campylobacterota 1 327 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,92 0,15 0,00
Mycoplasmatota 846 1,77 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,17 80,14 0,00
Spirochaetota 421 0,48 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 93,59 93,35 0,00
Cyanobacteriota 383 3,13 0,00 0,26 0,26 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fusobacteriota 246 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,59 99,59 0,00
Chlamydiota 241 1,66 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermodesulfobacteriota 156 5,77 0,64 1,28 1,28 0,00 0,00 0,00 0,00 0,00 100,00 70,51 0,00
Verrucomicrobiota 142 6,34 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 10,56 0,70
Myxococcota 124 30,65 4,03 3,23 3,23 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deinococcota 98 38,78 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 96,94 0,00
Planctomycetota 84 2,38 1,19 1,19 1,19 0,00 0,00 0,00 0,00 0,00 100,00 83,33 0,00
Chloroflexota 52 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 94,23 100,00 0,00
Thermotogota 50 38,00 0,00 28,00 28,00 0,00 0,00 6,00 0,00 0,00 100,00 100,00 0,00
Bdellovibrionota 44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,55 0,00 100,00 27,27 0,00
Acidobacteriota 43 11,63 0,00 0,00 6,98 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Aquificota 18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 83,33 44,44
Rhodothermota 16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlorobiota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nitrospirota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Saccharimonadota 13 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 7,69 7,69 0,00
Gemmatimonadota 13 0,00 7,69 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Synergistota 10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Elusimicrobiota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deferribacterota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Atribacterota 5 60,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ignavibacteriota 3 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Balneolota 3 33,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermodesulfobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermomicrobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Armatimonadota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 50,00 0,00
Chrysiogenota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Dictyoglomota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fibrobacterota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Kiritimatiellota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Fervidibacterota 1 100,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Cloacimonadota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Absconditibacteriota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Caldisericota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Omnitrophota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Coprothermobacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Vulcanimicrobiota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermosulfidibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Nitrospinota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Minisyncoccota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fidelibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00

Архейні гени, „бактеріальні“ праймери
Архейні гени, „бактеріальні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Methanobacteriota 465 0,00 0,00 0,00 0,00 0,00 100,00 0,00 82,37 0,00 0,00 0,00 0,00
Thermoproteota 110 0,91 0,00 0,00 0,00 0,00 100,00 0,00 89,09 0,00 0,00 0,00 0,00
Nitrososphaerota 31 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermoplasmatota 19 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Nanohalarchaeota 4 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nanobdellota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Promethearchaeota 1 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00

Праймери, спектр дії яких оцінювався
Праймери, спектр дії яких оцінювався
Назва праймераПослідовністьПосилання
27FAGAGTTTGATYMTGGCTCAGFrank et al., 2008
338RGCTGCCTCCCGTAGGAGTSuzuki et al., 1996
341F *CCTACGGGNGGCWGCAGKlindworth et al., 2013
515FGTGCCAGCMGCCGCGGTAATurner et al., 1999
534RATTACCGCGGCTGCTGGWalker et al., 2015
784FAGGATTAGATACCCTGGTAAndersson et al., 2008
785R *GACTACHVGGGTATCTAATCCKlindworth et al., 2013
806RGGACTACHVGGGTWTCTAATCaporaso et al., 2010
939FGAATTGACGGGGGCCCGCACAAGLebuhn et al., 2014
944RGAATTAAACCACATGCTCFuks et al., 2018
1100RAGGGTTGCGCTCGTTGTurner et al., 1999
1193RACGTCATCCCCACCTTCCBodenhausen et al, 2013
1378RCGGTGTGTACAAGGCCCGGGAACGLebuhn et al., 2014
1492RTACCTTGTTACGACTTFrank et al., 2008
SSU1ArFTCCGGTTGATCCYGCBRGBahram et al., 2018
SSU520RGCTACGRRYGYTTTARRCBahram et al., 2018
340fCCCTAYGGGGYGCASCAGGantner et al., 2011
806rBGGACTACNVGGGTWTCTAATAppril et al., 2015
349fGYGCASCAGKCGMGAAWTakai and Horikoshi, 2000
519rTTACCGCGGCKGCTGKlindworth et al., 2013
515fBGTGYCAGCMGCCGCGGTAAParada et al., 2015
Parch519fCAGCCGCCGCGGTAAOvreås et al., 1997
Arch915rGTGCTCCCCCGCCAATTCCTRaskin et al., 1994
1106FTTWAGTCAGGCAACGAGCWatanabe et al., 2007
Ar1378R **TGTGCAAGGAGCAGGGACWatanabe et al., 2007
A751FCCGACGGTGAGRGRYGAABaker et al., 2003
SSU1492RngsCGGNTACCTTGTKACGACBahram et al., 2018
SSU280ArRTCAGWNYCCNWCTCSRGGBahram et al., 2018
SSU470RDCNGCNGGTDTTACCGCGBahram et al., 2018
SSU468RGNDCNGCNGGTDTTACCGBahram et al., 2018
A519RGGTDTTACCGCGGCKGCTGWang and Qian, 2009
SSU666ArRHGCYTTCGCCACHGGTRGBahram et al., 2018
SSU1000ArRGGCCATGCAMYWCCTCTCBahram et al., 2018
UA1204RTTMGGGGCATRCIKACCTBaker et al., 2003

* Праймери 341F та 785R застосовуються у протоколі підготовки бібліотеки для секвенування ампліконів регіонів V3–V4 генів 16S рРНК на апараті Illumina MiSeq.

** Початкова назва праймера Ar1378R — 1378R. Ми змінили назву, щоб запобігти плутанині.


Пошук даних у RiboGrove

RiboGrove — це дуже мінімалістична база даних: вона складається з двох файлів fasta із додатковими метаданими. Отже, розширених засобів пошуку немає. Ми визнаємо цю проблему і залишаємо нижче делілька рекомендацій щодо пошуку даних у RiboGrove.

Формат заголовку

Записи послідовностей RiboGrove у форматі fasta мають наступний формат заголовку:

>GCF_000978375.1:NZ_CP009686.1:8908-10459:plus ;d__Bacteria;k__Bacillati;p__Bacillota;c__Bacilli;o__Bacillales;f__Bacillaceae;g__Bacillus;s__cereus; category:1

Основні частини заголовку відокремлені один від одного пробілами. В заголовку повинні бути три такі частини:

  1. Ідентифікатор послідовності (SeqID): GCF_000978375.1:NZ_CP009686.1:8908-10459:plus. SeqID, у свою чергу, складається з чотирьох частинок, відокремлених двокрапками:
    1. Код доступу збірки геному, від якого походить послідовність гену: GCF_000978375.1.
    2. Код доступу послідовності RefSeq, від якої походить послідовність гену: NZ_CP009686.1.
    3. Координати гену у цієї геномної послідовності RefSeq: 8908-10459 (нумерація йде з 1-ці, інтервали включають ліві та праві межі).
    4. Ланцюг геномної послідовності, на якій ген знаходиться: plus (або minus).
  2. Рядок таксономії, а саме назви домену (Bacteria), царства (Bacillati), типу (Bacillota), класу (Bacilli), ряду (Bacillales), родини (Bacillaceae) та роду (Bacillus), а також видовий епітет (cereus).
    Перед кожній назвою пишеться префікс, який позначує ранг: d__ для домену, k__ для царства, p__ для типу, c__ для класу, o__ для ряду, f__ для родини, g__ для роду і s__ для видового епітету. У префіксах після літеры пишуться два знаки нижнього підкресливання.
    Таксономічні назви відокремлені та оточені крапками з комою (;).
  3. Категорія геному, із якого послідовність гену походить: (category:1).

Вибір послідовностей

Відбирати ті чи інші послідовності із файлів fasta можна за допомогою програми Seqkit (ҐітХаб-репозиторій, документація). Це безкоштовна, кросплатформенна, багатофункціональна та доволі швидка програма, яка може обробляти як „ґзіпʼнуті“, так і прості нестиснуті файли fasta. Для відбіру послідовностей зручно выкористовувати програми seqkit grep та seqkit seq.

Вибір послідовностей по заголовку

Нехай ми робимо вибірку з файла ribogrove_26.232_sequences.fasta.gz. Корисними можуть статися наступні приклади команд користання програмою seqkit grep:

Приклад 1. Вибрати одну послідовність по SeqID.

seqkit grep -p "GCF_000978375.1:NZ_CP009686.1:8908-10459:plus" ribogrove_26.232_sequences.fasta.gz

Опція -p задає рядок, який програма буде шукати у fasta-заголовках (на самій справі, тільки в тій частині заголовків, де запісаний SeqID).

Приклад 2. Вибрати всі послідовності генів однієї геномної послідовності RefSeq по коду доступу NZ_CP009686.1.

seqkit grep -nrp ":NZ_CP009686.1:" ribogrove_26.232_sequences.fasta.gz

Тут потрібні ще дві опціі: -n та -r. Перша вказує програмі шукати підрядки в заголовках цілком, а не тільки в ідентифікаторах (SeqID). Друга опція вказує програмі, що їй треба шукати не тільки ті заголовки, які цілком співпадають із шуканим рядком, а також і ті, які утримують шуканий рядок як свою частину.

Щоб забезпечити специфичність пошуку, оточюйте код доступу двокрапками (:).

Приклад 3. Вибрати всі послідовності генів одного геному (код доступу геномної збірки GCF_019357495.1).

seqkit grep -nrp "GCF_019357495.1:" ribogrove_26.232_sequences.fasta.gz

Щоб забезпечити специфичність пошуку, пишіть двокрапку (:) після коду доступу збірки.

Приклад 4. Вибрати всі послідовності актинобактерий.

seqkit grep -nrp ";p__Actinobacteria;" ribogrove_26.232_sequences.fasta.gz

Щоб забезпечити специфичність пошуку, оточюйте таксономію крапками з комою (;).

Приклад 5. Вибрати всі послідовності з геномів категорії 1.

seqkit grep -nrp "category:1" ribogrove_26.232_sequences.fasta.gz

Приклад 6. Вибрати всі послідовності крім тих, які належать до типу Bacillota.

seqkit grep -nvrp ";p__Bacillota;" ribogrove_26.232_sequences.fasta.gz

Зверніть увагу на опцію -v у рядку з опціями -nvrp. Оця опція інвертує поведінку програми, і тепер вона знайде всі послідовності, заголовки яких не утримують рядку «;p__Bacillota;».

Вибір послідовностей по довжині

Відбірати послідовності по довжині можна за допомогою програми seqkit seq.

Приклад 1. Вибрати всі послідовності довше ніж 1600 п.о.

seqkit seq -m 1601 ribogrove_26.232_sequences.fasta.gz

Опція -m задає мінімальну довжину послідовностей, які програма подасть на вихід.

Приклад 2. Вибрати всі послідовності коротше ніж 1500 п.о.

seqkit seq -M 1499 ribogrove_26.232_sequences.fasta.gz

Опція -M задає максимальну довжину послідовностей, які програма подасть на вихід.

Приклад 3. Вибрати всі послідовності, довжина яких знаходиться в інтервалі [1500, 1600] п.о.

seqkit seq -m 1500 -M 1600 ribogrove_26.232_sequences.fasta.gz

Вибір даних заголовків

Інколи буває корисно одержати тільки дані заголовків із файла fasta. Це можна робити за допомогою програмы seqkit seq.

Приклад 1. Вибрати просто всі заголовки.

seqkit seq -n ribogrove_26.232_sequences.fasta.gz

Опція -n каже програмі, щоби вона подавала на вихід тільки заголовки.

Приклад 2. Вибрати всі ідентифікатори послідовностей (тобто частини заголовків до першого пробіла).

seqkit seq -ni ribogrove_26.232_sequences.fasta.gz

Опція -i каже програмі, щоби вона подавала на вихід тільки ідентифікатори.

Приклад 3. Вибрати всі коди доступу геномних послідовностей з БД RefSeq.

seqkit seq -ni ribogrove_26.232_sequences.fasta.gz | cut -f2 -d':' | sort | uniq

Така команда спрацює, тільки якщо на компʼютері установлені утиліти cut, sort, та uniq (на Linux та Mac OS оці програми звичайно встановлені разом із сістемою).

Приклад 4. Вибрати всі ідентифікатори геномних збірок.

seqkit seq -ni ribogrove_26.232_sequences.fasta.gz | cut -f1 -d':' | sort | uniq

Така команда спрацює, тільки якщо на компʼютері установлені утиліти cut, sed, sort і uniq (на Linux та Mac OS оці програми звичайно встановлені разом із сістемою).

Приклад 5. Вибрати всі назви типів організмів.

seqkit seq -n ribogrove_26.232_sequences.fasta.gz | grep -Eo ';p__[^;]+' | sed -E 's/;|p__//g' | sort | uniq

Така команда спрацює, тільки якщо на компʼютері установлені утиліти grep, sed, sort і uniq (на Linux та Mac OS оці програми звичайно встановлені разом із сістемою).


Контакти

Якщо ви маєте питання щодо RiboGrove, будь ласка, звертайтеся до Максима Сиколенка на ел. адресу sikolenko[ at ]mbio.bas-net.by або maximdeynonih[ at ]gmail.com.


Цитування RiboGrove

Якщо база даних RiboGrove сталася корисною для ваших досліджень, посилайтеся, будь ласка, на наступну публікацію:

Maxim A. Sikolenko, Leonid N. Valentovich. “RiboGrove: a database of full-length prokaryotic 16S rRNA genes derived from completely assembled genomes” // Research in Microbiology, Volume 173, Issue 4, May 2022, 103936.
(ЦІО: 10.1016/j.resmic.2022.103936).


Питання, які люди задають про RiboGrove

1. Як зробити файл з таксономією, з яким могли б працювати програми з пакета QIIME2?

Для цього можете скористатися скриптом make_qiime_taxonomy_file.py: він трансформує файл metadata/taxonomy.tsv в файл, з яким змогуть працювати програми QIIME2. Довідку-керівництво для цього скрипта можете знайти у відповідним файле README.


2. Як зберегти у файлі дані, відібрані за допомогою Seqkit?

У відповідної дискусії на форумі вже дали декілька корисних відповідей та порад: https://bioinformatics.stackexchange.com/questions/20915/how-do-i-save-selected-sequences-in-seqkit-to-a-file.


3. Як знайти потрібні записи у fasta-файлі по послідовності за допомогою Seqkit?

У відповідної дискусії на форумі вже дали декілька корисних відповідей та порад: https://www.biostars.org/p/9561418.



RiboGrove, 15.09.2025