🌐 English / Беларуская / Українська / Русский

Головний сайт, де ми розміщуємо базу даних RiboGrove, може бути недосяжним поза межами Білорусі через технічні проблеми та біду взагалі. Актуальний реліз RiboGrove можна знайти тут — нехай база даних буде досяжна принаймни такою мірою.


RiboGrove



Зміст


Що таке RiboGrove

RiboGrove — це база даних послідовностей генів 16S рРНК бактерій та архей.

RiboGrove базується на базі даних RefSeq. RiboGrove утримує тільки повнорозмірні послідовності генів 16S рРНК, а самі послідовності походять із повністю зібраних геномів прокаріотів, депонуваних у RefSeq. Тому ми постулюємо високу надійність послідовностей, розміщених у RiboGrove.

RiboGrove і інші бази даних 16S рРНК

Таблиця нижче показує, чим (якісно) RiboGrove відрізнювається від подібних баз даних послідовностей РНК, а саме rrnDB, Silva, RDP та Greengenes. Кажучи коротко, RiboGrove менша за аналоги щодо кількості послідовностей та їх різноманітності, але виграє у надійності послідовностей.

RiboGroverrnDBSilvaRDPGreengenes
Репрезентовані організмиБактерії
Археї
Бактерії
Археї
Бактерії
Археї
Еукаріоти
Бактерії
Археї
Еукаріоти
Бактерії
Археї
Репрезентовані субодиниці рибосомМалаМалаВелика
Мала
Велика
Мала
Мала
Утримує послідовності зібраних геномівТакТакТакТакТак
Утримує послідовності ампліконівНіНіТакТакТак
Утримує неповні послідовності генівНіТакТакТакТак
Відрізняє категориї геномівТакНіКритерій
непридатний
Критерій
непридатний
Критерій
непридатний

Категорії геномів

Всі геноми, з якіх бралися дані для створення RiboGrove, були розділені на три категорії згідно з їхньою надійностю:

  1. Категорія 1 (найбільша надійність). Геноми, які не демонструють прикмет низкоякісної збірки і які були секвенувані за допомогою технології PacBio або комбінації (Oxford Nanopore + Illumina).
  2. Категорія 2. Геноми, які не демонструють прикмет низкоякісної збірки, секвенувані за допомогою будь-якої іншої технології (або ті, для яких технологія секвенування не була задекларувана).
  3. Категорія 3 (найменша надійність). Геноми, які демонструють принаймні одну прикмету низкоякісної збірки.

Прикмети низкоякісної збірки


Програми, за допомогую яких RiboGrove була створена, знаходиться у наступному ҐітХаб-репозиторії: ribogrove-tools.


Завантаження

Актуальний реліз RiboGrove — 24.230 (2025-05-08)

Реліз заснований на базі даних RefSeq 230.

Файл fasta стиснутий за допомогою програми gzip, а файли метаданих стиснуті у zip-архів. Щоби розпакувати їх, користувачі Linux та Mac OS можуть скористатися саме програмамі gzip та zip; оці програми звичайно установлені разом із операційною системою. Користувачам Windows може придатися безкоштовна програма-архіватор 7-Zip.

Архів релізів RiboGrove

Всі попередні релізи можна знайти в архіві релізів RiboGrove. На жаль, він ведеться тільки англійською.

Коментарі до релізу

Цей реліз нічим принципово не відрізнюється від попереднього.

Коментарі до всіх релізів RiboGrove можна знайти на сторінці коментарів до релізів.


Статистичний опис

Розмір RiboGrove
БактеріїАрхеїУсього
Кількість послідовностей генів 268 758 1 076 269 834
Кількість унікальних послідовностей 64 436 759 65 195
Кількість видів 12 338 492 12 830
Кількість геномів 48 707 616 49 323
Кількість геномів 1-ої категорії 32 507 250 32 757
Кількість геномів 2-ої категорії 15 934 366 16 300
Кількість геномів 3-ої категорії 266 0 266
Довжина генів 16S рРНК
БактеріїАрхеї
Мінімальна довжина, п.о. 1 401,00 1 439,00
25-й перцентиль, п.о. * 1 517,00 1 471,00
Медіана, п.о. * 1 529,00 1 473,50
75-й перцентиль, п.о. * 1 542,00 1 483,00
Середня довжина, п.о. * 1 526,85 1 491,31
Мода, п.о. * 1 537,00 1 472,00
Максимальна довжина, п.о. 2 438,00 3 604,00
Сереньоквадратичне відхилення, п.о.* 25,10 121,54

* Метрики, позначені зірочкою, розрахувано зі попередньою нормалізацією: вирахуванням медіан довжин генів у межах виду.

Кількість копій генів 16S рРНК
Кількість копій *БактеріїАрхеї
Кількість видівВідсоток видів, %Кількість видівВідсоток видів, %
1 1 575 12,77 245 49,80
2 2 126 17,23 149 30,28
3 1 694 13,73 74 15,04
4 1 486 12,04 18 3,66
5 934 7,57 6 1,22
6 1 599 12,96 0 0,00
7 1 131 9,17 0 0,00
8 649 5,26 0 0,00
9 324 2,63 0 0,00
10 312 2,53 0 0,00
11 156 1,26 0 0,00
12 137 1,11 0 0,00
13 56 0,45 0 0,00
14 86 0,70 0 0,00
15 26 0,21 0 0,00
16 12 0,10 0 0,00
17 12 0,10 0 0,00
18 6 0,05 0 0,00
19 2 0,02 0 0,00
20 9 0,07 0 0,00
21 1 0,01 0 0,00
22 1 0,01 0 0,00
24 1 0,01 0 0,00
25 1 0,01 0 0,00
27 1 0,01 0 0,00
37 1 0,01 0 0,00

* Медіанна кількість копій у межах виду.

Топ-10 найдовших генів 16S рРНК
ОрганізмДовжина, п.о.SeqID *Код доступу
геномної збірки
Бактерії
Thermus thermophilus AA2-2 2 438 GCF_019974355.1:NZ_AP024929.1:249100-251537:minus GCF_019974355.1
Ca. Annandia pinicola Ad13-065 1 887 GCF_020541245.1:NZ_CP045876.1:290071-291957:minus GCF_020541245.1
Thermoanaerobacter ethanolicus JW 200 1 812 GCF_003722315.1:NZ_CP033580.1:456062-457873:plus GCF_003722315.1
Nitrosophilus labii HRV44 1 806 GCF_014466985.1:NZ_AP022826.1:1258017-1259822:minus
GCF_014466985.1:NZ_AP022826.1:1532588-1534393:minus
GCF_014466985.1:NZ_AP022826.1:1939914-1941719:minus
GCF_014466985.1
Sporomusa rhizae DSM 16652 1 802 GCF_041428845.1:NZ_CP156925.1:3123180-3124981:minus GCF_041428845.1
Gelria sp. Kuro-4 1 788 GCF_019668485.1:NZ_AP024619.1:2016182-2017969:minus GCF_019668485.1
Helicobacter mastomyrinus Hm-17 1 785 GCF_039555295.1:NZ_CP145316.1:765140-766924:minus GCF_039555295.1
Thermoanaerobacter brockii Ako-1 1 781 GCF_000175295.2:NC_014964.1:2252888-2254668:minus GCF_000175295.2
Thermoanaerobacter pseudethanolicus
ATCC 33223
1 781 GCF_000019085.1:NC_010321.1:2265744-2267524:minus GCF_000019085.1
Thermoanaerobacter sp. RKWS2 1 754 GCF_026240795.1:NZ_CP110888.1:94012-95765:plus GCF_026240795.1
Археї
Pyrobaculum ferrireducens 1860 3 604 GCF_000234805.1:NC_016645.1:127214-130817:plus GCF_000234805.1
Pyrobaculum aerophilum IM2 2 213 GCF_000007225.1:NC_003364.1:1089640-1091852:plus GCF_000007225.1
Pyrobaculum arsenaticum DSM 13514 2 212 GCF_000016385.1:NC_009376.1:623323-625534:minus GCF_000016385.1
Aeropyrum pernix K1 2 202 GCF_000011125.1:NC_000854.2:1218712-1220913:minus GCF_000011125.1
Pyrobaculum neutrophilum V24Sta 2 197 GCF_000019805.1:NC_010525.1:690419-692615:plus GCF_000019805.1
Ca. Mancarchaeum acidiphilum Mia14 2 008 GCF_002214165.1:NZ_CP019964.1:751297-753304:minus GCF_002214165.1
Ca. Micrarchaeum sp. A_DKE 2 003 GCF_016806735.1:NZ_CP060530.1:203642-205644:minus GCF_016806735.1
Caldivirga maquilingensis IC-167 1 679 GCF_000018305.1:NC_009954.1:129150-130828:minus GCF_000018305.1
Aeropyrum camini SY1 1 650 GCF_000591035.1:NC_022521.1:1165168-1166817:minus GCF_000591035.1
Pyrolobus fumarii 1A 1 576 GCF_000223395.1:NC_015931.1:84671-86246:minus GCF_000223395.1

* SeqID — це ідентифікатор послідовності RiboGrove.

Топ-10 найкоротших генів 16S рРНК
ОрганізмДовжина, п.о.SeqID *Код доступу
геномної збірки
Бактерії
Anabaena sp. YBS01 1 401 GCF_009498015.1:NZ_CP034058.1:6920299-6921699:minus GCF_009498015.1
Clostridioides difficile TW11 1 426 GCF_009362915.1:NZ_CP045224.1:4068440-4069865:minus GCF_009362915.1
Staphylococcus warneri TWSL_1 1 440 GCF_032147125.1:NZ_CP135051.1:2625669-2627108:plus GCF_032147125.1
Roseicitreum antarcticum ZS2-28 1 447 GCF_014681765.1:NZ_CP061498.1:3436150-3437596:plus GCF_014681765.1
Hirschia baltica ATCC 49814 1 448 GCF_000023785.1:NC_012982.1:2336679-2338126:minus GCF_000023785.1
Sagittula sp. P11 1 449 GCF_002814095.1:NZ_CP021913.1:3597920-3599368:plus
GCF_002814095.1:NZ_CP021913.1:2386837-2388285:plus
GCF_002814095.1
Mameliella sp. 1 449 GCF_965212485.1:NZ_OZ243118.1:780420-781868:minus
GCF_965212485.1:NZ_OZ243118.1:3042962-3044410:plus
GCF_965212485.1:NZ_OZ243118.1:4611080-4612528:minus
GCF_965212485.1
Mameliella sp. 1 449 GCF_965249415.1:NZ_OZ252233.1:702863-704311:plus
GCF_965249415.1:NZ_OZ252233.1:1895495-1896943:plus
GCF_965249415.1:NZ_OZ252233.1:3463560-3465008:minus
GCF_965249415.1
Sagittula sp. MA-2 1 449 GCF_030126985.1:NZ_CP126145.1:439-1887:plus
GCF_030126985.1:NZ_CP126145.1:2907211-2908659:minus
GCF_030126985.1
Sagittula stellata E-37 1 449 GCF_039724765.1:NZ_CP155729.1:664616-666064:plus
GCF_039724765.1:NZ_CP155729.1:1804792-1806240:plus
GCF_039724765.1
Mameliella alba KU6B 1 449 GCF_011405015.1:NZ_AP022337.1:1420943-1422391:plus
GCF_011405015.1:NZ_AP022337.1:3191212-3192660:minus
GCF_011405015.1:NZ_AP022337.1:267140-268588:plus
GCF_011405015.1
Археї
Ignicoccus hospitalis KIN4/I 1 439 GCF_000017945.1:NC_009776.1:728362-729800:plus GCF_000017945.1
Methanocaldococcus lauensis SG7 1 457 GCF_902827225.1:NZ_LR792632.1:542755-544211:plus GCF_902827225.1
Halorubrum sp. BOL3-1 1 463 GCF_004114375.1:NZ_CP034692.1:397753-399215:minus GCF_004114375.1
Salinirubellus litoreus SYNS196 1 466 GCF_037335815.1:NZ_CP147841.1:597195-598660:minus GCF_037335815.1
Natronomonas marina ZY43 1 466 GCF_024298905.1:NZ_CP101154.1:18680-20145:plus GCF_024298905.1
Natronomonas gomsonensis KCTC 4088 1 466 GCF_024300825.1:NZ_CP101323.1:2500564-2502029:plus GCF_024300825.1
Ca. Methanomethylophilus alvi Mx1201 1 466 GCF_000300255.2:NC_020913.1:283607-285072:plus GCF_000300255.2
Salinirubellus salinus ZS-35-S2 1 466 GCF_025231485.1:NZ_CP104003.1:3070232-3071697:plus GCF_025231485.1
Methanomethylophilus alvi
MGYG-HGUT-02456
1 466 GCF_902387285.1:NZ_LR699000.1:283607-285072:plus GCF_902387285.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
1 466 GCF_018502485.1:NZ_CP075546.1:133354-134819:plus
GCF_018502485.1:NZ_CP075546.1:825954-827419:plus
GCF_018502485.1:NZ_CP075546.1:872641-874106:plus
GCF_018502485.1:NZ_CP075546.1:1727419-1728884:plus
GCF_018502485.1
Methanospirillum stamsii Pt1 1 466 GCF_046244385.1:NZ_CP176366.1:1311724-1313189:plus
GCF_046244385.1:NZ_CP176366.1:2035802-2037267:plus
GCF_046244385.1:NZ_CP176366.1:2042927-2044392:plus
GCF_046244385.1:NZ_CP176366.1:3625347-3626812:minus
GCF_046244385.1
Methanomethylophilus alvi Mx-05 1 466 GCF_003711245.1:NZ_CP017686.1:283608-285073:plus GCF_003711245.1
Natronomonas halophila C90 1 466 GCF_013391085.1:NZ_CP058334.1:1530622-1532087:minus GCF_013391085.1
Methanospirillum purgamenti GP1 1 466 GCF_019263745.1:NZ_CP077107.1:4649-6114:plus
GCF_019263745.1:NZ_CP077107.1:1359562-1361027:minus
GCF_019263745.1:NZ_CP077107.1:1365502-1366967:minus
GCF_019263745.1:NZ_CP077107.1:1986020-1987485:minus
GCF_019263745.1
Methanospirillum hungatei JF-1 1 466 GCF_000013445.1:NC_007796.1:39814-41279:plus
GCF_000013445.1:NC_007796.1:1301079-1302544:minus
GCF_000013445.1:NC_007796.1:3501525-3502990:minus
GCF_000013445.1:NC_007796.1:3507609-3509074:minus
GCF_000013445.1

* SeqID — це ідентифікатор послідовності RiboGrove.

Топ-10 геномів за найбільшею кілкістю копій генів 16S рРНК
ОрганізмКількість копійКод доступу
геномної збірки
Бактерії
Tumebacillus avium AR23208 37 GCF_002162355.1
Tumebacillus algifaecis THMBR28 27 GCF_002243515.1
Photobacterium piscicola WVL24019 25 GCF_046058925.1
Photobacterium phosphoreum MIP2473 24 GCF_949787665.1
Mesobacillus maritimus ADH-29 22 GCF_044803185.1
Photobacterium damselae Pdd1411 21 GCF_030168855.1
Photobacterium damselae Phdp Wu-1 21 GCF_003130755.1
Photobacterium leiognathi Sr3.10 21 GCF_048537505.1
Aneurinibacillus sp. Ricciae_BoGa-3 21 GCF_028421645.1
Photobacterium leiognathi Sr3.21 21 GCF_048537525.1
Peribacillus asahii KF4 21 GCF_023823975.1
Археї
Natronorubrum aibiense 7-3 5 GCF_009392895.1
Methanococcoides orientis LMO-1 5 GCF_021184045.1
Natrinema sp. SYSU A 869 5 GCF_019879105.1
Methanolobus sp. ZRKC3 5 GCF_045291275.1
Natronorubrum bangense JCM 10635 5 GCF_004799645.1
Methanoplanus endosymbiosus DSM 3599 5 GCF_024662215.1
Halomicrobium urmianum IBRC-M: 10911 4 GCF_020217425.1
Halomicrobium salinisoli LT50 4 GCF_020405185.1
Halomicrobium salinisoli TH30 4 GCF_020405245.1
Methanospirillum purgamenti J.3.6.1-F.2.7.3 4 GCF_018502485.1
Haloarcula sinaiiensis ATCC 33800 4 GCF_018200015.1
Haloterrigena salifodinae BOL5-1 4 GCF_016906025.1
Methanolobus sediminis FTZ6 4 GCF_031312595.1
Methanogenium sp. S4BF 4 GCF_029633965.1
Methanospirillum hungatei JF-1 4 GCF_000013445.1
Natronococcus occultus SP4 4 GCF_000328685.1
Methanosphaera stadtmanae
MGYG-HGUT-02164
4 GCF_902384015.1
Methanolobus sp. WCC4 4 GCF_038022665.1
Methanochimaera problematica FWC-SCC4 4 GCF_032878975.1
Methanolobus mangrovi FTZ2 4 GCF_031312535.1
Methanococcus vannielii SB 4 GCF_000017165.1
Methanospirillum lacunae Ki8-1 4 GCF_046195335.1
Methanosphaera stadtmanae DSM 3091 4 GCF_000012545.1
Methanospirillum purgamenti GP1 4 GCF_019263745.1
Natrinema thermotolerans A29 4 GCF_031165565.1
Methanospirillum stamsii Pt1 4 GCF_046244385.1
Methanogenium organophilum DSM 3596 4 GCF_026684035.1
Топ-10 геномів за найбільшею мінливістю генів 16S рРНК
ОрганізмСума ентропії *, бітиСередня ентропія *, бітиКількість мінливих позіційКількість копій генівКод доступу
геномної збірки
Бактерії
Clostridium perfringens A SNU21005 780,95 0,41 1 171 9 GCF_047150065.1
Escherichia coli P276M 433,81 0,26 569 6 GCF_009762385.1
Listeria monocytogenes
10-092876-1155 LM6
357,10 0,20 370 3 GCF_001999045.1
Klebsiella pneumoniae GZ-1 304,27 0,18 464 8 GCF_014854815.1
Streptococcus infantis SO 291,50 0,18 308 3 GCF_021497965.1
Synechococcus sp. NB0720_010 243,35 0,16 265 3 GCF_023078835.1
Streptomyces griseorubiginosus
NBC_00586
231,55 0,15 342 6 GCF_036345135.1
Caminibacter mediatlanticus TB-2 228,78 0,15 282 4 GCF_005843985.1
Xanthomonas oryzae YNCX 227,74 0,15 248 3 GCF_024499285.1
Sporomusa termitida DSM 4440 226,25 0,13 247 12 GCF_007641255.1
Археї
Halomicrobium sp. ZPS1 ** 137,00 0,09 137 2 GCF_009217585.1
Halomicrobium urmianum
IBRC-M: 10911
131,55 0,09 146 4 GCF_020217425.1
Halapricum desulfuricans HSR12-2 128,00 0,09 128 2 GCF_017094525.1
Halomicrobium salinisoli TH30 127,74 0,09 145 4 GCF_020405245.1
Halapricum desulfuricans HSR-Bgl 127,00 0,09 127 2 GCF_017094445.1
Halomicrobium mukohataei JP60 125,81 0,09 137 3 GCF_004803735.1
Halomicrobium sp. HM KBTZ05 124,38 0,08 134 3 GCF_041530035.1
Halomicrobium salinisoli LT50 123,31 0,08 140 4 GCF_020405185.1
Halapricum desulfuricans HSR-Est 111,00 0,08 111 2 GCF_017094465.1
Halapricum desulfuricans HSR12-1 109,00 0,07 109 2 GCF_017094505.1

* Ентропія тут — це ентропія Шеннона, яку розрахувовали для кожної колонки множинного вирівнювання повнорозмірних послідовностей генів 16S рРНК кожного геному. І далі ентропію підсумовували (колонка «Сума ентропії») і усереднювали (колонка «Середня ентропія»).

** Halomicrobium sp. ZPS1 — показовий випадок. У цьому геномі два гени 16S рРНК, тому ентропія є рівною кількості нуклеотидів, які не співпадають у їхніх послідовностях. Коли підрахувати відсоток ідентичності (скорочено ВІ) послідовностей оцих двох генів, отримуємо 90,70%! Нагадуємо, що за поріг ВІ послідовностей генів 16S рРНК для віднесення організмів до відрізных родів звычайно береться (хоча і довільно) значення 95%.

Спектр дії* пар праймерів до різних V-регіонів бактеріальних генів 16S рРНК

* Спектр дії пары праймерів — це видсоток геномів, які мають принаймні один ген 16S рРНК, який можливо заампліфікувати за допомогою ПЛР з застосуванням цієї пари праймерів. Деталі описані у нашому артикулі про RiboGrove.

У таблицях нижче можна знайти спектри дії пар праймерів, які звичайно застосовуються для ампліфікації бактеріальних та архейних генів 16S рРНК („бактеріальні“ і „архейні“ праймери).

Є більш детальна таблиця — у файлі primer_pair_genomic_coverage.tsv у метаданих metadata. Та таблиця утримує спектри дії не тільки для типів (phyla), але і для кожного класу, ряду, родини, роду та виду. Крім того, та таблиця утримує спектри дії для додаткових пар праймерів, а саме: 1115F-1492R, 349f-519r, 1106F-Ar1378R, 1106F-SSU1492Rngs, SSU1ArF-SSU468R, SSU1ArF-SSU520R. У таблицях нижче нема цих пар, щоб таблиці не були занадто великими.

Бактеріальні гени, „бактеріальні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Pseudomonadota 26 698 99,70 99,50 99,68 99,93 84,03 99,89 84,10 88,96 88,65 93,47 92,52 96,43
Bacillota 11 206 99,83 99,75 99,79 99,93 95,23 99,97 95,10 99,46 98,08 97,50 98,63 99,37
Actinomycetota 4 976 99,90 99,14 99,72 94,82 67,02 94,61 66,78 96,91 99,76 99,84 99,84 96,93
Bacteroidota 1 681 96,43 96,07 96,55 99,94 64,78 99,41 64,37 37,89 38,01 92,44 91,97 95,48
Campylobacterota 1 314 100,00 100,00 100,00 100,00 100,00 99,92 99,92 99,92 99,47 99,47 99,70 99,54
Mycoplasmatota 751 90,28 83,89 72,30 98,93 91,21 99,07 91,61 74,43 48,34 42,74 76,43 0,67
Spirochaetota 398 54,27 54,77 54,77 93,22 99,75 93,22 99,75 99,75 75,38 75,38 90,20 43,47
Cyanobacteriota 370 99,73 99,73 99,73 100,00 3,78 100,00 3,78 100,00 1,08 1,08 100,00 99,73
Chlamydiota 234 0,00 0,00 0,00 100,00 100,00 0,00 0,00 0,00 100,00 100,00 100,00 94,44
Fusobacteriota 229 100,00 98,69 99,56 99,56 99,56 99,56 99,56 99,56 99,56 99,56 100,00 0,00
Thermodesulfobacteriota 147 100,00 99,32 100,00 100,00 41,50 100,00 41,50 100,00 95,24 91,16 95,92 99,32
Verrucomicrobiota 140 99,29 0,00 99,29 100,00 12,86 100,00 12,86 100,00 1,43 1,43 98,57 98,57
Deinococcota 97 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 52,58 100,00
Planctomycetota 72 100,00 25,00 100,00 100,00 62,50 100,00 62,50 0,00 0,00 0,00 2,78 0,00
Myxococcota 65 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chloroflexota 52 100,00 92,31 100,00 42,31 0,00 94,23 0,00 90,38 11,54 11,54 94,23 26,92
Bdellovibrionota 44 100,00 100,00 100,00 100,00 77,27 100,00 77,27 100,00 100,00 100,00 100,00 100,00
Thermotogota 44 100,00 97,73 100,00 100,00 9,09 100,00 9,09 100,00 0,00 0,00 59,09 97,73
Acidobacteriota 43 97,67 97,67 97,67 100,00 100,00 100,00 100,00 100,00 72,09 58,14 86,05 100,00
Aquificota 18 100,00 16,67 100,00 100,00 16,67 100,00 16,67 100,00 0,00 0,00 0,00 16,67
Rhodothermota 16 43,75 43,75 43,75 100,00 100,00 100,00 100,00 81,25 81,25 100,00 100,00 100,00
Chlorobiota 15 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 100,00 93,33 86,67 6,67
Nitrospirota 15 100,00 100,00 100,00 100,00 73,33 100,00 73,33 100,00 100,00 73,33 73,33 100,00
Ca. Saccharibacteria 12 100,00 100,00 100,00 100,00 8,33 8,33 8,33 8,33 0,00 0,00 100,00 100,00
Gemmatimonadota 12 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Synergistota 10 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 100,00
Deferribacterota 6 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Elusimicrobiota 5 100,00 60,00 100,00 100,00 0,00 100,00 0,00 100,00 60,00 60,00 100,00 100,00
Atribacterota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ignavibacteriota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Armatimonadota 2 100,00 50,00 100,00 50,00 50,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermodesulfobiota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00
Thermomicrobiota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 50,00 50,00
Balneolota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chrysiogenota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Dictyoglomota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 0,00
Fibrobacterota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Kiritimatiellota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Fervidibacterota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Cloacimonadota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00
Ca. Absconditibacteriota 1 100,00 0,00 100,00 100,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Caldisericota 1 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 100,00
Ca. Omnitrophota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Ca. Paceibacterota 1 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Vulcanimicrobiota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Thermosulfidibacterota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Nitrospinota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Fidelibacterota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Coprothermobacterota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 100,00 0,00

Архейні гени, „архейні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Methanobacteriota 452 89,16 86,95 89,38 89,16 51,55 50,66 100,00 99,34 100,00 100,00 99,56 89,60
Thermoproteota 107 96,26 98,13 100,00 100,00 72,90 98,13 100,00 69,16 93,46 100,00 99,07 98,13
Nitrososphaerota 30 96,67 96,67 96,67 96,67 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermoplasmatota 19 84,21 68,42 100,00 100,00 42,11 42,11 100,00 63,16 84,21 100,00 100,00 52,63
Ca. Nanohalarchaeota 4 0,00 25,00 0,00 100,00 0,00 0,00 100,00 50,00 100,00 100,00 100,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Nanobdellota 1 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Promethearchaeota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00 100,00

Бактеріальні гени, „архейні“ праймери
Бактеріальні гени, „архейні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Pseudomonadota 26 698 1,22 0,03 0,55 0,58 0,00 0,00 0,09 0,00 0,00 99,89 28,03 0,00
Bacillota 11 206 2,54 0,05 0,13 1,45 0,02 0,00 0,06 0,01 0,00 99,97 98,42 0,00
Actinomycetota 4 976 0,94 0,24 0,74 1,21 0,00 0,00 0,04 0,00 0,00 94,61 87,64 0,00
Bacteroidota 1 681 1,90 0,00 1,84 1,96 0,00 0,00 0,18 0,00 0,00 99,41 99,29 0,00
Campylobacterota 1 314 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,92 0,15 0,00
Mycoplasmatota 751 2,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,07 78,16 0,00
Spirochaetota 398 0,50 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 93,22 92,96 0,00
Cyanobacteriota 370 2,97 0,00 0,27 0,27 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlamydiota 234 1,71 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Fusobacteriota 229 0,44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,56 99,56 0,00
Thermodesulfobacteriota 147 6,12 0,68 1,36 1,36 0,00 0,00 0,00 0,00 0,00 100,00 72,79 0,00
Verrucomicrobiota 140 5,71 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 10,00 0,71
Deinococcota 97 39,18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 96,91 0,00
Planctomycetota 72 1,39 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 81,94 0,00
Myxococcota 65 13,85 7,69 6,15 6,15 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chloroflexota 52 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 94,23 100,00 0,00
Bdellovibrionota 44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,55 0,00 100,00 27,27 0,00
Thermotogota 44 43,18 0,00 31,82 31,82 0,00 0,00 2,27 0,00 0,00 100,00 100,00 0,00
Acidobacteriota 43 11,63 0,00 0,00 6,98 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Aquificota 18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 83,33 44,44
Rhodothermota 16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlorobiota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nitrospirota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Saccharibacteria 12 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 8,33 8,33 0,00
Gemmatimonadota 12 0,00 8,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Synergistota 10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deferribacterota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Elusimicrobiota 5 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Atribacterota 3 33,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ignavibacteriota 3 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Armatimonadota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 50,00 0,00
Thermodesulfobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermomicrobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Balneolota 2 50,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chrysiogenota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Dictyoglomota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fibrobacterota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Kiritimatiellota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Fervidibacterota 1 100,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Cloacimonadota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Absconditibacteriota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Caldisericota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Omnitrophota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Paceibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Vulcanimicrobiota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermosulfidibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Nitrospinota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fidelibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Coprothermobacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00

Архейні гени, „бактеріальні“ праймери
Архейні гени, „бактеріальні“ праймери
Тип Кількість
геномів
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Methanobacteriota 452 0,00 0,00 0,00 0,00 0,00 100,00 0,00 82,08 0,00 0,00 0,00 0,00
Thermoproteota 107 0,93 0,00 0,00 0,00 0,00 100,00 0,00 88,79 0,00 0,00 0,00 0,00
Nitrososphaerota 30 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermoplasmatota 19 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Nanohalarchaeota 4 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nanobdellota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Promethearchaeota 1 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00

Праймери, спектр дії яких оцінювався
Праймери, спектр дії яких оцінювався
Назва праймераПослідовністьПосилання
27FAGAGTTTGATYMTGGCTCAGFrank et al., 2008
338RGCTGCCTCCCGTAGGAGTSuzuki et al., 1996
341F *CCTACGGGNGGCWGCAGKlindworth et al., 2013
515FGTGCCAGCMGCCGCGGTAATurner et al., 1999
534RATTACCGCGGCTGCTGGWalker et al., 2015
784FAGGATTAGATACCCTGGTAAndersson et al., 2008
785R *GACTACHVGGGTATCTAATCCKlindworth et al., 2013
806RGGACTACHVGGGTWTCTAATCaporaso et al., 2010
939FGAATTGACGGGGGCCCGCACAAGLebuhn et al., 2014
944RGAATTAAACCACATGCTCFuks et al., 2018
1100RAGGGTTGCGCTCGTTGTurner et al., 1999
1193RACGTCATCCCCACCTTCCBodenhausen et al, 2013
1378RCGGTGTGTACAAGGCCCGGGAACGLebuhn et al., 2014
1492RTACCTTGTTACGACTTFrank et al., 2008
SSU1ArFTCCGGTTGATCCYGCBRGBahram et al., 2018
SSU520RGCTACGRRYGYTTTARRCBahram et al., 2018
340fCCCTAYGGGGYGCASCAGGantner et al., 2011
806rBGGACTACNVGGGTWTCTAATAppril et al., 2015
349fGYGCASCAGKCGMGAAWTakai and Horikoshi, 2000
519rTTACCGCGGCKGCTGKlindworth et al., 2013
515fBGTGYCAGCMGCCGCGGTAAParada et al., 2015
Parch519fCAGCCGCCGCGGTAAOvreås et al., 1997
Arch915rGTGCTCCCCCGCCAATTCCTRaskin et al., 1994
1106FTTWAGTCAGGCAACGAGCWatanabe et al., 2007
Ar1378R **TGTGCAAGGAGCAGGGACWatanabe et al., 2007
A751FCCGACGGTGAGRGRYGAABaker et al., 2003
SSU1492RngsCGGNTACCTTGTKACGACBahram et al., 2018
SSU280ArRTCAGWNYCCNWCTCSRGGBahram et al., 2018
SSU470RDCNGCNGGTDTTACCGCGBahram et al., 2018
SSU468RGNDCNGCNGGTDTTACCGBahram et al., 2018
A519RGGTDTTACCGCGGCKGCTGWang and Qian, 2009
SSU666ArRHGCYTTCGCCACHGGTRGBahram et al., 2018
SSU1000ArRGGCCATGCAMYWCCTCTCBahram et al., 2018
UA1204RTTMGGGGCATRCIKACCTBaker et al., 2003

* Праймери 341F та 785R застосовуються у протоколі підготовки бібліотеки для секвенування ампліконів регіонів V3–V4 генів 16S рРНК на апараті Illumina MiSeq.

** Початкова назва праймера Ar1378R — 1378R. Ми змінили назву, щоб запобігти плутанині.


Пошук даних у RiboGrove

RiboGrove — це дуже мінімалістична база даних: вона складається з двох файлів fasta із додатковими метаданими. Отже, розширених засобів пошуку немає. Ми визнаємо цю проблему і залишаємо нижче делілька рекомендацій щодо пошуку даних у RiboGrove.

Формат заголовку

Записи послідовностей RiboGrove у форматі fasta мають наступний формат заголовку:

>GCF_000978375.1:NZ_CP009686.1:8908-10459:plus ;d__Bacteria;p__Firmicutes;c__Bacilli;o__Bacillales;f__Bacillaceae;g__Bacillus;s__cereus; category:1

Основні частини заголовку відокремлені один від одного пробілами. В заголовку повинні бути три такі частини:

  1. Ідентифікатор послідовності (SeqID): GCF_000978375.1:NZ_CP009686.1:8908-10459:plus. SeqID, у свою чергу, складається з чотирьох частинок, відокремлених двокрапками:
    1. Код доступу збірки геному, від якого походить послідовність гену: GCF_000978375.1.
    2. Код доступу послідовності RefSeq, від якої походить послідовність гену: NZ_CP009686.1.
    3. Координати гену у цієї геномної послідовності RefSeq: 8908-10459 (нумерація йде з 1-ці, інтервали включають ліві та праві межі).
    4. Ланцюг геномної послідовності, на якій ген знаходиться: plus (або minus).
  2. Рядок таксономії, а саме назви домену (Bacteria), типу (Firmicutes), класу (Bacilli), ряду (Bacillales), родини (Bacillaceae) та роду (Bacillus), а також видовий епітет (cereus).
    Перед кожній назвою пишеться префікс, який позначує ранг: d__ для домену, p__ для типу, c__ для класу, o__ для ряду, f__ для родини, g__ для роду і s__ для видового епітету. У префіксах після літеры пишуться два знаки нижнього підкресливання.
    Таксономічні назви відокремлені та оточені крапками з комою (;).
  3. Категорія геному, із якого послідовність гену походить: (category:1).

Вибір послідовностей

Відбирати ті чи інші послідовності із файлів fasta можна за допомогою програми Seqkit (ҐітХаб-репозиторій, документація). Це безкоштовна, кросплатформенна, багатофункціональна та доволі швидка програма, яка може обробляти як „ґзіпʼнуті“, так і прості нестиснуті файли fasta. Для відбіру послідовностей зручно выкористовувати програми seqkit grep та seqkit seq.

Вибір послідовностей по заголовку

Нехай ми робимо вибірку з файла ribogrove_24.230_sequences.fasta.gz. Корисними можуть статися наступні приклади команд користання програмою seqkit grep:

Приклад 1. Вибрати одну послідовність по SeqID.

seqkit grep -p "GCF_000978375.1:NZ_CP009686.1:8908-10459:plus" ribogrove_24.230_sequences.fasta.gz

Опція -p задає рядок, який програма буде шукати у fasta-заголовках (на самій справі, тільки в тій частині заголовків, де запісаний SeqID).

Приклад 2. Вибрати всі послідовності генів однієї геномної послідовності RefSeq по коду доступу NZ_CP009686.1.

seqkit grep -nrp ":NZ_CP009686.1:" ribogrove_24.230_sequences.fasta.gz

Тут потрібні ще дві опціі: -n та -r. Перша вказує програмі шукати підрядки в заголовках цілком, а не тільки в ідентифікаторах (SeqID). Друга опція вказує програмі, що їй треба шукати не тільки ті заголовки, які цілком співпадають із шуканим рядком, а також і ті, які утримують шуканий рядок як свою частину.

Щоб забезпечити специфичність пошуку, оточюйте код доступу двокрапками (:).

Приклад 3. Вибрати всі послідовності генів одного геному (код доступу геномної збірки GCF_019357495.1).

seqkit grep -nrp "GCF_019357495.1:" ribogrove_24.230_sequences.fasta.gz

Щоб забезпечити специфичність пошуку, пишіть двокрапку (:) після коду доступу збірки.

Приклад 4. Вибрати всі послідовності актинобактерий.

seqkit grep -nrp ";p__Actinobacteria;" ribogrove_24.230_sequences.fasta.gz

Щоб забезпечити специфичність пошуку, оточюйте таксономію крапками з комою (;).

Приклад 5. Вибрати всі послідовності з геномів категорії 1.

seqkit grep -nrp "category:1" ribogrove_24.230_sequences.fasta.gz

Приклад 6. Вибрати всі послідовності крім тих, які належать до типу Firmicutes.

seqkit grep -nvrp ";p__Firmicutes;" ribogrove_24.230_sequences.fasta.gz

Зверніть увагу на опцію -v у рядку з опціями -nvrp. Оця опція інвертує поведінку програми, і тепер вона знайде всі послідовності, заголовки яких не утримують рядку «;p__Firmicutes;».

Вибір послідовностей по довжині

Відбірати послідовності по довжині можна за допомогою програми seqkit seq.

Приклад 1. Вибрати всі послідовності довше ніж 1600 п.о.

seqkit seq -m 1601 ribogrove_24.230_sequences.fasta.gz

Опція -m задає мінімальну довжину послідовностей, які програма подасть на вихід.

Приклад 2. Вибрати всі послідовності коротше ніж 1500 п.о.

seqkit seq -M 1499 ribogrove_24.230_sequences.fasta.gz

Опція -M задає максимальну довжину послідовностей, які програма подасть на вихід.

Приклад 3. Вибрати всі послідовності, довжина яких знаходиться в інтервалі [1500, 1600] п.о.

seqkit seq -m 1500 -M 1600 ribogrove_24.230_sequences.fasta.gz

Вибір даних заголовків

Інколи буває корисно одержати тільки дані заголовків із файла fasta. Це можна робити за допомогою програмы seqkit seq.

Приклад 1. Вибрати просто всі заголовки.

seqkit seq -n ribogrove_24.230_sequences.fasta.gz

Опція -n каже програмі, щоби вона подавала на вихід тільки заголовки.

Приклад 2. Вибрати всі ідентифікатори послідовностей (тобто частини заголовків до першого пробіла).

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz

Опція -i каже програмі, щоби вона подавала на вихід тільки ідентифікатори.

Приклад 3. Вибрати всі коди доступу геномних послідовностей з БД RefSeq.

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz | cut -f2 -d':' | sort | uniq

Така команда спрацює, тільки якщо на компʼютері установлені утиліти cut, sort, та uniq (на Linux та Mac OS оці програми звичайно встановлені разом із сістемою).

Приклад 4. Вибрати всі ідентифікатори геномних збірок.

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz | cut -f1 -d':' | sort | uniq

Така команда спрацює, тільки якщо на компʼютері установлені утиліти cut, sed, sort і uniq (на Linux та Mac OS оці програми звичайно встановлені разом із сістемою).

Приклад 5. Вибрати всі назви типів організмів.

seqkit seq -n ribogrove_24.230_sequences.fasta.gz | grep -Eo ';p__[^;]+' | sed -E 's/;|p__//g' | sort | uniq

Така команда спрацює, тільки якщо на компʼютері установлені утиліти grep, sed, sort і uniq (на Linux та Mac OS оці програми звичайно встановлені разом із сістемою).


Контакти

Якщо ви маєте питання щодо RiboGrove, будь ласка, звертайтеся до Максима Сиколенка на ел. адресу sikolenko[ at ]mbio.bas-net.by або maximdeynonih[ at ]gmail.com.


Цитування RiboGrove

Якщо база даних RiboGrove сталася корисною для ваших досліджень, посилайтеся, будь ласка, на наступну публікацію:

Maxim A. Sikolenko, Leonid N. Valentovich. “RiboGrove: a database of full-length prokaryotic 16S rRNA genes derived from completely assembled genomes” // Research in Microbiology, Volume 173, Issue 4, May 2022, 103936.
(ЦІО: 10.1016/j.resmic.2022.103936).


Питання, які люди задають про RiboGrove

1. Як зробити файл з таксономією, з яким могли б працювати програми з пакета QIIME2?

Для цього можете скористатися скриптом make_qiime_taxonomy_file.py: він трансформує файл metadata/taxonomy.tsv в файл, з яким змогуть працювати програми QIIME2. Довідку-керівництво для цього скрипта можете знайти у відповідним файле README.


2. Як зберегти у файлі дані, відібрані за допомогою Seqkit?

У відповідної дискусії на форумі вже дали декілька корисних відповідей та порад: https://bioinformatics.stackexchange.com/questions/20915/how-do-i-save-selected-sequences-in-seqkit-to-a-file.


3. Як знайти потрібні записи у fasta-файлі по послідовності за допомогою Seqkit?

У відповідної дискусії на форумі вже дали декілька корисних відповідей та порад: https://www.biostars.org/p/9561418.



RiboGrove, 2025-05-08