🌐 English / Беларуская / Українська / Русский

Основной сайт, где мы размещаем базу данных RiboGrove, может быть недоступен за пределами Беларуси из-за технических бед и беды вообще.
Поэтому мы создали это зеркало, а файлы RiboGrove доступны через Дропбокс (ссылки ниже).




Содержание


Что такое RiboGrove

RiboGrove — это база данных последовательностей генов 16S рРНК бактерий и архей.

RiboGrove основывается на базе данных RefSeq. RiboGrove содержит только полноразмерные последовательности генов 16S рРНК, а сами последовательности взяты из полностью собранных геномов прокариот, депонированных в RefSeq. Поэтому мы постулируем высокую надёжность последовательностей, содержащихся в RiboGrove.

RiboGrove и другие базы данных 16S рРНК

Таблица ниже показывает, чем (качественно) RiboGrove отличается от схожих баз данных последовательностей РНК, а именно rrnDB, Silva, RDP и Greengenes. Говоря коротко, RiboGrove уступает аналогам по количеству последовательностей и их разнообразию, но превосходит по достоверности последовательностей.

RiboGroverrnDBSilvaRDPGreengenes
Представленные организмыБактерии
Археи
Бактерии
Археи
Бактерии
Археи
Эукариоты
Бактерии
Археи
Эукариоты
Бактерии
Археи
Представленные субъединицы рибосомМалаяМалаяБольшая
Малая
Большая
Малая
Малая
Содержит последовательности собранных геномовДаДаДаДаДа
Содержит последовательности ампликоновНетНетДаДаДа
Содержит неполные последовательности геновНетДаДаДаДа
Различает категории геномовДаНетКритерий
неприменим
Критерий
неприменим
Критерий
неприменим

Категории геномов

Все геномы, из которых брались данные для создания RiboGrove, были разделены на три категории по их достоверности:

  1. Категория 1 (наибольшая достоверность). Геномы, которые не демонстрируют признаков низкокачественной сборки и которые были секвенированы с помощью технологии PacBio либо комбинации (Oxford Nanopore + Illumina).
  2. Категория 2. Геномы, которые не демонстрируют признаков низкокачественной сборки, секвенированные с помощью любой другой технологии (либо те, для которых технология секвенирования не была указана).
  3. Категория 3 (наименьшая достоверность). Геномы, которые демонстрируют хотя бы один признак низкокачественной сборки.

Признаки низкокачественной сборки:


Программы, с помощью которых RiboGrove была создана, доступны в репозитории на ГитХабе: ribogrove-tools.


Файлы

Актуальный выпуск RiboGrove — 26.232 (2025-09-09)

Выпуск RiboGrove 26.232 основан на данных, полученных из базы данных RefSeq версии 232.

Fasta-файл сжат с помощью программы gzip, а метаданные — с помощью программы zip. Чтобы разархивировать их, пользователи Linux и Mac OS могут воспользоваться программами gzip и zip, соответственно; эти программы должны быть предустановлены. Пользователи же Windows могут воспользоваться бесплатной программой 7-Zip.

Архив выпусков RiboGrove

Вы можете найти все выпуски RiboGrove в архиве выпусков RiboGrove.

Комментарии к выпуску

Начиная с выпуска 26.232, у каждой последовательности есть соответствующее таксономическое название царства (kingdom: 10.1099/ijsem.0.006242).

Комментарии ко всем выпускам RiboGrove можно найти на странице комментариев к выпускам.


Статистическое описание

Размер базы данных RiboGrove
БактерииАрхеиВсего
Количество последовательностей генов 288 462 1 111 289 573
Количество уникальных последовательностей генов 68 300 780 69 080
Количество видов 13 234 503 13 737
Количество геномов 52 357 633 52 990
Количество геномов 1-й категории 34 853 262 35 115
Количество геномов 2-й категории 17 226 371 17 597
Количество геномов 3-й категории 278 0 278
Длина генов 16S рРНК
БактерииАрхеи
Минимум, п.н. 1 401,00 1 439,00
25-й перцентиль, п.н. * 1 517,00 1 471,00
Медиана, п.н. * 1 529,00 1 474,00
75-й перцентиль, п.н. * 1 542,00 1 483,00
Средняя длина, п.н. * 1 527,13 1 491,07
Мода, п.н. * 1 537,00 1 472,00
Максимальная длина, п.н. 2 438,00 3 604,00
Среднеквадратическое отклонение, п.н. * 25,12 120,22

* Метрики, помеченные звёздочкой, были рассчитаны с предварительной нормализацией данных, а именно: медианные значения длины внутри каждого вида использовались для расчёта этих метрик.

Число копий генов 16S рРНК
Число копий *БактерииАрхеи
Количество видовПроцент видов, %Количество видовПроцент видов, %
1 1 644 12,42 249 49,50
2 2 257 17,05 151 30,02
3 1 800 13,60 79 15,71
4 1 697 12,82 18 3,58
5 1 024 7,74 6 1,19
6 1 749 13,22 0 0,00
7 1 197 9,04 0 0,00
8 667 5,04 0 0,00
9 344 2,60 0 0,00
10 323 2,44 0 0,00
11 162 1,22 0 0,00
12 146 1,10 0 0,00
13 59 0,45 0 0,00
14 91 0,69 0 0,00
15 26 0,20 0 0,00
16 12 0,09 0 0,00
17 13 0,10 0 0,00
18 6 0,05 0 0,00
19 3 0,02 0 0,00
20 8 0,06 0 0,00
21 1 0,01 0 0,00
22 1 0,01 0 0,00
24 1 0,01 0 0,00
25 1 0,01 0 0,00
27 1 0,01 0 0,00
37 1 0,01 0 0,00

* Медианное число копий в пределах вида.

Топ-10 самых длинных генов 16S рРНК
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Бактерии
Thermus thermophilus AA2-2 2 438 GCF_019974355.1:NZ_AP024929.1:249100-251537:minus GCF_019974355.1
Ca. Annandia pinicola Ad13-065 1 887 GCF_020541245.1:NZ_CP045876.1:290071-291957:minus GCF_020541245.1
Thermoanaerobacter ethanolicus
JW 200
1 812 GCF_003722315.1:NZ_CP033580.1:456062-457873:plus GCF_003722315.1
Nitrosophilus labii HRV44 1 806 GCF_014466985.1:NZ_AP022826.1:1258017-1259822:minus
GCF_014466985.1:NZ_AP022826.1:1532588-1534393:minus
GCF_014466985.1:NZ_AP022826.1:1939914-1941719:minus
GCF_014466985.1
Agarivorans sp. QJM3NY_29 1 803 GCF_050870835.2:NZ_CP194036.2:4273146-4274948:minus GCF_050870835.2
Agarivorans sp. QJM3NY_30 1 803 GCF_050870855.2:NZ_CP194038.2:4273147-4274949:minus GCF_050870855.2
Agarivorans sp. Z349TD_7 1 803 GCF_050870845.2:NZ_CP194040.2:4273139-4274941:minus GCF_050870845.2
Sporomusa rhizae DSM 16652 1 802 GCF_041428845.1:NZ_CP156925.1:3123180-3124981:minus GCF_041428845.1
Gelria sp. Kuro-4 1 788 GCF_019668485.1:NZ_AP024619.1:2016182-2017969:minus GCF_019668485.1
Helicobacter mastomyrinus Hm-17 1 785 GCF_039555295.1:NZ_CP145316.1:765140-766924:minus GCF_039555295.1
Археи
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Pyrobaculum ferrireducens 1860 3 604 GCF_000234805.1:NC_016645.1:127214-130817:plus GCF_000234805.1
Pyrobaculum aerophilum IM2 2 213 GCF_000007225.1:NC_003364.1:1089640-1091852:plus GCF_000007225.1
Pyrobaculum arsenaticum DSM 13514 2 212 GCF_000016385.1:NC_009376.1:623323-625534:minus GCF_000016385.1
Aeropyrum pernix K1 2 202 GCF_000011125.1:NC_000854.2:1218712-1220913:minus GCF_000011125.1
Pyrobaculum neutrophilum V24Sta 2 197 GCF_000019805.1:NC_010525.1:690419-692615:plus GCF_000019805.1
Ca. Mancarchaeum
acidiphilum Mia14
2 008 GCF_002214165.1:NZ_CP019964.1:751297-753304:minus GCF_002214165.1
Ca. Micrarchaeum sp. A_DKE 2 003 GCF_016806735.1:NZ_CP060530.1:203642-205644:minus GCF_016806735.1
Caldivirga maquilingensis IC-167 1 679 GCF_000018305.1:NC_009954.1:129150-130828:minus GCF_000018305.1
Aeropyrum camini SY1 1 650 GCF_000591035.1:NC_022521.1:1165168-1166817:minus GCF_000591035.1
Pyrolobus fumarii 1A 1 576 GCF_000223395.1:NC_015931.1:84671-86246:minus GCF_000223395.1

* SeqID — это идентификатор последовательности RiboGrove.

Топ-10 самых коротких генов 16S рРНК
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Бактерии
Anabaena sp. YBS01 1 401 GCF_009498015.1:NZ_CP034058.1:6920299-6921699:minus GCF_009498015.1
Clostridioides difficile TW11 1 426 GCF_009362915.1:NZ_CP045224.1:4068440-4069865:minus GCF_009362915.1
Roseicitreum
antarcticum ZS2-28
1 447 GCF_014681765.1:NZ_CP061498.1:3436150-3437596:plus GCF_014681765.1
Hirschia baltica ATCC 49814 1 448 GCF_000023785.1:NC_012982.1:2336679-2338126:minus GCF_000023785.1
Sagittula stellata E-37 1 449 GCF_039724765.1:NZ_CP155729.1:664616-666064:plus
GCF_039724765.1:NZ_CP155729.1:1804792-1806240:plus
GCF_039724765.1
Mameliella sp. 1 449 GCF_965277915.1:NZ_OZ255849.1:1028793-1030241:plus
GCF_965277915.1:NZ_OZ255849.1:2596915-2598363:minus
GCF_965277915.1:NZ_OZ255849.1:4859504-4860952:plus
GCF_965277915.1
Sagittula sp. P11 1 449 GCF_002814095.1:NZ_CP021913.1:3597920-3599368:plus
GCF_002814095.1:NZ_CP021913.1:2386837-2388285:plus
GCF_002814095.1
Mameliella sp. 1 449 GCF_965249415.1:NZ_OZ252233.1:702863-704311:plus
GCF_965249415.1:NZ_OZ252233.1:1895495-1896943:plus
GCF_965249415.1:NZ_OZ252233.1:3463560-3465008:minus
GCF_965249415.1
Sagittula sp. MA-2 1 449 GCF_030126985.1:NZ_CP126145.1:439-1887:plus
GCF_030126985.1:NZ_CP126145.1:2907211-2908659:minus
GCF_030126985.1
Mameliella alba KU6B 1 449 GCF_011405015.1:NZ_AP022337.1:1420943-1422391:plus
GCF_011405015.1:NZ_AP022337.1:3191212-3192660:minus
GCF_011405015.1:NZ_AP022337.1:267140-268588:plus
GCF_011405015.1
Остальные гены такой же длины (в десятку не вошли случайно)
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Mameliella sp. 1 449 GCF_965212485.1:NZ_OZ243118.1:780420-781868:minus
GCF_965212485.1:NZ_OZ243118.1:3042962-3044410:plus
GCF_965212485.1:NZ_OZ243118.1:4611080-4612528:minus
GCF_965212485.1
Археи
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Ignicoccus hospitalis KIN4/I 1 439 GCF_000017945.1:NC_009776.1:728362-729800:plus GCF_000017945.1
Methanocaldococcus lauensis SG7 1 457 GCF_902827225.1:NZ_LR792632.1:542755-544211:plus GCF_902827225.1
Halorubrum sp. BOL3-1 1 463 GCF_004114375.1:NZ_CP034692.1:397753-399215:minus GCF_004114375.1
Methanomethylophilus alvi
MGYG-HGUT-02456
1 466 GCF_902387285.1:NZ_LR699000.1:283607-285072:plus GCF_902387285.1
Salinirubellus salinus ZS-35-S2 1 466 GCF_025231485.1:NZ_CP104003.1:3070232-3071697:plus GCF_025231485.1
Methanospirillum purgamenti GP1 1 466 GCF_019263745.1:NZ_CP077107.1:4649-6114:plus
GCF_019263745.1:NZ_CP077107.1:1359562-1361027:minus
GCF_019263745.1:NZ_CP077107.1:1365502-1366967:minus
GCF_019263745.1:NZ_CP077107.1:1986020-1987485:minus
GCF_019263745.1
Methanospirillum stamsii Pt1 1 466 GCF_046244385.1:NZ_CP176366.1:1311724-1313189:plus
GCF_046244385.1:NZ_CP176366.1:2035802-2037267:plus
GCF_046244385.1:NZ_CP176366.1:2042927-2044392:plus
GCF_046244385.1:NZ_CP176366.1:3625347-3626812:minus
GCF_046244385.1
Salinirubellus litoreus SYNS196 1 466 GCF_037335815.1:NZ_CP147841.1:597195-598660:minus GCF_037335815.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
1 466 GCF_018502485.1:NZ_CP075546.1:133354-134819:plus
GCF_018502485.1:NZ_CP075546.1:825954-827419:plus
GCF_018502485.1:NZ_CP075546.1:872641-874106:plus
GCF_018502485.1:NZ_CP075546.1:1727419-1728884:plus
GCF_018502485.1
Natronomonas halophila C90 1 466 GCF_013391085.1:NZ_CP058334.1:1530622-1532087:minus GCF_013391085.1
Остальные гены такой же длины (в десятку не вошли случайно)
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Natronomonas marina ZY43 1 466 GCF_024298905.1:NZ_CP101154.1:18680-20145:plus GCF_024298905.1
Methanospirillum hungatei JF-1 1 466 GCF_000013445.1:NC_007796.1:39814-41279:plus
GCF_000013445.1:NC_007796.1:1301079-1302544:minus
GCF_000013445.1:NC_007796.1:3501525-3502990:minus
GCF_000013445.1:NC_007796.1:3507609-3509074:minus
GCF_000013445.1
Methanomethylophilus alvi Mx-05 1 466 GCF_003711245.1:NZ_CP017686.1:283608-285073:plus GCF_003711245.1
Ca. Methanomethylophilus alvi Mx1201 1 466 GCF_000300255.2:NC_020913.1:283607-285072:plus GCF_000300255.2
Natronomonas gomsonensis KCTC 4088 1 466 GCF_024300825.1:NZ_CP101323.1:2500564-2502029:plus GCF_024300825.1

* SeqID — это идентификатор последовательности RiboGrove.

Tоп-10 геномов с наибольшим числом копий генов 16S рРНК
ОрганизмЧисло копийКод доступа
геномной сборки
Бактерии
Tumebacillus avium AR23208 37 GCF_002162355.1
Tumebacillus algifaecis THMBR28 27 GCF_002243515.1
Photobacterium piscicola WVL24019 25 GCF_046058925.1
Photobacterium phosphoreum MIP2473 24 GCF_949787665.1
Mesobacillus maritimus ADH-29 22 GCF_044803185.1
Peribacillus asahii KF4 21 GCF_023823975.1
Photobacterium damselae Pdd1411 21 GCF_030168855.1
Photobacterium leiognathi Sr3.10 21 GCF_048537505.1
Aneurinibacillus sp. Ricciae_BoGa-3 21 GCF_028421645.1
Photobacterium leiognathi Sr3.21 21 GCF_048537525.1
Остальные геномы с таким же числом копий (в десятку не вошли случайно)
ОрганизмЧисло копийКод доступа
геномной сборки
Photobacterium damselae Phdp Wu-1 21 GCF_003130755.1
ОрганизмЧисло копийКод доступа
геномной сборки
Археи
Methanoplanus endosymbiosus DSM 3599 5 GCF_024662215.1
Methanococcoides orientis LMO-1 5 GCF_021184045.1
Natrinema sp. SYSU A 869 5 GCF_019879105.1
Natronorubrum aibiense 7-3 5 GCF_009392895.1
Natronorubrum bangense JCM 10635 5 GCF_004799645.1
Methanolobus sp. ZRKC3 5 GCF_045291275.1
Methanospirillum lacunae Ki8-1 4 GCF_046195335.1
Natronococcus occultus SP4 4 GCF_000328685.1
Methanolobus sediminis FTZ6 4 GCF_031312595.1
Methanogenium organophilum DSM 3596 4 GCF_026684035.1
Остальные геномы с таким же числом копий (в десятку не вошли случайно)
ОрганизмЧисло копийКод доступа
геномной сборки
Methanogenium sp. S4BF 4 GCF_029633965.1
Methanococcus vannielii SB 4 GCF_000017165.1
Haloarcula marismortui ATCC 33800 4 GCF_018200015.1
Haloterrigena salifodinae BOL5-1 4 GCF_016906025.1
Halomicrobium salinisoli LT50 4 GCF_020405185.1
Halomicrobium urmianum IBRC-M: 10911 4 GCF_020217425.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
4 GCF_018502485.1
Natrinema thermotolerans A29 4 GCF_031165565.1
Methanosphaera stadtmanae DSM 3091 4 GCF_000012545.1
Methanospirillum hungatei JF-1 4 GCF_000013445.1
Methanolobus mangrovi FTZ2 4 GCF_031312535.1
Methanolobus sp. WCC4 4 GCF_038022665.1
Methanospirillum purgamenti GP1 4 GCF_019263745.1
Halomicrobium salinisoli TH30 4 GCF_020405245.1
Methanospirillum stamsii Pt1 4 GCF_046244385.1
Methanochimaera problematica FWC-SCC4 4 GCF_032878975.1
Methanococcoides sp. FTZ1 4 GCF_052057775.1
Methanosphaera stadtmanae MGYG-HGUT-02164 4 GCF_902384015.1
Tоп-10 геномов с наибольшей внутригеномной изменчивостью генов 16S рРНК
ОрганизмСумма энтропии *, битыСредняя энтропия *, битыКоличество изменчивых позицийЧисло копий геновКод доступа
геномной сборки
Бактерии
Clostridium perfringens A SNU21005 780,95 0,41 1 171 9 GCF_047150065.1
Escherichia coli P276M 433,81 0,26 569 6 GCF_009762385.1
Listeria monocytogenes
10-092876-1155 LM6
357,10 0,20 370 3 GCF_001999045.1
Klebsiella pneumoniae GZ-1 304,27 0,18 464 8 GCF_014854815.1
Streptococcus infantis SO 291,50 0,18 308 3 GCF_021497965.1
Synechococcus sp. NB0720_010 243,35 0,16 265 3 GCF_023078835.1
Streptomyces griseorubiginosus NBC_00586 231,55 0,15 342 6 GCF_036345135.1
Caminibacter mediatlanticus TB-2 228,78 0,15 282 4 GCF_005843985.1
Xanthomonas oryzae YNCX 227,74 0,15 248 3 GCF_024499285.1
Sporomusa termitida DSM 4440 226,25 0,13 247 12 GCF_007641255.1
Археи
Halomicrobium sp. ZPS1 ** 137,00 0,09 137 2 GCF_009217585.1
Halomicrobium urmianum IBRC-M: 10911 131,55 0,09 146 4 GCF_020217425.1
Halapricum desulfuricans HSR12-2 128,00 0,09 128 2 GCF_017094525.1
Halomicrobium salinisoli TH30 127,74 0,09 145 4 GCF_020405245.1
Halapricum desulfuricans HSR-Bgl 127,00 0,09 127 2 GCF_017094445.1
Halomicrobium mukohataei JP60 125,81 0,09 137 3 GCF_004803735.1
Halomicrobium sp. HM KBTZ05 124,38 0,08 134 3 GCF_041530035.1
Halomicrobium salinisoli LT50 123,31 0,08 140 4 GCF_020405185.1
Halapricum desulfuricans HSR-Est 111,00 0,08 111 2 GCF_017094465.1
Halapricum desulfuricans HSR12-1 109,00 0,07 109 2 GCF_017094505.1

* Энтропия в данном случае — это энтропия Шеннона, вычисленная для каждого столбца множественного выравнивания полноразмерных последовательностей генов 16S рРНК индивидуального генома. Вычисленная энтропия далее суммировалась (столбец «Сумма энтропии») или усреднялась (столбец «Средняя энтропия»).

** Halomicrobium sp. ZPS1 — показательный случай. В этом геноме два гена 16S рРНК, поэтому энтропия равна количеству нуклеотидов, которые не совпадают в их последовательностях. Вычислив процент идентичности (сокращённо ПИ) последовательностей этих двух генов, получим 90,70%! Напомним, что за порог ПИ последовательностей генов 16S рРНК для отнесения организмов да отдельных родов обычно принимают (впрочем, произвольно) значение 95%.


Спектр действия* пар праймеров к разным V-участкам бактериальных генов 16S рРНК

* Спектр действия пары праймеров — это процент геномов, которые содержат как минимум один ген 16S рРНК, который возможно амплифицировать с помощью ПЦР используя эту пару праймеров. Подробности описаны в нашей статье про RiboGrove.

В таблицах ниже можно найти спектры действия пар праймеров, которые обычно используются для амплификации бактериальных и архейных генов 16S рРНК („бактериальные“ и „архейные“ праймеры).

Есть более подробная таблица — в файле primer_pair_genomic_coverage.tsv в метаданных metadata. Та таблица содержит спектры действия не только для отделов (phyla), но и для каждого царства (kingdom), класса, порядка, семейства, рода и вида. Кроме того, та таблица содержит спектры действия для дополнительных пар праймеров, а именно: 1115F-1492R, 349f-519r, 1106F-Ar1378R, 1106F-SSU1492Rngs, SSU1ArF-SSU468R, SSU1ArF-SSU520R. В таблицах ниже нет этих пар, чтобы таблицы не были слишком громоздкими.

Бактерияльные гены, „бактерияльные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Pseudomonadota 28 599 99,49 99,31 99,48 99,82 84,10 99,90 84,28 88,49 88,16 93,55 92,65 96,47
Bacillota 12 125 99,84 99,77 99,82 99,94 95,28 99,98 95,16 99,49 98,13 97,58 98,74 99,41
Actinomycetota 5 430 99,91 99,12 99,74 94,95 65,71 94,77 65,47 97,15 99,78 99,85 99,85 97,13
Bacteroidota 1 794 96,71 96,38 96,77 99,89 64,33 99,39 63,94 38,24 38,35 92,25 92,08 95,76
Campylobacterota 1 327 100,00 100,00 100,00 100,00 100,00 99,92 99,92 99,92 99,47 99,47 99,70 99,55
Mycoplasmatota 846 90,31 84,52 73,76 99,05 91,96 99,17 92,32 72,46 48,82 43,97 78,84 0,71
Spirochaetota 421 57,48 57,72 57,96 93,59 99,76 93,59 99,76 99,76 72,45 72,45 89,31 45,61
Cyanobacteriota 383 99,74 99,74 99,74 100,00 3,92 100,00 3,92 100,00 1,31 1,31 100,00 99,74
Fusobacteriota 246 100,00 98,78 99,59 99,59 99,59 99,59 99,59 99,59 99,59 99,59 100,00 0,00
Chlamydiota 241 0,00 0,00 0,00 100,00 100,00 0,00 0,00 0,00 100,00 100,00 100,00 94,61
Thermodesulfobacteriota 156 100,00 99,36 100,00 100,00 39,10 100,00 39,10 100,00 95,51 91,67 96,15 99,36
Verrucomicrobiota 142 99,30 0,00 99,30 100,00 13,38 100,00 13,38 100,00 1,41 1,41 98,59 98,59
Myxococcota 124 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Deinococcota 98 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 52,04 100,00
Planctomycetota 84 100,00 26,19 100,00 100,00 61,90 100,00 61,90 0,00 0,00 0,00 2,38 0,00
Chloroflexota 52 100,00 92,31 100,00 42,31 0,00 94,23 0,00 90,38 11,54 11,54 94,23 26,92
Thermotogota 50 100,00 98,00 100,00 100,00 8,00 100,00 8,00 100,00 0,00 0,00 52,00 98,00
Bdellovibrionota 44 100,00 100,00 100,00 100,00 77,27 100,00 77,27 100,00 100,00 100,00 100,00 100,00
Acidobacteriota 43 97,67 97,67 97,67 100,00 100,00 100,00 100,00 100,00 72,09 58,14 86,05 100,00
Aquificota 18 100,00 16,67 100,00 100,00 16,67 100,00 16,67 100,00 0,00 0,00 0,00 16,67
Rhodothermota 16 43,75 43,75 43,75 100,00 100,00 100,00 100,00 81,25 81,25 100,00 100,00 100,00
Chlorobiota 15 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 100,00 93,33 86,67 6,67
Nitrospirota 15 100,00 100,00 100,00 100,00 73,33 100,00 73,33 100,00 100,00 73,33 73,33 100,00
Ca. Saccharimonadota 13 100,00 100,00 100,00 100,00 7,69 7,69 7,69 7,69 0,00 0,00 100,00 100,00
Gemmatimonadota 13 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Synergistota 10 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 100,00
Elusimicrobiota 6 100,00 66,67 100,00 100,00 0,00 100,00 0,00 100,00 50,00 50,00 100,00 100,00
Deferribacterota 6 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Atribacterota 5 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ignavibacteriota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Balneolota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermodesulfobiota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00
Thermomicrobiota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 50,00 50,00
Armatimonadota 2 100,00 50,00 100,00 50,00 50,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chrysiogenota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Dictyoglomota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 0,00
Fibrobacterota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Kiritimatiellota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Fervidibacterota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Cloacimonadota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00
Ca. Absconditibacteriota 1 100,00 0,00 100,00 100,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Caldisericota 1 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 100,00
Ca. Omnitrophota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Coprothermobacterota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 100,00 0,00
Vulcanimicrobiota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Thermosulfidibacterota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Nitrospinota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Minisyncoccota 1 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Fidelibacterota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00

Архейные гены, „архейные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Methanobacteriota 465 89,03 86,24 89,25 89,03 51,40 50,32 100,00 99,35 100,00 100,00 99,57 89,68
Thermoproteota 110 96,36 98,18 100,00 100,00 72,73 98,18 100,00 69,09 93,64 100,00 99,09 98,18
Nitrososphaerota 31 96,77 96,77 96,77 96,77 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermoplasmatota 19 84,21 68,42 100,00 100,00 42,11 42,11 100,00 63,16 84,21 100,00 100,00 52,63
Ca. Nanohalarchaeota 4 0,00 25,00 0,00 100,00 0,00 0,00 100,00 50,00 100,00 100,00 100,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Nanobdellota 1 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Promethearchaeota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00 100,00

Бактериальные гены, „архейные“ праймеры
Бактериальные гены, „архейные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Pseudomonadota 28 599 1,19 0,02 0,51 0,58 0,00 0,00 0,09 0,00 0,00 99,90 27,72 0,00
Bacillota 12 125 2,43 0,06 0,12 1,39 0,02 0,00 0,06 0,01 0,00 99,98 98,44 0,00
Actinomycetota 5 430 0,96 0,22 0,77 1,22 0,00 0,00 0,04 0,00 0,00 94,77 88,07 0,00
Bacteroidota 1 794 1,95 0,00 1,90 2,01 0,00 0,00 0,17 0,00 0,00 99,39 99,28 0,00
Campylobacterota 1 327 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,92 0,15 0,00
Mycoplasmatota 846 1,77 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,17 80,14 0,00
Spirochaetota 421 0,48 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 93,59 93,35 0,00
Cyanobacteriota 383 3,13 0,00 0,26 0,26 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fusobacteriota 246 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,59 99,59 0,00
Chlamydiota 241 1,66 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermodesulfobacteriota 156 5,77 0,64 1,28 1,28 0,00 0,00 0,00 0,00 0,00 100,00 70,51 0,00
Verrucomicrobiota 142 6,34 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 10,56 0,70
Myxococcota 124 30,65 4,03 3,23 3,23 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deinococcota 98 38,78 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 96,94 0,00
Planctomycetota 84 2,38 1,19 1,19 1,19 0,00 0,00 0,00 0,00 0,00 100,00 83,33 0,00
Chloroflexota 52 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 94,23 100,00 0,00
Thermotogota 50 38,00 0,00 28,00 28,00 0,00 0,00 6,00 0,00 0,00 100,00 100,00 0,00
Bdellovibrionota 44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,55 0,00 100,00 27,27 0,00
Acidobacteriota 43 11,63 0,00 0,00 6,98 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Aquificota 18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 83,33 44,44
Rhodothermota 16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlorobiota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nitrospirota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Saccharimonadota 13 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 7,69 7,69 0,00
Gemmatimonadota 13 0,00 7,69 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Synergistota 10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Elusimicrobiota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deferribacterota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Atribacterota 5 60,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ignavibacteriota 3 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Balneolota 3 33,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermodesulfobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermomicrobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Armatimonadota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 50,00 0,00
Chrysiogenota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Dictyoglomota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fibrobacterota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Kiritimatiellota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Fervidibacterota 1 100,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Cloacimonadota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Absconditibacteriota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Caldisericota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Omnitrophota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Coprothermobacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Vulcanimicrobiota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermosulfidibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Nitrospinota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Minisyncoccota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fidelibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00

Архейные гены, „бактериальные“ праймеры
Архейные гены, „бактериальные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Methanobacteriota 465 0,00 0,00 0,00 0,00 0,00 100,00 0,00 82,37 0,00 0,00 0,00 0,00
Thermoproteota 110 0,91 0,00 0,00 0,00 0,00 100,00 0,00 89,09 0,00 0,00 0,00 0,00
Nitrososphaerota 31 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermoplasmatota 19 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Nanohalarchaeota 4 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nanobdellota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Promethearchaeota 1 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00

Праймеры, спектр действия которых оценивался
Праймеры, спектр действия которых оценивался
Название праймераПоследовательностьСсылка
27FAGAGTTTGATYMTGGCTCAGFrank et al., 2008
338RGCTGCCTCCCGTAGGAGTSuzuki et al., 1996
341F *CCTACGGGNGGCWGCAGKlindworth et al., 2013
515FGTGCCAGCMGCCGCGGTAATurner et al., 1999
534RATTACCGCGGCTGCTGGWalker et al., 2015
784FAGGATTAGATACCCTGGTAAndersson et al., 2008
785R *GACTACHVGGGTATCTAATCCKlindworth et al., 2013
806RGGACTACHVGGGTWTCTAATCaporaso et al., 2010
939FGAATTGACGGGGGCCCGCACAAGLebuhn et al., 2014
944RGAATTAAACCACATGCTCFuks et al., 2018
1100RAGGGTTGCGCTCGTTGTurner et al., 1999
1193RACGTCATCCCCACCTTCCBodenhausen et al, 2013
1378RCGGTGTGTACAAGGCCCGGGAACGLebuhn et al., 2014
1492RTACCTTGTTACGACTTFrank et al., 2008
SSU1ArFTCCGGTTGATCCYGCBRGBahram et al., 2018
SSU520RGCTACGRRYGYTTTARRCBahram et al., 2018
340fCCCTAYGGGGYGCASCAGGantner et al., 2011
806rBGGACTACNVGGGTWTCTAATAppril et al., 2015
349fGYGCASCAGKCGMGAAWTakai and Horikoshi, 2000
519rTTACCGCGGCKGCTGKlindworth et al., 2013
515fBGTGYCAGCMGCCGCGGTAAParada et al., 2015
Parch519fCAGCCGCCGCGGTAAOvreås et al., 1997
Arch915rGTGCTCCCCCGCCAATTCCTRaskin et al., 1994
1106FTTWAGTCAGGCAACGAGCWatanabe et al., 2007
Ar1378R **TGTGCAAGGAGCAGGGACWatanabe et al., 2007
A751FCCGACGGTGAGRGRYGAABaker et al., 2003
SSU1492RngsCGGNTACCTTGTKACGACBahram et al., 2018
SSU280ArRTCAGWNYCCNWCTCSRGGBahram et al., 2018
SSU470RDCNGCNGGTDTTACCGCGBahram et al., 2018
SSU468RGNDCNGCNGGTDTTACCGBahram et al., 2018
A519RGGTDTTACCGCGGCKGCTGWang and Qian, 2009
SSU666ArRHGCYTTCGCCACHGGTRGBahram et al., 2018
SSU1000ArRGGCCATGCAMYWCCTCTCBahram et al., 2018
UA1204RTTMGGGGCATRCIKACCTBaker et al., 2003

* Праймеры 341F и 785R используются в протоколе подготовки библиотеки для секвенирования ампликонов участков V3–V4 генов 16S рРНК на приборе Illumina MiSeq.

** Исходное название праймера Ar1378R — 1378R. Мы изменили название, чтобы избежать путаницы.

Поиск данных в базе данных RiboGrove

RiboGrove — очень минималистичная база данных: она представляет собой несколько файлов в формате fasta, а также метаданные. Поэтому, расширенные средства поиска для неё недоступны. Мы признаём эту проблему и оставляем рекомендации по поиску данных в RiboGrove. Рекомендации помогут вам изучать и делать выборки данных из БД RiboGrove.

Формат fasta-заголовка

Fasta-файлы, составляющие базу данных RiboGrove имеют следующий формат заголовка:

>GCF_000978375.1:NZ_CP009686.1:8908-10459:plus ;d__Bacteria;k__Bacillati;p__Bacillota;c__Bacilli;o__Bacillales;f__Bacillaceae;g__Bacillus;s__cereus; category:1

Основные части заголовка отделены друг от друга пробелами. Заголовок состоит из трёх таких частей:

  1. Идентификатор последовательности (seqID): GCF_000978375.1:NZ_CP009686.1:8908-10459:plus. SeqID, в свою очередь, состоит из четырёх частей, отделённых друг от друга двоеточиями (:):
    1. Код доступа сборки генома, которому принадлежит последовательность гена: GCF_000978375.1.
    2. Код доступа геномной последовательности из БД RefSeq, которой принадлежит последовательность гена: NZ_CP009686.1.
    3. Координаты гена в пределах геномной последовательности из RefSeq: 8908-10459 (отсчёт координат начинается с единицы, правая и левая координаты включены в интервал).
    4. Знак цепи геномной последовательности из RefSeq, на которой расположен ген: plus (либо minus).
  2. Строка таксономии, а именно названия домена (Bacteria), царства (Bacillati), отдела (Bacillota), класса (Bacilli), порядка (Bacillales), семейства (Bacillaceae) и рода (Bacillus), а также видовой эпитет (cereus).
    Перед каждым названием пишется префикс, который обозначает ранг: d__ для домена, k__ для царства, p__ для отдела, c__ для класса, o__ для порядка, f__ для семейства, g__ для рода и s__ для видового эпитета. В префиксах после буквы пишутся два знака нижнего подчёркивания.
    Названия разделены и окружены точками с запятой (;).
  3. Категория генома, и которого происходит ген: (category:1).

Выборка последовательностей

Отбирать последовательности из fasta-файлов можно с помощью программы Seqkit (ГитХаб-репозиторий, документация). Это бесплатная, кроссплатформенная, многофункциональная и весьма шустрая программа; она может обрабатывать gzipʼнутые и простые fasta-файлы. Для выборки данных из fasta-файлов удобно использовать программы seqkit grep и seqkit seq.

Выборка последовательностей по заголовку

Пусть мы делаем выборку из файла ribogrove_6.212_sequences.fasta.gz. Полезными могут быть следующие примеры команд для выборки последовательностей с помощью seqkit grep:

Пример 1. Выбрать индивидуальную последовательность по идентификатору (seqID).

seqkit grep -p "GCF_000978375.1:NZ_CP009686.1:8908-10459:plus" ribogrove_26.232_sequences.fasta.gz

Опция -p задаёт строку, которую программа будет искать в fasta-заголовках (на самом дела, только в той части заголовков, в которой записан seqID).

Пример 2. Выбрать все последовательности генов, которые происходят из индивидуальной геномной последовательности из БД RefSeq, по коду доступа геномной последовательности NZ_CP009686.1.

seqkit grep -nrp ":NZ_CP009686.1:" ribogrove_26.232_sequences.fasta.gz

Тут, нужно указывать ещё две опции: -n и -r. Первая указывает программе, что ей следует искать вхождение строки-запроса в заголовках целиком, а не только в seqID. Вторая опция указывает программе, что ей следует искать не только полные совпадения (строка-запрос идентична полному заголовку), но и частичные (когда строка-запрос является подстрокой заголовка).

Чтобы обеспечить специфичность поиска, окружайте код доступа двоеточиями (:).

Пример 3. Выбрать все последовательности генов индивидуального генома (код доступа геномной сборки GCF_019357495.1).

seqkit grep -nrp "GCF_019357495.1:" ribogrove_26.232_sequences.fasta.gz

Чтобы обеспечить специфичность поиска, пишите двоеточие (:) после кода доступа сборки.

Пример 4. Выбрать все последовательности генов актинобактерий.

seqkit grep -nrp ";p__Actinobacteria;" ribogrove_26.232_sequences.fasta.gz

Чтобы обеспечить специфичность поиска, стоит окружать названия таксонов точками с запятой (;).

Пример 5. Выбрать все последовательности генов, которые происходят из геномов 1-й категории.

seqkit grep -nrp "category:1" ribogrove_26.232_sequences.fasta.gz

Пример 6. Выбрать все последовательности генов, кроме тех, которые принадлежат фирмикутам.

seqkit grep -nvrp ";p__Bacillota;" ribogrove_26.232_sequences.fasta.gz

Обратите внимание на опцию -v внутри строки с опциями (-nvrp). Эта опция инвертирует поведение программы, и теперь она находит только те последовательности, в заголовках которых нет подстроки «;p__Bacillota;».

Выборка последовательностей по длине

Отбирать последовательности по длине можно с помощью программы seqkit seq.

Пример 1. Выбрать все последовательности длиннее 1600 п.н.

seqkit seq -m 1601 ribogrove_26.232_sequences.fasta.gz

Опция -m указывает программе минимальную длину последовательности, которую программа подаст на выход.

Пример 2. Выбрать все последовательности короче 1500 п.н.

seqkit seq -M 1499 ribogrove_26.232_sequences.fasta.gz

Опция -M указывает программе максимальную длину последовательности, которую программа подаст на выход.

Пример 3. Выбрать все последовательности, длина которых находится в промежутке [1500, 1600] п.н.

seqkit seq -m 1500 -M 1600 ribogrove_26.232_sequences.fasta.gz

Извлечение информации из заголовков последовательностей

Это можно сделать с помощью программы seqkit seq.

Пример 1. Выбрать все заголовки.

seqkit seq -n ribogrove_26.232_sequences.fasta.gz

Опция -n указывает программе подавать на выход только fasta-заголовки.

Пример 2. Выбрать все идентификаторы последовательностей (части заголовков до первого пробела).

seqkit seq -ni ribogrove_26.232_sequences.fasta.gz

Опция -i указывает программе подавать на выход только идентификаторы последовательностей.

Пример 3. Выбрать все коды доступа геномных последовательностей из базы данных RefSeq.

seqkit seq -ni ribogrove_26.232_sequences.fasta.gz | cut -f2 -d':' | sort | uniq

Такая команда сработает успешно, если в вашей системе установлены программы cut, sort и uniq (в системах Linux и Mac OS эти программы обычно предустановлены).

Пример 4. Выбрать все коды доступа геномных сборок.

seqkit seq -ni ribogrove_26.232_sequences.fasta.gz | cut -f1 -d':' | sort | uniq

Такая команда сработает успешно, если в вашей системе установлены программы cut, sed, sort и uniq (в системах Linux и Mac OS эти программы обычно предустановлены).

Пример 5. Выбрать все названия отделов организмов.

seqkit seq -n ribogrove_26.232_sequences.fasta.gz | grep -Eo ';p__[^;]+' | sed -E 's/;|p__//g' | sort | uniq

Такая команда сработает успешно, если в вашей системе установлены программы grep, sed, sort и uniq (в системах Linux и Mac OS эти программы обычно предустановлены).


Контакты

Если у вас есть вопрос про RiboGrove, пожалуйста, обращайтесь к Максиму Сиколенко на эл. адрес sikolenko[ at ]mbio.bas-net.by или maximdeynonih[ at ]gmail.com.


Цитирование RiboGrove

Если RiboGrove была полезна вам в вашей работе, пожалуйста, цитируйте следующую публикацию:

Maxim A. Sikolenko, Leonid N. Valentovich. “RiboGrove: a database of full-length prokaryotic 16S rRNA genes derived from completely assembled genomes” // Research in Microbiology, Volume 173, Issue 4, May 2022, 103936.
(ЦИО: 10.1016/j.resmic.2022.103936).


Вопросы, которые возникают у людей про RiboGrove

1. Как создать файл с таксономией, с которым смогли бы работать программы из пакета QIIME2?

Для этого вы можете воспользоваться скриптом make_qiime_taxonomy_file.py: он трансформирует файл metadata/taxonomy.tsv в файл, с которым смогут работать программы из QIIME2. Справку-руководство для этого скрипта можете найти в соответствующем файле README.


2. Как сохранить в файл данные, отобранные с помощью Seqkit?

В соответствующей дискуссии на форуме уже дали несколько полезных ответов и рекомендаций: https://bioinformatics.stackexchange.com/questions/20915/how-do-i-save-selected-sequences-in-seqkit-to-a-file.


3. Как найти нужные записи в fasta-файле по последовательности с помощью Seqkit?

В соответствующей дискуссии на форуме уже дали несколько полезных ответов и рекомендаций: https://www.biostars.org/p/9561418.



RiboGrove, 15.09.2025