🌐 English / Беларуская / Українська / Русский

Основной сайт, где мы размещаем базу данных RiboGrove, может быть недоступен за пределами Беларуси из-за технических бед и беды вообще.
Поэтому мы создали это зеркало, а файлы RiboGrove доступны через Дропбокс (ссылки ниже).




Содержание


Что такое RiboGrove

RiboGrove — это база данных последовательностей генов 16S рРНК бактерий и архей.

RiboGrove основывается на базе данных RefSeq. RiboGrove содержит только полноразмерные последовательности генов 16S рРНК, а сами последовательности взяты из полностью собранных геномов прокариот, депонированных в RefSeq. Поэтому мы постулируем высокую надёжность последовательностей, содержащихся в RiboGrove.

RiboGrove и другие базы данных 16S рРНК

Таблица ниже показывает, чем (качественно) RiboGrove отличается от схожих баз данных последовательностей РНК, а именно rrnDB, Silva, RDP и Greengenes. Говоря коротко, RiboGrove уступает аналогам по количеству последовательностей и их разнообразию, но превосходит по достоверности последовательностей.

RiboGroverrnDBSilvaRDPGreengenes
Представленные организмыБактерии
Археи
Бактерии
Археи
Бактерии
Археи
Эукариоты
Бактерии
Археи
Эукариоты
Бактерии
Археи
Представленные субъединицы рибосомМалаяМалаяБольшая
Малая
Большая
Малая
Малая
Содержит последовательности собранных геномовДаДаДаДаДа
Содержит последовательности ампликоновНетНетДаДаДа
Содержит неполные последовательности геновНетДаДаДаДа
Различает категории геномовДаНетКритерий
неприменим
Критерий
неприменим
Критерий
неприменим

Категории геномов

Все геномы, из которых брались данные для создания RiboGrove, были разделены на три категории по их достоверности:

  1. Категория 1 (наибольшая достоверность). Геномы, которые не демонстрируют признаков низкокачественной сборки и которые были секвенированы с помощью технологии PacBio либо комбинации (Oxford Nanopore + Illumina).
  2. Категория 2. Геномы, которые не демонстрируют признаков низкокачественной сборки, секвенированные с помощью любой другой технологии (либо те, для которых технология секвенирования не была указана).
  3. Категория 3 (наименьшая достоверность). Геномы, которые демонстрируют хотя бы один признак низкокачественной сборки.

Признаки низкокачественной сборки:


Программы, с помощью которых RiboGrove была создана, доступны в репозитории на ГитХабе: ribogrove-tools.


Файлы

Актуальный выпуск RiboGrove — 24.230 (2025-05-08)

Выпуск RiboGrove 24.230 основан на данных, полученных из базы данных RefSeq версии 230.

Fasta-файл сжат с помощью программы gzip, а метаданные — с помощью программы zip. Чтобы разархивировать их, пользователи Linux и Mac OS могут воспользоваться программами gzip и zip, соответственно; эти программы должны быть предустановлены. Пользователи же Windows могут воспользоваться бесплатной программой 7-Zip.

Архив выпусков RiboGrove

Вы можете найти все выпуски RiboGrove в архиве выпусков RiboGrove.

Комментарии к выпуску

Нет принципиальных отличий от предыдущего выпуска.

Комментарии ко всем выпускам RiboGrove можно найти на странице комментариев к выпускам.


Статистическое описание

Размер базы данных RiboGrove
БактерииАрхеиВсего
Количество последовательностей генов 268 758 1 076 269 834
Количество уникальных последовательностей генов 64 436 759 65 195
Количество видов 12 338 492 12 830
Количество геномов 48 707 616 49 323
Количество геномов 1-й категории 32 507 250 32 757
Количество геномов 2-й категории 15 934 366 16 300
Количество геномов 3-й категории 266 0 266
Длина генов 16S рРНК
БактерииАрхеи
Минимум, п.н. 1 401,00 1 439,00
25-й перцентиль, п.н. * 1 517,00 1 471,00
Медиана, п.н. * 1 529,00 1 473,50
75-й перцентиль, п.н. * 1 542,00 1 483,00
Средняя длина, п.н. * 1 526,85 1 491,31
Мода, п.н. * 1 537,00 1 472,00
Максимальная длина, п.н. 2 438,00 3 604,00
Среднеквадратическое отклонение, п.н. * 25,10 121,54

* Метрики, помеченные звёздочкой, были рассчитаны с предварительной нормализацией данных, а именно: медианные значения длины внутри каждого вида использовались для расчёта этих метрик.

Число копий генов 16S рРНК
Число копий *БактерииАрхеи
Количество видовПроцент видов, %Количество видовПроцент видов, %
1 1 575 12,77 245 49,80
2 2 126 17,23 149 30,28
3 1 694 13,73 74 15,04
4 1 486 12,04 18 3,66
5 934 7,57 6 1,22
6 1 599 12,96 0 0,00
7 1 131 9,17 0 0,00
8 649 5,26 0 0,00
9 324 2,63 0 0,00
10 312 2,53 0 0,00
11 156 1,26 0 0,00
12 137 1,11 0 0,00
13 56 0,45 0 0,00
14 86 0,70 0 0,00
15 26 0,21 0 0,00
16 12 0,10 0 0,00
17 12 0,10 0 0,00
18 6 0,05 0 0,00
19 2 0,02 0 0,00
20 9 0,07 0 0,00
21 1 0,01 0 0,00
22 1 0,01 0 0,00
24 1 0,01 0 0,00
25 1 0,01 0 0,00
27 1 0,01 0 0,00
37 1 0,01 0 0,00

* Медианное число копий в пределах вида.

Топ-10 самых длинных генов 16S рРНК
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Бактерии
Thermus thermophilus AA2-2 2 438 GCF_019974355.1:NZ_AP024929.1:249100-251537:minus GCF_019974355.1
Ca. Annandia pinicola Ad13-065 1 887 GCF_020541245.1:NZ_CP045876.1:290071-291957:minus GCF_020541245.1
Thermoanaerobacter ethanolicus JW 200 1 812 GCF_003722315.1:NZ_CP033580.1:456062-457873:plus GCF_003722315.1
Nitrosophilus labii HRV44 1 806 GCF_014466985.1:NZ_AP022826.1:1258017-1259822:minus
GCF_014466985.1:NZ_AP022826.1:1532588-1534393:minus
GCF_014466985.1:NZ_AP022826.1:1939914-1941719:minus
GCF_014466985.1
Sporomusa rhizae DSM 16652 1 802 GCF_041428845.1:NZ_CP156925.1:3123180-3124981:minus GCF_041428845.1
Gelria sp. Kuro-4 1 788 GCF_019668485.1:NZ_AP024619.1:2016182-2017969:minus GCF_019668485.1
Helicobacter mastomyrinus Hm-17 1 785 GCF_039555295.1:NZ_CP145316.1:765140-766924:minus GCF_039555295.1
Thermoanaerobacter brockii Ako-1 1 781 GCF_000175295.2:NC_014964.1:2252888-2254668:minus GCF_000175295.2
Thermoanaerobacter pseudethanolicus
ATCC 33223
1 781 GCF_000019085.1:NC_010321.1:2265744-2267524:minus GCF_000019085.1
Thermoanaerobacter sp. RKWS2 1 754 GCF_026240795.1:NZ_CP110888.1:94012-95765:plus GCF_026240795.1
Археи
Pyrobaculum ferrireducens 1860 3 604 GCF_000234805.1:NC_016645.1:127214-130817:plus GCF_000234805.1
Pyrobaculum aerophilum IM2 2 213 GCF_000007225.1:NC_003364.1:1089640-1091852:plus GCF_000007225.1
Pyrobaculum arsenaticum DSM 13514 2 212 GCF_000016385.1:NC_009376.1:623323-625534:minus GCF_000016385.1
Aeropyrum pernix K1 2 202 GCF_000011125.1:NC_000854.2:1218712-1220913:minus GCF_000011125.1
Pyrobaculum neutrophilum V24Sta 2 197 GCF_000019805.1:NC_010525.1:690419-692615:plus GCF_000019805.1
Ca. Mancarchaeum acidiphilum Mia14 2 008 GCF_002214165.1:NZ_CP019964.1:751297-753304:minus GCF_002214165.1
Ca. Micrarchaeum sp. A_DKE 2 003 GCF_016806735.1:NZ_CP060530.1:203642-205644:minus GCF_016806735.1
Caldivirga maquilingensis IC-167 1 679 GCF_000018305.1:NC_009954.1:129150-130828:minus GCF_000018305.1
Aeropyrum camini SY1 1 650 GCF_000591035.1:NC_022521.1:1165168-1166817:minus GCF_000591035.1
Pyrolobus fumarii 1A 1 576 GCF_000223395.1:NC_015931.1:84671-86246:minus GCF_000223395.1

* SeqID — это идентификатор последовательности RiboGrove.

Топ-10 самых коротких генов 16S рРНК
ОрганизмДлина гена, п.н.SeqID *Код доступа
геномной сборки
Бактерии
Anabaena sp. YBS01 1 401 GCF_009498015.1:NZ_CP034058.1:6920299-6921699:minus GCF_009498015.1
Clostridioides difficile TW11 1 426 GCF_009362915.1:NZ_CP045224.1:4068440-4069865:minus GCF_009362915.1
Staphylococcus warneri TWSL_1 1 440 GCF_032147125.1:NZ_CP135051.1:2625669-2627108:plus GCF_032147125.1
Roseicitreum antarcticum ZS2-28 1 447 GCF_014681765.1:NZ_CP061498.1:3436150-3437596:plus GCF_014681765.1
Hirschia baltica ATCC 49814 1 448 GCF_000023785.1:NC_012982.1:2336679-2338126:minus GCF_000023785.1
Sagittula sp. P11 1 449 GCF_002814095.1:NZ_CP021913.1:3597920-3599368:plus
GCF_002814095.1:NZ_CP021913.1:2386837-2388285:plus
GCF_002814095.1
Mameliella sp. 1 449 GCF_965212485.1:NZ_OZ243118.1:780420-781868:minus
GCF_965212485.1:NZ_OZ243118.1:3042962-3044410:plus
GCF_965212485.1:NZ_OZ243118.1:4611080-4612528:minus
GCF_965212485.1
Mameliella sp. 1 449 GCF_965249415.1:NZ_OZ252233.1:702863-704311:plus
GCF_965249415.1:NZ_OZ252233.1:1895495-1896943:plus
GCF_965249415.1:NZ_OZ252233.1:3463560-3465008:minus
GCF_965249415.1
Sagittula sp. MA-2 1 449 GCF_030126985.1:NZ_CP126145.1:439-1887:plus
GCF_030126985.1:NZ_CP126145.1:2907211-2908659:minus
GCF_030126985.1
Sagittula stellata E-37 1 449 GCF_039724765.1:NZ_CP155729.1:664616-666064:plus
GCF_039724765.1:NZ_CP155729.1:1804792-1806240:plus
GCF_039724765.1
Mameliella alba KU6B 1 449 GCF_011405015.1:NZ_AP022337.1:1420943-1422391:plus
GCF_011405015.1:NZ_AP022337.1:3191212-3192660:minus
GCF_011405015.1:NZ_AP022337.1:267140-268588:plus
GCF_011405015.1
Археи
Ignicoccus hospitalis KIN4/I 1 439 GCF_000017945.1:NC_009776.1:728362-729800:plus GCF_000017945.1
Methanocaldococcus lauensis SG7 1 457 GCF_902827225.1:NZ_LR792632.1:542755-544211:plus GCF_902827225.1
Halorubrum sp. BOL3-1 1 463 GCF_004114375.1:NZ_CP034692.1:397753-399215:minus GCF_004114375.1
Salinirubellus litoreus SYNS196 1 466 GCF_037335815.1:NZ_CP147841.1:597195-598660:minus GCF_037335815.1
Natronomonas marina ZY43 1 466 GCF_024298905.1:NZ_CP101154.1:18680-20145:plus GCF_024298905.1
Natronomonas gomsonensis KCTC 4088 1 466 GCF_024300825.1:NZ_CP101323.1:2500564-2502029:plus GCF_024300825.1
Ca. Methanomethylophilus alvi Mx1201 1 466 GCF_000300255.2:NC_020913.1:283607-285072:plus GCF_000300255.2
Salinirubellus salinus ZS-35-S2 1 466 GCF_025231485.1:NZ_CP104003.1:3070232-3071697:plus GCF_025231485.1
Methanomethylophilus alvi
MGYG-HGUT-02456
1 466 GCF_902387285.1:NZ_LR699000.1:283607-285072:plus GCF_902387285.1
Methanospirillum purgamenti
J.3.6.1-F.2.7.3
1 466 GCF_018502485.1:NZ_CP075546.1:133354-134819:plus
GCF_018502485.1:NZ_CP075546.1:825954-827419:plus
GCF_018502485.1:NZ_CP075546.1:872641-874106:plus
GCF_018502485.1:NZ_CP075546.1:1727419-1728884:plus
GCF_018502485.1
Methanospirillum stamsii Pt1 1 466 GCF_046244385.1:NZ_CP176366.1:1311724-1313189:plus
GCF_046244385.1:NZ_CP176366.1:2035802-2037267:plus
GCF_046244385.1:NZ_CP176366.1:2042927-2044392:plus
GCF_046244385.1:NZ_CP176366.1:3625347-3626812:minus
GCF_046244385.1
Methanomethylophilus alvi Mx-05 1 466 GCF_003711245.1:NZ_CP017686.1:283608-285073:plus GCF_003711245.1
Natronomonas halophila C90 1 466 GCF_013391085.1:NZ_CP058334.1:1530622-1532087:minus GCF_013391085.1
Methanospirillum purgamenti GP1 1 466 GCF_019263745.1:NZ_CP077107.1:4649-6114:plus
GCF_019263745.1:NZ_CP077107.1:1359562-1361027:minus
GCF_019263745.1:NZ_CP077107.1:1365502-1366967:minus
GCF_019263745.1:NZ_CP077107.1:1986020-1987485:minus
GCF_019263745.1
Methanospirillum hungatei JF-1 1 466 GCF_000013445.1:NC_007796.1:39814-41279:plus
GCF_000013445.1:NC_007796.1:1301079-1302544:minus
GCF_000013445.1:NC_007796.1:3501525-3502990:minus
GCF_000013445.1:NC_007796.1:3507609-3509074:minus
GCF_000013445.1

* SeqID — это идентификатор последовательности RiboGrove.

Tоп-10 геномов с наибольшим числом копий генов 16S рРНК
ОрганизмЧисло копийКод доступа
геномной сборки
Бактерии
Tumebacillus avium AR23208 37 GCF_002162355.1
Tumebacillus algifaecis THMBR28 27 GCF_002243515.1
Photobacterium piscicola WVL24019 25 GCF_046058925.1
Photobacterium phosphoreum MIP2473 24 GCF_949787665.1
Mesobacillus maritimus ADH-29 22 GCF_044803185.1
Photobacterium damselae Pdd1411 21 GCF_030168855.1
Photobacterium damselae Phdp Wu-1 21 GCF_003130755.1
Photobacterium leiognathi Sr3.10 21 GCF_048537505.1
Aneurinibacillus sp. Ricciae_BoGa-3 21 GCF_028421645.1
Photobacterium leiognathi Sr3.21 21 GCF_048537525.1
Peribacillus asahii KF4 21 GCF_023823975.1
Археи
Natronorubrum aibiense 7-3 5 GCF_009392895.1
Methanococcoides orientis LMO-1 5 GCF_021184045.1
Natrinema sp. SYSU A 869 5 GCF_019879105.1
Methanolobus sp. ZRKC3 5 GCF_045291275.1
Natronorubrum bangense JCM 10635 5 GCF_004799645.1
Methanoplanus endosymbiosus DSM 3599 5 GCF_024662215.1
Halomicrobium urmianum IBRC-M: 10911 4 GCF_020217425.1
Halomicrobium salinisoli LT50 4 GCF_020405185.1
Halomicrobium salinisoli TH30 4 GCF_020405245.1
Methanospirillum purgamenti J.3.6.1-F.2.7.3 4 GCF_018502485.1
Haloarcula sinaiiensis ATCC 33800 4 GCF_018200015.1
Haloterrigena salifodinae BOL5-1 4 GCF_016906025.1
Methanolobus sediminis FTZ6 4 GCF_031312595.1
Methanogenium sp. S4BF 4 GCF_029633965.1
Methanospirillum hungatei JF-1 4 GCF_000013445.1
Natronococcus occultus SP4 4 GCF_000328685.1
Methanosphaera stadtmanae
MGYG-HGUT-02164
4 GCF_902384015.1
Methanolobus sp. WCC4 4 GCF_038022665.1
Methanochimaera problematica FWC-SCC4 4 GCF_032878975.1
Methanolobus mangrovi FTZ2 4 GCF_031312535.1
Methanococcus vannielii SB 4 GCF_000017165.1
Methanospirillum lacunae Ki8-1 4 GCF_046195335.1
Methanosphaera stadtmanae DSM 3091 4 GCF_000012545.1
Methanospirillum purgamenti GP1 4 GCF_019263745.1
Natrinema thermotolerans A29 4 GCF_031165565.1
Methanospirillum stamsii Pt1 4 GCF_046244385.1
Methanogenium organophilum DSM 3596 4 GCF_026684035.1
Tоп-10 геномов с наибольшей внутригеномной изменчивостью генов 16S рРНК
ОрганизмСумма энтропии *, битыСредняя энтропия *, битыКоличество изменчивых позицийЧисло копий геновКод доступа
геномной сборки
Бактерии
Clostridium perfringens A SNU21005 780,95 0,41 1 171 9 GCF_047150065.1
Escherichia coli P276M 433,81 0,26 569 6 GCF_009762385.1
Listeria monocytogenes
10-092876-1155 LM6
357,10 0,20 370 3 GCF_001999045.1
Klebsiella pneumoniae GZ-1 304,27 0,18 464 8 GCF_014854815.1
Streptococcus infantis SO 291,50 0,18 308 3 GCF_021497965.1
Synechococcus sp. NB0720_010 243,35 0,16 265 3 GCF_023078835.1
Streptomyces griseorubiginosus
NBC_00586
231,55 0,15 342 6 GCF_036345135.1
Caminibacter mediatlanticus TB-2 228,78 0,15 282 4 GCF_005843985.1
Xanthomonas oryzae YNCX 227,74 0,15 248 3 GCF_024499285.1
Sporomusa termitida DSM 4440 226,25 0,13 247 12 GCF_007641255.1
Археи
Halomicrobium sp. ZPS1 ** 137,00 0,09 137 2 GCF_009217585.1
Halomicrobium urmianum
IBRC-M: 10911
131,55 0,09 146 4 GCF_020217425.1
Halapricum desulfuricans HSR12-2 128,00 0,09 128 2 GCF_017094525.1
Halomicrobium salinisoli TH30 127,74 0,09 145 4 GCF_020405245.1
Halapricum desulfuricans HSR-Bgl 127,00 0,09 127 2 GCF_017094445.1
Halomicrobium mukohataei JP60 125,81 0,09 137 3 GCF_004803735.1
Halomicrobium sp. HM KBTZ05 124,38 0,08 134 3 GCF_041530035.1
Halomicrobium salinisoli LT50 123,31 0,08 140 4 GCF_020405185.1
Halapricum desulfuricans HSR-Est 111,00 0,08 111 2 GCF_017094465.1
Halapricum desulfuricans HSR12-1 109,00 0,07 109 2 GCF_017094505.1

* Энтропия в данном случае — это энтропия Шеннона, вычисленная для каждого столбца множественного выравнивания полноразмерных последовательностей генов 16S рРНК индивидуального генома. Вычисленная энтропия далее суммировалась (столбец «Сумма энтропии») или усреднялась (столбец «Средняя энтропия»).

** Halomicrobium sp. ZPS1 — показательный случай. В этом геноме два гена 16S рРНК, поэтому энтропия равна количеству нуклеотидов, которые не совпадают в их последовательностях. Вычислив процент идентичности (сокращённо ПИ) последовательностей этих двух генов, получим 90,70%! Напомним, что за порог ПИ последовательностей генов 16S рРНК для отнесения организмов да отдельных родов обычно принимают (впрочем, произвольно) значение 95%.


Спектр действия* пар праймеров к разным V-участкам бактериальных генов 16S рРНК

* Спектр действия пары праймеров — это процент геномов, которые содержат как минимум один ген 16S рРНК, который возможно амплифицировать с помощью ПЦР используя эту пару праймеров. Подробности описаны в нашей статье про RiboGrove.

В таблицах ниже можно найти спектры действия пар праймеров, которые обычно используются для амплификации бактериальных и архейных генов 16S рРНК („бактериальные“ и „архейные“ праймеры).

Есть более подробная таблица — в файле primer_pair_genomic_coverage.tsv в метаданных metadata. Та таблица содержит спектры действия не только для отделов (phyla), но и для каждого класса, порядка, семейства, рода и вида. Кроме того, та таблица содержит спектры действия для дополнительных пар праймеров, а именно: 1115F-1492R, 349f-519r, 1106F-Ar1378R, 1106F-SSU1492Rngs, SSU1ArF-SSU468R, SSU1ArF-SSU520R. В таблицах ниже нет этих пар, чтобы таблицы не были слишком громоздкими.

Бактерияльные гены, „бактерияльные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Pseudomonadota 26 698 99,70 99,50 99,68 99,93 84,03 99,89 84,10 88,96 88,65 93,47 92,52 96,43
Bacillota 11 206 99,83 99,75 99,79 99,93 95,23 99,97 95,10 99,46 98,08 97,50 98,63 99,37
Actinomycetota 4 976 99,90 99,14 99,72 94,82 67,02 94,61 66,78 96,91 99,76 99,84 99,84 96,93
Bacteroidota 1 681 96,43 96,07 96,55 99,94 64,78 99,41 64,37 37,89 38,01 92,44 91,97 95,48
Campylobacterota 1 314 100,00 100,00 100,00 100,00 100,00 99,92 99,92 99,92 99,47 99,47 99,70 99,54
Mycoplasmatota 751 90,28 83,89 72,30 98,93 91,21 99,07 91,61 74,43 48,34 42,74 76,43 0,67
Spirochaetota 398 54,27 54,77 54,77 93,22 99,75 93,22 99,75 99,75 75,38 75,38 90,20 43,47
Cyanobacteriota 370 99,73 99,73 99,73 100,00 3,78 100,00 3,78 100,00 1,08 1,08 100,00 99,73
Chlamydiota 234 0,00 0,00 0,00 100,00 100,00 0,00 0,00 0,00 100,00 100,00 100,00 94,44
Fusobacteriota 229 100,00 98,69 99,56 99,56 99,56 99,56 99,56 99,56 99,56 99,56 100,00 0,00
Thermodesulfobacteriota 147 100,00 99,32 100,00 100,00 41,50 100,00 41,50 100,00 95,24 91,16 95,92 99,32
Verrucomicrobiota 140 99,29 0,00 99,29 100,00 12,86 100,00 12,86 100,00 1,43 1,43 98,57 98,57
Deinococcota 97 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 52,58 100,00
Planctomycetota 72 100,00 25,00 100,00 100,00 62,50 100,00 62,50 0,00 0,00 0,00 2,78 0,00
Myxococcota 65 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chloroflexota 52 100,00 92,31 100,00 42,31 0,00 94,23 0,00 90,38 11,54 11,54 94,23 26,92
Bdellovibrionota 44 100,00 100,00 100,00 100,00 77,27 100,00 77,27 100,00 100,00 100,00 100,00 100,00
Thermotogota 44 100,00 97,73 100,00 100,00 9,09 100,00 9,09 100,00 0,00 0,00 59,09 97,73
Acidobacteriota 43 97,67 97,67 97,67 100,00 100,00 100,00 100,00 100,00 72,09 58,14 86,05 100,00
Aquificota 18 100,00 16,67 100,00 100,00 16,67 100,00 16,67 100,00 0,00 0,00 0,00 16,67
Rhodothermota 16 43,75 43,75 43,75 100,00 100,00 100,00 100,00 81,25 81,25 100,00 100,00 100,00
Chlorobiota 15 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 100,00 93,33 86,67 6,67
Nitrospirota 15 100,00 100,00 100,00 100,00 73,33 100,00 73,33 100,00 100,00 73,33 73,33 100,00
Ca. Saccharibacteria 12 100,00 100,00 100,00 100,00 8,33 8,33 8,33 8,33 0,00 0,00 100,00 100,00
Gemmatimonadota 12 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Synergistota 10 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 100,00
Deferribacterota 6 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Elusimicrobiota 5 100,00 60,00 100,00 100,00 0,00 100,00 0,00 100,00 60,00 60,00 100,00 100,00
Atribacterota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ignavibacteriota 3 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Armatimonadota 2 100,00 50,00 100,00 50,00 50,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermodesulfobiota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00
Thermomicrobiota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 50,00 50,00
Balneolota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Chrysiogenota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Dictyoglomota 2 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 0,00 0,00 100,00 0,00
Fibrobacterota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Kiritimatiellota 2 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Fervidibacterota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Ca. Cloacimonadota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00
Ca. Absconditibacteriota 1 100,00 0,00 100,00 100,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Caldisericota 1 100,00 100,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 100,00
Ca. Omnitrophota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Ca. Paceibacterota 1 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Vulcanimicrobiota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Thermosulfidibacterota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Nitrospinota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00
Fidelibacterota 1 100,00 100,00 100,00 100,00 0,00 100,00 0,00 100,00 100,00 100,00 100,00 100,00
Coprothermobacterota 1 0,00 0,00 0,00 100,00 100,00 100,00 100,00 0,00 0,00 0,00 100,00 0,00

Архейные гены, „архейные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Methanobacteriota 452 89,16 86,95 89,38 89,16 51,55 50,66 100,00 99,34 100,00 100,00 99,56 89,60
Thermoproteota 107 96,26 98,13 100,00 100,00 72,90 98,13 100,00 69,16 93,46 100,00 99,07 98,13
Nitrososphaerota 30 96,67 96,67 96,67 96,67 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Thermoplasmatota 19 84,21 68,42 100,00 100,00 42,11 42,11 100,00 63,16 84,21 100,00 100,00 52,63
Ca. Nanohalarchaeota 4 0,00 25,00 0,00 100,00 0,00 0,00 100,00 50,00 100,00 100,00 100,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Nanobdellota 1 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Promethearchaeota 1 100,00 100,00 100,00 100,00 100,00 100,00 100,00 0,00 0,00 100,00 100,00 100,00

Бактериальные гены, „архейные“ праймеры
Бактериальные гены, „архейные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V1–V3 V3–V4 V3–V4 V3–V4 V3–V5 V3–V5 V4 V4–V5 V5–V7
SSU1ArF–
SSU1492Rngs
(%)
SSU1ArF–
SSU280ArR
(%)
SSU1ArF–
SSU470R
(%)
SSU1ArF–
A519R
(%)
349f–
SSU666ArR
(%)
340f–
SSU666ArR
(%)
340f–
806rB
(%)
349f–
SSU1000ArR
(%)
340f–
SSU1000ArR
(%)
515fB–
806rB
(%)
Parch519f–
Arch915r
(%)
A751F–
UA1204R
(%)
Pseudomonadota 26 698 1,22 0,03 0,55 0,58 0,00 0,00 0,09 0,00 0,00 99,89 28,03 0,00
Bacillota 11 206 2,54 0,05 0,13 1,45 0,02 0,00 0,06 0,01 0,00 99,97 98,42 0,00
Actinomycetota 4 976 0,94 0,24 0,74 1,21 0,00 0,00 0,04 0,00 0,00 94,61 87,64 0,00
Bacteroidota 1 681 1,90 0,00 1,84 1,96 0,00 0,00 0,18 0,00 0,00 99,41 99,29 0,00
Campylobacterota 1 314 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,92 0,15 0,00
Mycoplasmatota 751 2,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,07 78,16 0,00
Spirochaetota 398 0,50 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 93,22 92,96 0,00
Cyanobacteriota 370 2,97 0,00 0,27 0,27 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlamydiota 234 1,71 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Fusobacteriota 229 0,44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 99,56 99,56 0,00
Thermodesulfobacteriota 147 6,12 0,68 1,36 1,36 0,00 0,00 0,00 0,00 0,00 100,00 72,79 0,00
Verrucomicrobiota 140 5,71 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 10,00 0,71
Deinococcota 97 39,18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 96,91 0,00
Planctomycetota 72 1,39 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 81,94 0,00
Myxococcota 65 13,85 7,69 6,15 6,15 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chloroflexota 52 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 94,23 100,00 0,00
Bdellovibrionota 44 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,55 0,00 100,00 27,27 0,00
Thermotogota 44 43,18 0,00 31,82 31,82 0,00 0,00 2,27 0,00 0,00 100,00 100,00 0,00
Acidobacteriota 43 11,63 0,00 0,00 6,98 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Aquificota 18 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 83,33 44,44
Rhodothermota 16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chlorobiota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nitrospirota 15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Saccharibacteria 12 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 8,33 8,33 0,00
Gemmatimonadota 12 0,00 8,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Synergistota 10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Deferribacterota 6 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Elusimicrobiota 5 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Atribacterota 3 33,33 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ignavibacteriota 3 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Armatimonadota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 50,00 0,00
Thermodesulfobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermomicrobiota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Balneolota 2 50,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Chrysiogenota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Dictyoglomota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fibrobacterota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Kiritimatiellota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Fervidibacterota 1 100,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Cloacimonadota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Bipolaricaulota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Ca. Absconditibacteriota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
Calditrichota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Caldisericota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Omnitrophota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Ca. Paceibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Vulcanimicrobiota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Thermosulfidibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Nitrospinota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Lentisphaerota 1 100,00 0,00 100,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Fidelibacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00
Coprothermobacterota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 100,00 0,00

Архейные гены, „бактериальные“ праймеры
Архейные гены, „бактериальные“ праймеры
Отдел Количество
геномов
Full gene V1–V2 V1–V3 V3–V4 V3–V5 V4 V4–V5 V4–V6 V5–V6 V5–V7 V6–V7 V6–V8
27F–
1492R
(%)
27F–
338R
(%)
27F–
534R
(%)
341F–
785R
(%)
341F–
944R
(%)
515F–
806R
(%)
515F–
944R
(%)
515F–
1100R
(%)
784F–
1100R
(%)
784F–
1193R
(%)
939F–
1193R
(%)
939F–
1378R
(%)
Methanobacteriota 452 0,00 0,00 0,00 0,00 0,00 100,00 0,00 82,08 0,00 0,00 0,00 0,00
Thermoproteota 107 0,93 0,00 0,00 0,00 0,00 100,00 0,00 88,79 0,00 0,00 0,00 0,00
Nitrososphaerota 30 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Thermoplasmatota 19 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Nanohalarchaeota 4 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00
Ca. Micrarchaeota 2 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Nanobdellota 1 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Promethearchaeota 1 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00

Праймеры, спектр действия которых оценивался
Праймеры, спектр действия которых оценивался
Название праймераПоследовательностьСсылка
27FAGAGTTTGATYMTGGCTCAGFrank et al., 2008
338RGCTGCCTCCCGTAGGAGTSuzuki et al., 1996
341F *CCTACGGGNGGCWGCAGKlindworth et al., 2013
515FGTGCCAGCMGCCGCGGTAATurner et al., 1999
534RATTACCGCGGCTGCTGGWalker et al., 2015
784FAGGATTAGATACCCTGGTAAndersson et al., 2008
785R *GACTACHVGGGTATCTAATCCKlindworth et al., 2013
806RGGACTACHVGGGTWTCTAATCaporaso et al., 2010
939FGAATTGACGGGGGCCCGCACAAGLebuhn et al., 2014
944RGAATTAAACCACATGCTCFuks et al., 2018
1100RAGGGTTGCGCTCGTTGTurner et al., 1999
1193RACGTCATCCCCACCTTCCBodenhausen et al, 2013
1378RCGGTGTGTACAAGGCCCGGGAACGLebuhn et al., 2014
1492RTACCTTGTTACGACTTFrank et al., 2008
SSU1ArFTCCGGTTGATCCYGCBRGBahram et al., 2018
SSU520RGCTACGRRYGYTTTARRCBahram et al., 2018
340fCCCTAYGGGGYGCASCAGGantner et al., 2011
806rBGGACTACNVGGGTWTCTAATAppril et al., 2015
349fGYGCASCAGKCGMGAAWTakai and Horikoshi, 2000
519rTTACCGCGGCKGCTGKlindworth et al., 2013
515fBGTGYCAGCMGCCGCGGTAAParada et al., 2015
Parch519fCAGCCGCCGCGGTAAOvreås et al., 1997
Arch915rGTGCTCCCCCGCCAATTCCTRaskin et al., 1994
1106FTTWAGTCAGGCAACGAGCWatanabe et al., 2007
Ar1378R **TGTGCAAGGAGCAGGGACWatanabe et al., 2007
A751FCCGACGGTGAGRGRYGAABaker et al., 2003
SSU1492RngsCGGNTACCTTGTKACGACBahram et al., 2018
SSU280ArRTCAGWNYCCNWCTCSRGGBahram et al., 2018
SSU470RDCNGCNGGTDTTACCGCGBahram et al., 2018
SSU468RGNDCNGCNGGTDTTACCGBahram et al., 2018
A519RGGTDTTACCGCGGCKGCTGWang and Qian, 2009
SSU666ArRHGCYTTCGCCACHGGTRGBahram et al., 2018
SSU1000ArRGGCCATGCAMYWCCTCTCBahram et al., 2018
UA1204RTTMGGGGCATRCIKACCTBaker et al., 2003

* Праймеры 341F и 785R используются в протоколе подготовки библиотеки для секвенирования ампликонов участков V3–V4 генов 16S рРНК на приборе Illumina MiSeq.

** Исходное название праймера Ar1378R — 1378R. Мы изменили название, чтобы избежать путаницы.

Поиск данных в базе данных RiboGrove

RiboGrove — очень минималистичная база данных: она представляет собой несколько файлов в формате fasta, а также метаданные. Поэтому, расширенные средства поиска для неё недоступны. Мы признаём эту проблему и оставляем рекомендации по поиску данных в RiboGrove. Рекомендации помогут вам изучать и делать выборки данных из БД RiboGrove.

Формат fasta-заголовка

Fasta-файлы, составляющие базу данных RiboGrove имеют следующий формат заголовка:

>GCF_000978375.1:NZ_CP009686.1:8908-10459:plus ;d__Bacteria;p__Firmicutes;c__Bacilli;o__Bacillales;f__Bacillaceae;g__Bacillus;s__cereus; category:1

Основные части заголовка отделены друг от друга пробелами. Заголовок состоит из трёх таких частей:

  1. Идентификатор последовательности (seqID): GCF_000978375.1:NZ_CP009686.1:8908-10459:plus. SeqID, в свою очередь, состоит из четырёх частей, отделённых друг от друга двоеточиями (:):
    1. Код доступа сборки генома, которому принадлежит последовательность гена: GCF_000978375.1.
    2. Код доступа геномной последовательности из БД RefSeq, которой принадлежит последовательность гена: NZ_CP009686.1.
    3. Координаты гена в пределах геномной последовательности из RefSeq: 8908-10459 (отсчёт координат начинается с единицы, правая и левая координаты включены в интервал).
    4. Знак цепи геномной последовательности из RefSeq, на которой расположен ген: plus (либо minus).
  2. Строка таксономии, а именно названия домена (Bacteria), отдела (Firmicutes), класса (Bacilli), порядка (Bacillales), семейства (Bacillaceae) и рода (Bacillus), а также видовой эпитет (cereus).
    Перед каждым названием пишется префикс, который обозначает ранг: d__ для домена, p__ для отдела, c__ для класса, o__ для порядка, f__ для семейства, g__ для рода и s__ для видового эпитета. В префиксах после буквы пишутся два знака нижнего подчёркивания.
    Названия разделены и окружены точками с запятой (;).
  3. Категория генома, и которого происходит ген: (category:1).

Выборка последовательностей

Отбирать последовательности из fasta-файлов можно с помощью программы Seqkit (ГитХаб-репозиторий, документация). Это бесплатная, кроссплатформенная, многофункциональная и весьма шустрая программа; она может обрабатывать gzipʼнутые и простые fasta-файлы. Для выборки данных из fasta-файлов удобно использовать программы seqkit grep и seqkit seq.

Выборка последовательностей по заголовку

Пусть мы делаем выборку из файла ribogrove_6.212_sequences.fasta.gz. Полезными могут быть следующие примеры команд для выборки последовательностей с помощью seqkit grep:

Пример 1. Выбрать индивидуальную последовательность по идентификатору (seqID).

seqkit grep -p "GCF_000978375.1:NZ_CP009686.1:8908-10459:plus" ribogrove_24.230_sequences.fasta.gz

Опция -p задаёт строку, которую программа будет искать в fasta-заголовках (на самом дела, только в той части заголовков, в которой записан seqID).

Пример 2. Выбрать все последовательности генов, которые происходят из индивидуальной геномной последовательности из БД RefSeq, по коду доступа геномной последовательности NZ_CP009686.1.

seqkit grep -nrp ":NZ_CP009686.1:" ribogrove_24.230_sequences.fasta.gz

Тут, нужно указывать ещё две опции: -n и -r. Первая указывает программе, что ей следует искать вхождение строки-запроса в заголовках целиком, а не только в seqID. Вторая опция указывает программе, что ей следует искать не только полные совпадения (строка-запрос идентична полному заголовку), но и частичные (когда строка-запрос является подстрокой заголовка).

Чтобы обеспечить специфичность поиска, окружайте код доступа двоеточиями (:).

Пример 3. Выбрать все последовательности генов индивидуального генома (код доступа геномной сборки GCF_019357495.1).

seqkit grep -nrp "GCF_019357495.1:" ribogrove_24.230_sequences.fasta.gz

Чтобы обеспечить специфичность поиска, пишите двоеточие (:) после кода доступа сборки.

Пример 4. Выбрать все последовательности генов актинобактерий.

seqkit grep -nrp ";p__Actinobacteria;" ribogrove_24.230_sequences.fasta.gz

Чтобы обеспечить специфичность поиска, стоит окружать названия таксонов точками с запятой (;).

Пример 5. Выбрать все последовательности генов, которые происходят из геномов 1-й категории.

seqkit grep -nrp "category:1" ribogrove_24.230_sequences.fasta.gz

Пример 6. Выбрать все последовательности генов, кроме тех, которые принадлежат фирмикутам.

seqkit grep -nvrp ";p__Firmicutes;" ribogrove_24.230_sequences.fasta.gz

Обратите внимание на опцию -v внутри строки с опциями (-nvrp). Эта опция инвертирует поведение программы, и теперь она находит только те последовательности, в заголовках которых нет подстроки «;p__Firmicutes;».

Выборка последовательностей по длине

Отбирать последовательности по длине можно с помощью программы seqkit seq.

Пример 1. Выбрать все последовательности длиннее 1600 п.н.

seqkit seq -m 1601 ribogrove_24.230_sequences.fasta.gz

Опция -m указывает программе минимальную длину последовательности, которую программа подаст на выход.

Пример 2. Выбрать все последовательности короче 1500 п.н.

seqkit seq -M 1499 ribogrove_24.230_sequences.fasta.gz

Опция -M указывает программе максимальную длину последовательности, которую программа подаст на выход.

Пример 3. Выбрать все последовательности, длина которых находится в промежутке [1500, 1600] п.н.

seqkit seq -m 1500 -M 1600 ribogrove_24.230_sequences.fasta.gz

Извлечение информации из заголовков последовательностей

Это можно сделать с помощью программы seqkit seq.

Пример 1. Выбрать все заголовки.

seqkit seq -n ribogrove_24.230_sequences.fasta.gz

Опция -n указывает программе подавать на выход только fasta-заголовки.

Пример 2. Выбрать все идентификаторы последовательностей (части заголовков до первого пробела).

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz

Опция -i указывает программе подавать на выход только идентификаторы последовательностей.

Пример 3. Выбрать все коды доступа геномных последовательностей из базы данных RefSeq.

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz | cut -f2 -d':' | sort | uniq

Такая команда сработает успешно, если в вашей системе установлены программы cut, sort и uniq (в системах Linux и Mac OS эти программы обычно предустановлены).

Пример 4. Выбрать все коды доступа геномных сборок.

seqkit seq -ni ribogrove_24.230_sequences.fasta.gz | cut -f1 -d':' | sort | uniq

Такая команда сработает успешно, если в вашей системе установлены программы cut, sed, sort и uniq (в системах Linux и Mac OS эти программы обычно предустановлены).

Пример 5. Выбрать все названия отделов организмов.

seqkit seq -n ribogrove_24.230_sequences.fasta.gz | grep -Eo ';p__[^;]+' | sed -E 's/;|p__//g' | sort | uniq

Такая команда сработает успешно, если в вашей системе установлены программы grep, sed, sort и uniq (в системах Linux и Mac OS эти программы обычно предустановлены).


Контакты

Если у вас есть вопрос про RiboGrove, пожалуйста, обращайтесь к Максиму Сиколенко на эл. адрес sikolenko[ at ]mbio.bas-net.by или maximdeynonih[ at ]gmail.com.


Цитирование RiboGrove

Если RiboGrove была полезна вам в вашей работе, пожалуйста, цитируйте следующую публикацию:

Maxim A. Sikolenko, Leonid N. Valentovich. “RiboGrove: a database of full-length prokaryotic 16S rRNA genes derived from completely assembled genomes” // Research in Microbiology, Volume 173, Issue 4, May 2022, 103936.
(ЦИО: 10.1016/j.resmic.2022.103936).


Вопросы, которые возникают у людей про RiboGrove

1. Как создать файл с таксономией, с которым смогли бы работать программы из пакета QIIME2?

Для этого вы можете воспользоваться скриптом make_qiime_taxonomy_file.py: он трансформирует файл metadata/taxonomy.tsv в файл, с которым смогут работать программы из QIIME2. Справку-руководство для этого скрипта можете найти в соответствующем файле README.


2. Как сохранить в файл данные, отобранные с помощью Seqkit?

В соответствующей дискуссии на форуме уже дали несколько полезных ответов и рекомендаций: https://bioinformatics.stackexchange.com/questions/20915/how-do-i-save-selected-sequences-in-seqkit-to-a-file.


3. Как найти нужные записи в fasta-файле по последовательности с помощью Seqkit?

В соответствующей дискуссии на форуме уже дали несколько полезных ответов и рекомендаций: https://www.biostars.org/p/9561418.



RiboGrove, 08.05.2025