박테리아 데이터의 taxonomy classification에 쓰이는 marker gene인 16s rRNA에는 9개의 variable 한 영역이 있다.
이 영역을 활용하여 분류하게 된다. 보통 Gut microbiome의 경우 taxonomy marker gene으로 V4, V3-4를 많이 사용한다.
그렇다면 V1-V9으로 classification 하는 것과 얼마나 큰 차이가 날까? (회사 바이 회사이지만 두 가지 종류의 시퀀싱의 실제 가격차는 할인 받으면 약 4만 원 정도)
인간 질병에서 V영역에 관한 연구중 가장 유명한 논문은 A detailed analysis of 16S ribosomal RNA gene segments for the diagnosis of pathogenic bacteria(2007)이며, 각 영역별로 세부적인 비교를 한 논문은 2019년도에 출판된 인용수 707회에 달하는 Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis이 있다.
Skin sample에서 V1-V3가 왜 좋은지 보여주는 논문은 Species-level analysis of DNA sequence data from the NIH Human Microbiome Project(2012)가 있다.
이 중 Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis을 훑어보았다.
+) Shotgun sequencing이 그럼 더 정확한가? 는 아니다. shotgun은 분류의 resolution이 오히려 떨어진다. 그러므로 데이터 연구 목적이 '기능'에 초점이라면 Shotgun이지만 taxonomy compositiom이라면 16s rRNA분석이 더 낫다.
🟦 용어
ASV(Amplicon Sequence Variant) = SV(sequence variant) = ESV(exact sequence variant) = 100% similarity OTUs
caveats 주의사항
Polymorphism 다형성; mutation에 의해 발생하는 변화
Intragenomic 한 박테리아 내 유전자, 즉 copy 사이의 유전자 변이를 분석
🟦 Abstract
full length가 좋은 이유는? 1) 16s gene copy안(intragenomic)의 nucleotide substitutions (but not insertions/deletions) 을 더 잘 관찰, 결과적으로 이는 strain level 까지의 taxonomy classification의 resolution을 제공한다
🟦 Result
일단 왜 full length(전장) 분석이 많이 이루어지지 않을까?
일단 많이 사용되는 시퀀싱 기계(illumina - iseq, miseq)의 시퀀싱 용량은 최대 ~300bp(2 × 150 bp)이다.
최신 기술인 Circular consensus sequencing (CCS)가 시퀀싱 에러와 PCR 단계를 줄여서 시퀀싱 용량 ↑
현재는 PacBio와 Oxford Nanopore에서 1500 bp에 달하는 16s rRNA V1-V9(27F and 1492R) sequencing이 가능하다.
species level에서 각 영역별로 bacteria taxonomy classification을 tree 기반으로 나타낸 것이다. (database는 RDP, 80% confidence를 threshold로)
극단적으로 V4는 in silico에서 56%가 매치되지 않았으며, full length의 경우 unclassified가 거의 없다.
위 그림은 선택하는 V영역에 따라 분류되는 phylum의 편향을 보여준다.
- V1–V2 region : Proteobacteria ↓
- V3–V5 region : Actinobacteria ↓ Klebsiella ↑
- V6–V9 region : Clostridium, Staphylococcus ↑ (-> Staphylococcus분류가 V1-V3보다 괜찮은지? 찾아보기)
- V1–V3 region : Escherichia/Shigella ↑
연구하는 박테리아마다 다르겠지만 V4 region보다 V1–V3 region를 시퀀싱 하는 것이 해상력을 놓일 수 있겠다.
그러나 V1–V3 region도 유사도가 높은 taxa 사이에 변이를 잘 포착하지 못한다. 그러므로 특정 taxa에 차별적인 region을 선택하는 것이 중요하다.
--
16S 서열 데이터를 OTU로 clustering 하는 과정은 두 가지 목적이 있다.
1. 이는 PCR amplification과 sequencing errors로 인해 생긴 서열을 제거해준다.
2. 밀접하게 연관된 박테리아 taxa 사이의 sequence variants(서열변이=돌연변이)를 제거한다.
2번째는 새롭게 만들어진 종을 error라고 치부해 제거하는 단점이 있지만, 특정 sequencing platform마다 발생하는 오류의 확률보다 낮은 비율로 16s rRNA의 돌연변이가 일어나기 때문에, 제거할 수밖에 없음.
물론 CCS의 진화로 오류율이 많이 감소하고 컴퓨터적인 분석기법의 발전으로 legitimate sequence variation(자연 돌연변이 = ASV)와 artifactual sequence variation(시퀀싱 에러)를 구분이 가능해졌다.
그러나 단일 single-nucleotide variants(SNV)이 발견되었다 하더라도, bacteria의 여러 16s 유전자의 multiple polymorphic copies 를 가지고 있음으로 큰 의미 없을 수도 있음
FIg2는 E. coli strain K-12 MG1655를 V1–V9 영역으로 variation을 관찰한 건데, V1–V2과 V6에서 가장 많은 변이를 보임
또한 총 7가지의 copy = Operon사이의 변이를 보여주는데, 이는 박테리아 16s rRNA의 Polymorphisms 을 보여주는 결과이다.
또한 abcd는 각각 PacBio RS II platform, Illumina MiSeq, K-12 MG1655 reference genome에 align한 후, E. coli O157 reference genome에 align한 후 를 보여준다.
=> 즉 각 strain마다 변이의 차이가 V region 마다 다르면 시퀀싱 기계에서 사이가 있다는 것을 보여준다.
결론은 당연하지만 full length가 species level과 strain(subspecies) level까지 resolution이 좋다
이후부터는 in vivo에서 관찰한 결과인데 집중력이 떨어져서 discussion만 대략 봤다
🟦 Discussion
- Full length에 비해 V region자체는 결국 species richness를 과소평가한다.
- Clustering 방식의 차이 : ASV(ESV) >> OTU (in silico)
- But 정확도 △ <- why? 박테리아는 multiple polymorphic 16S copies 多
- 이를 통해 stain level까지 분석 가능하다고 주장함
- But ASV도 한계 OTU처럼 정확한 taxa를 대표하는 게 아님
- AND region만 분석 시 species richness를 과대평가함/ OTU는 과소평가됨
- ⇒ 즉 너무 믿진 말자. 항상 유념해 둘 것
- But 정확도 △ <- why? 박테리아는 multiple polymorphic 16S copies 多
- 이전에 polymorphic이 박테리아 분류에 문제라고 했던 논문들과 달리, 우리는 더 좋은 분류 지표로 활용할 수 있음을 보여준다.(즉 이전에 들은 못했고 나는 해결했다! 창의성 인정해 달라) (in vivo)
- mWGS(전장 유전체)와 16s rRNA V1-V9에서의 각각 clustering을 비교할 때, 99%의 동일함을 보였음(물론 앞서 말했듯이 OTU라 좀 못 미더울 순 있는데, 97%보단 낫지. 그리고 이전 연구도 그렇게 하더라)
- 마지막으로 인간 장 미생물군을 clustering을 해보니, 여기도 copy variants 多
🟦 reference
- Johnson, J.S., Spakowicz, D.J., Hong, BY. et al. Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis. Nat Commun 10, 5029 (2019). https://doi.org/10.1038/s41467-019-13036-1
- https://link.springer.com/article/10.1186/s40168-015-0105-6
- https://bmcmicrobiol.biomedcentral.com/articles/10.1186/s12866-016-0891-4