- 저자 : Ruairi Robertson, PhD
- 출처 : https://blog.microbiomeinsights.com/shotgun-metagenomic-sequencing-determining-depth
※ 이 글은 microbiome insights사의 "Shotgun Metagenomic Sequencing: Determining Depth" 글은 번역한 글입니다 ※
샷건 메타게놈 시퀀싱을 수행하기 전에, 얼마 깊이로 읽을 것인지 결정하는 것이 매우 중요하다. 마이크바이옴의 시퀀싱 기술과 데이터베이스는 최근 5-10년 동안 매우 발전하여 이전과 다르게 매우 큰 depth*로 분석이 가능하다. 이전까지, 메타게놈 시퀀싱 분석은 소수의 미생물군을 식별했지만, 지금은 수 천동의 미생물을 분류하고 각 세부적인 유전적 구성에 대해서도 동시에 알 수 있다.
그러나 depth를 키우면 그만큼 분석 비용과 분석에 소모되는 복잡성이 커진다. 이 글에서는 얕은 샷건 시퀀싱과 깊은 샷건 시퀀싱의 각 장단점을 말해본다.
* 시퀀싱 정도 (Sequencing Depth) 특정 샘플을 시퀀싱 하였을 때 출력된 데이터에서 특정 염기에 대한 시퀀싱 결과의 중복된 횟수 (리드의 개수)로 10X, 20X 등으로 표현
🟦 shotgun sequencing이란 무엇인가?
과거에는, 대부분 마이크로바이옴 연구가 16S rRNA gene을 이용해서 수행되었다. 비록 16S 시퀀싱에 따른 장점도 있지만, 마이크로바이옴 연구는 더 디테일하게 연구하기 위해 Whole genome 시퀀싱으로 가고 있다.
16S 시퀀싱은 18S과 ITS시퀀싱과 나란히 amplicon 시퀀싱의 형태이다. amplicon 시퀀싱이란 일부 영역을 증폭(amplification)시켜 읽어내는 것이다. 이는 16S 시퀀싱이 오로지 특정한 미생물(bacteria, archaea, microeukaryotes) 만인 식 할 수 있으며, 그들의 모든 유전적 잠재력을 알지 못한다.
샷건 시퀀싱은 모든 DNA를 작은 조각으로 자른 후에 그 조각들을 각각 시퀀싱 하여 생물정보학적 분석(reference가 없을 때 하는 de novo방식) 또는 데이터 베이스에 align(DB와 동일한 조각을 이어붙임)하여 큰 조각으로 이어 붙이는 것이다. 미생물 시퀀싱에서 이 방법은 bacteria, viruses, fungi 또는 다른 microbes를 관찰할 수 있게 한다. 16S 시퀀싱과 다르게 샷건 시퀀싱은 모든 파트의 유전체를 읽어내는데, 이는 미생물을 분류할 수 있을뿐더러 여러 대사물질에 대한 정보도 얻을 수 있다. 또한 이미 있는 데이터베이스의 유전체를 알아낼 뿐만 아니라, metagenomic-assembled genomes (MAGs)으로 새로운 종을 발견할 수도 있다. 그러므로, 샷건 시퀀싱은 마이크로바이옴 조성의 전체적인 분포를 보여준다. 비록 샷건 시퀀싱이 16S 시퀀싱보다 비싸지만, 가격은 해마다 낮아지고 있다.
🟦 sequencing depth의 중요성
시퀀싱 depth란 유전체가 얼마나 읽어졌는지에 대한 수를 나타낸다. 당연히 이는 시퀀싱 기계가 read를 얼마다 읽어냈는지에 의존하지만, 시퀀싱 시에 같이 돌리는 샘플의 수에 따라 다르다.
시퀀싱 기술이 발전함에 따라, 한번 시퀀싱 돌릴 때의 throughput (depth; 시퀀싱 양)도 증가되고 있다. 이는 데이터베이스의 개선으로 적은 풍부도를 보이는 종도 식별할 수 있게 했으며, 상대적으로 높은 신뢰도를 가진 완전한 새로 중 종의 유전체를 완성할 수도 있다.
그러나, 이러한 ultra-deep 메타게놈 시퀀싱은 매번 필요하지 않다. 얕은 샷건 시퀀싱(Shallow shotgun sequencing)도 16S sequencing과 비슷한 비용으로 일반적인 샷건 시퀀싱 같은 분류 및 기능적인 데이터를 제공한다. 그렇다면 연구세어 시퀀싱 depth를 선택할 때 고려할 점은 무엇인가?
🟦 Factors to consider when choosing sequencing depth
비용
Ultra-deep sequencing을 사용시 100~1000개의 샘플 들은 너무 많은 비용이 들어가지만, 샘플 내의 희귀종을 연구하는 주제라면 가치가 있다.
시퀀싱 비용을 낮추는 한 가지 방법은 16S과 비슷한 비용의 얕은 샷건 시퀀싱을 수행하는 것이다. 이전의 한 연구는 얕은 시퀀싱과 Ultra-deep시퀀싱과 Species 조성에서 97%의 상관관계를 보였으며, 메타게놈적 기능데이터는 99% 상관관계를 보였다. 이 논문은 얕은 시퀀싱의 결과는 또한 16S 시퀀싱과 매우 높은 유사성을 보였다는 것이다. 즉, 얕은 샷건 시퀀싱이 비용은 한정적이지만 많은 샘플을 분석하는 장기적인 연구나 유전적 변이가 중요하지 않은 연구에 적합하다.
감지 한계점
증가하는 연구는 드물고, 낮은 풍부도를 가진 종이 전체 마이크로바이옴의 기능에 끼치는 영향을 설명합니다. 시퀀싱의 depth는 샘플 내의 희귀한 미생물을 식별할 수 있는지의 신뢰도를 결정한다. 그러나 사람의 장에서 곰팡이를 식별하는 것과 같이 특별한 환경에서, amplicon 시퀀싱이 deep 메타게놈 시퀀싱보다 유용할 수 있다. 또한 새로운 종이나 strain을 발견하기 위해 MAGs(metagenomic-assembled genomes)이라는 생물정보학적 조립단계를 필요로 합니다. 새로운 strain이나 낮은 풍부도(<0.1% abundance)를 가진 계통을 식별하기 위해 많은 수의 새로운 연구는 샘플당 20 million 이상 read를 읽어내는 deep 시퀀싱을 필요로 합니다.
유전적 해상도
Another study found that the observed diversity of antimicrobial resistance (AMR) genes within environmental samples is highly dependent on sequencing depth, whereby at least 80 million reads was required to capture the full richness of AMR genes within a sample.
메타게놈 시퀀싱은 희귀한 종과 전체 홀 게놈을 식별하는것 외에도 SNVs(single nucleotide variants)를 식별할 수 있다.
이는 특정 미생물이 환경내에서 어떻게 진화하고 돌연변이를 일으키는지 연구할 수 있게 합니다. 예를 들어 개인 미생물의 SNVs를 이용하여 정상인과 제2형 당뇨를 구별할 수 있다.
시퀀싱 depth는 이러한 SNV식별에 중요합니다. shallow depth 샷건 시퀀싱을 사용한 한 연구에서는 장내마이크로바이옴 기능연구에서 SNV를 연구하기에 불충분하다고 말합니다. 또 다른 연구에서는 환경 샘플 내에서 관찰된 항균 저항성(AMR) 유전자의 다양성이 시퀀싱 깊이에 크게 의존한다는 사실을 발견했다. 따라서 샘플 내에서 AMR 유전자의 전체 풍부함을 포착하려면 최소 8천만 번의 판독이 필요했다.
연구 종류
마이크로바이옴 연구는 대규모의 집단 스크리닝 연구에서부터, 특정 마이크로바이옴 내 미생물 종의 유전적 변이(SNV)연구까지 매우 다양하다. 전체 마이크로바이옴 게놈의 유전적 다양성을 조사하고 개별 변종을 구별하는 연구는 더 큰 시퀀싱 depth가 필요할 수 있는 반면, 더 큰 인구 연구 또는 마이크로바이옴 구성의 광범위한 분류학적 및 기능적 특성을 조사하는 연구는 shallow 시퀀싱만 필요할 수 있다.
샘플 종류
"deep" 시퀀싱은 샘플에서 매우 적은 양으로 존재하는 미생물을 검출하는 능력과 신뢰도를 증가시키므로, 풍부하지 않은 미생물이 중요할 수 있는 다양성이 높거나 균일성이 낮은 샘플에서 샘플을 얼마나 깊이 시퀀싱 하는지 고려하는 것이 중요하다. 예를 들어 인간의 장에 있는 곰팡이는 그 수가 매우 적지만 건강에 매우 중요할 수 있으므로 감지하려면 deep 시퀀싱 또는 ITS amplicon 시퀀싱이 필요할 수 있다. 숙주 DNA 농도도 미생물군집 시퀀싱 결과에 영향을 미칠 수 있으므로 더 큰 시퀀싱 depth 필요합니다. 예를 들어, 피부 면봉 샘플은 시퀀싱 시 사람 유전체를 >90%정도 포함할 수 있다.
마지막으로, 샘플의 전체 미생물 바이오매스는 필요한 시퀀싱 깊이에 영향을 미칠 수도 있다. 폐수 샘플은 바이오매스가 많은 반면 타액 샘플은 상대적으로 바이오매스가 낮다.
생물정보학적 접근법
metagenomic 시퀀싱 데이터를 분석하는 데는 direct-read mapping과 metagenomic assembly의 두 가지 주요 접근 방식이 다. direct-read mapping에는 시퀀싱 읽기를 reference 유전체에 시퀀싱 된 read가 일치하는지 정렬(align)하는 작업이 포함된다. 이 접근 방식은 선별된 reference database 의존하지만 미생물군집 구성 및 기능을 평가하는 간단한 방식이다. 또한 direct-read mapping은 미생물 유전자 또는 종을 식별하기 위해 게놈의 특정 부분만 필요하므로 일반적으로 시퀀싱 깊이가 덜 필요하다.
두 번째 접근법인 metagenomic assembly는 미생물 게놈의 de novo assembly를 포함하지만 더 복잡하고 계산 비용이 많이 든다. 수천 종과 변종을 포함하는 복잡한 미생물 군집 샘플에서 전체 metagenomic-assembled genomes(MAG)을 완전히 조립하려면 deep 시퀀싱이 필요합니다.
연구자의 생물 정보학적 접근 방식은 계산 리소스에 따라 달라진다. 16S 데이터는 샘플 수가 적다면 데스크톱에서 분석할 수 있지만 deep 메타게놈 시퀀싱에는 일반적으로 서버, 데이터 저장 공간 및 고성능 컴퓨팅이 요구된다.