수정: 2024.01.26
Merge란?
- 일루미나 시퀀서의 결과물은 하나의 서열을 앞, 뒤로 읽어 paired-end 결과물을 생산한다. 이 서열을 중복되는 영역으로 합쳐서 온전한 하나의 서열을 만들어내는 과정을 merge라고 한다.
- merge되지 전 read들을 forward, reverse read라고 하며, merge된 수의 서열도 read혹은 sequence라고 부른다.
- long read 시퀀서를 사용할때는 위의 과정이 필요하지 않다.
Assembly란?
- Assembly는 merge된 혹은 merge되지 않은 하나의 read를 긴 서열로 병합해 과는 과정이다.
- 1차적으로, read를 바탕으로 assembly를 진행 후 만들어진 더 긴 서열을 Contig 라고 한다.
- 2차적으로, contig끼리 assemble하여 유전체 수준의 scaffold를 구성한다.
Assembly전략
- Reference guided assembly
- 참조 유전제에 정렬하는 방법
- 기존에 알려진 참조 유전체 서열과 해당 품질에 제한적
- 아래와 같은 케이스는 어려움
- Larger genomic mutation(insertions, deletions, rearrangements)
- Distantly related species 유연관계가 먼 종 간
- Most virus
- de novo assembly
- 시퀀싱 read의 충분한 lengths, depths, coverage가 필요
- low coverage영역이나 long repeat영역에서는 쉽지 않음
- 알고리즘
- Greedy assembly(only to illustrate)
- Overlap-layout-consensus
- De Brujin graph
Binning(비닝)이란?
- Binning은 assembly된 서열을 같은 종에서 기인 한 것으로 추정되는 서열끼리 그룹화하는 것
- Binning은 Reference 기반과(assignment dependent), 이에 독립적인 방법(assignment independent)으로 나뉜다.
- Amplicon 분석에서는 각 read들 끼리 OTU 혹은 ASV는 구성하고, 하나의 이에 대한 공통적인 하나의 서열을 특성화 한다. 이 후 각 OTU 혹은 ASV를 Reference와 매칭하여 각각의 계통 정보를 알아낸다.
- Shotgun metagenome또한 taxanomy independent하게 binning이후, Reference와 매치하는 방법이 주로 사용된다. 이때 amplicon처럼 하나의 공통적인 원형 게놈을 추정하는 것은 metagenome-assembled genomes(MAGs)이라고 부른다.
Taxanomy independent binning
- 기존 Reference 가 완전하지 않기 때문에, 최근 binning 알고리즘의 대부분은 Reference를 참고하지 않는 방식으로 접근
- 이에 대한 방법은 1) composition based methods, 2) abundunce based methods, 3) hybrid methods로 나뉜다.
- 1) composition based methods : 각각의 cluster를 구성하고 가장 긴 bin을 위주로
- 2) abundunce based methods : coverage를 기반
- composition 기반 방법의 단점: 낮은 풍부도의 species 비닝이 어렵다. 이러한 빈은 풍부한 종에 속하는 더 큰 빈으로 잘못 분류될 수 있다. 이를 해결하기 위한 것이 abundance기반 방법이다.
- 3) hybrid methods(多) : 위 두 방법 혼합, 두 방법의 단점 최소화
한 줄 요약
- Assembly tools try to reconstruct the genomes that exist in the sample.
- Binning tools try to group the NGS reads of similar species together.
Reference
- https://astrobiomike.github.io/genomics/metagen_anvio
- http://www.incodom.kr/Shotgun_sequencing#h_5a48b6271e16f4b28a0e1257ea632ee0
- https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-15-S1-S12
- Sedlar, K., Kupkova, K., & Provaznik, I. (2016). Bioinformatics strategies for taxonomy independent binning and visualization of sequences in shotgun metagenomics. Computational and structural biotechnology journal, 15, 48–55. https://doi.org/10.1016/j.csbj.2016.11.005