| 개요 1세대인 Sanger sequencing의 정확도는 매우 높지만, 한 번의 한 서열만 읽을 수 있다는 단점이 있다. 이를 극복한 것이 서열을 대량으로 읽어내리는 Massive parellel sequencing(MPS)이다. 이는 NGS sequencing 혹은 2세대 시퀀싱 기술이라고 불린다. 2세대 시퀀싱 기술은 크게 두 범주로 나뉜다.1. Sequencing by hybridization1980년대에 고안되었으며, 이미 알고 있는 서열과 알고자 하는 서열의 binding을 통해 기존의 서열과 일치 여부를 확인한다. 크게 두 방식으로 분류 가능한데, 하나는 알고자 하는 target sequence를 셀에 고정하고, 서열 조각을 binding 하여 binding efficiency의 차이로..
Bioinformatics/Sequencing data
| 개요 Sanger sequencing이란 Fredric Sanger(1928~2013)이 만든 시퀀싱 방법을 말한다. Fredric Sanger는 단백질 분자의 시퀀싱 방법과 DNA분자의 시퀀싱 방법으로 총 두개의 노벨화학상을 수상하였다. DNA는 항상 5’-to-3’ 방향으로 합성된다. 합성 시에는 3’-OH와 5’-phosphate와 반응하여 phosphodiester결합이 형성되며 5’에 붙어있던 인산이 떨어져 나간다. DNA가 합성되는 과정에서 순서대로 사용된 염기를 알 수 있다면, 서열을 분석할 수 있다. Fredric Sanger는 염기가 합성되는 단계를 멈추고, 멈추기 직전에 합성에 사용된 염기를 알아낸다면, 서열을 읽을 수 있다는 것에 아이디어를 얻었다. 이후 3’-OH가 존재하지 ..
Unclassified된 species를 blast돌리기 위해 phyloseq 개체에서 추출한 계통을 fasta포멧으로 만들고자 했다. 원래 엑셀로 정렬을 하는 방법도 있고, 리눅스 상에서 간단하게 변경하는 방법도 있지만 역시 뭐니뭐니 해도 R로 하는 것이 가장 간편하다. fasta 포멧으로 만들기 위해 서열과 이름으로 data frame만들기 df
수정 : 2023.05.08 내용 추가: 2024.01.10 ▶ 이전 글 : Cutadapt설치하기 [Cutadapt] 01.Linux에 Cutadapt 4.2 ver 설치하기 🟦 공식 가이드 https://cutadapt.readthedocs.io/en/stable/installation.html Installation — Cutadapt 4.2 documentation Because Cutadapt development happens on Linux, this is the best supported platform, but it should also run on macOS and Windows. I bio-kcs.tistory.com 16s rRNA 데이터를 분석하기 위해서 시퀀싱 과정에서 서열에 부..
🟦 공식 가이드 https://cutadapt.readthedocs.io/en/stable/installation.html Installation — Cutadapt 4.2 documentation Because Cutadapt development happens on Linux, this is the best supported platform, but it should also run on macOS and Windows. Installation on Debian/Ubuntu Cutadapt is also included in Debian-based Linux distributions, such as Ubuntu. Simply use your fa cutadapt.readthedocs.io 설치방법은 ..
🟦 fastq파일이란? fastq파일이란 시퀀싱 결과물로서, 한 시퀀스(시퀀싱 된 read) 정보와 퀄리티 정보를 같이 가지고 있으며, 한 sequence당 총 4줄의 데이터를 가지고 있다. fastq파일의 예시를 보자. @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +SEQ_ID !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 @SEQ_ID - 시퀀싱 기계에서 지정한 read의 ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT - read의 서열 +SEQ_ID - 동일한 ID(혹은 다른 아이디지만 SEQ..
1. SRA tookit를 다운 -> 압축 풀기 [참고1] [참고2] 2. 원하는 fastq의 SRA format의 id를 적어 둔다 [참고3] 만약 원하는 파일의 SRA format이 아래와 같다면 - SRR10611214 - SRR10611215 - SRR10611215 - SRR10611216 - SRR10611217 아래 코맨드를 적어준다 mkdir data cd data for i in `seq 14 17`; do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/0${i}/SRR106112${i}/SRR106112${i}_1.fastq.gz; wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/0${i}/SRR106112${i}..
Question pcr primer와 adapter에 차이가 있나요? 둘 다 서열 증폭과정에 이용되는 인공적인 서열 아닌가요? Answer Both PCR primers and sequence adaptors are artificial DNA oligonucleotides, generally of known sequence. >> 둘 다 인공적으로 만들어진 DNA oligonucleotides 인것은 맞다 The first are used to prime DNA replication reactions. Those used to amplify specific DNA sequences in vitro are called PCR primers. >> PCR primers는 시험관 내에서 특정 DNA서열을 증폭..
Depth 하나의 뉴클래오티드 위치에 어떤 염기가 시퀀싱되어 나타나는 횟수를 말함 Coverage sequence read와 reference간의 얼마나 align되는지 말한다 위의 이미지처럼 6개의 read(총 188nt)가 달라 붙었을때 => coverage를 따질때 3가지 관점에서 볼 수 있다 1) whole genome관점 : 전체 112nt 중에서 188nt가 붙었으니 → 188/112 → 1.68 번 접혔다 2) mapping된 46nt 관점에서 : 188/46 → 4.09 fold () +) 추가적으로 6개의 read들이 CTGTGCAATTGCTGA를 공유하니 15/46 → 32.6%의 coverage at 6x depth라고 적을 수 있다 3) 한 염기 관점에서(G) : G가 6개의read..
Sequence Alignment 시퀀싱된 서열을 공통 부분을 찾아 정렬한것, 즉 더 긴 서열을 만들기 위해 조각조각 이어 붙인것이다 이래와 같이 총 3가지 방법이 있다 (a) 는 전체서열에 맞추어 alignment (c) 는 더 유사한 부분(좁은 부분)을 위주로 alignment한다 alignment software로는 ClustalW2와 BLAST등이 있다 Assignment taxanomy 우리가 가진 sequence와 reference database가 가진sequence과 각각의 taxanomy정보를 이용하여 내가가진 서열이 어떤 속, 종에 속하는지 동정하는것 Reference - https://en.wikipedia.org/wiki/Sequence_alignment - Ahmed, N., Lé..
수정: 2024.01.26 Merge란? - 일루미나 시퀀서의 결과물은 하나의 서열을 앞, 뒤로 읽어 paired-end 결과물을 생산한다. 이 서열을 중복되는 영역으로 합쳐서 온전한 하나의 서열을 만들어내는 과정을 merge라고 한다. - merge되지 전 read들을 forward, reverse read라고 하며, merge된 수의 서열도 read혹은 sequence라고 부른다. - long read 시퀀서를 사용할때는 위의 과정이 필요하지 않다. Assembly란? - Assembly는 merge된 혹은 merge되지 않은 하나의 read를 긴 서열로 병합해 과는 과정이다. - 1차적으로, read를 바탕으로 assembly를 진행 후 만들어진 더 긴 서열을 Contig 라고 한다. - 2차적으로..
alignment, mapping, assembly는 결국 유전제 조각을 이어 붙이는 목적에서는 3개 다 같은 뜻 같지만 사용적인 측면이 조금 다른것 같아 정리 해보았습니다! 각 단어가 사용될때 "sequence alignment", "read mapping" and "sequence assembly"으로 사용 됩니다. 정의 1) sequence alignment Alignment는 nucleic acids or aminoacids의 서열 비교이다. 예를 들어 아래 두 서열의 데이터를 가지고 있을때 ABCDEFGHIPQRSVXZ ACCHJKLPQTXYZ 두 서열을 align하는 것은 비슷한 특징(features)를 가졌는지 보는것이다 결과는 아래처럼 나온다. ABCDEFGHI---PQRSVX..