Bioinformatics/Sequencing data

출처: https://www.pacb.com/blog/sbb-sequencing/ Sequencing 101: SBB sequencing - PacBioGet Q40+ accuracy, uncover rare variants, and explore the benefits for liquid biopsy and gene editing applications with SBB sequencing.www.pacb.com  위 글을 대표적인 시퀀싱 방법인 sequencing by synthesis(SBS, e.g. illumina Miseq )의 발전 버전인 sequencing by binding(SBB)을 소개하고 있습니다.  SBB는 short read를 대상으로 하며, 시퀀싱 판독 오류를 줄여주며 평균적으로..
🟦 The Sequence Read Archive(SRA)란?NIH 주관 International Nucleotide Sequence Database Collaboration (INSDC)의 산하 저장소는 the European Bioinformatics Institute (EBI), and the DNA Database of Japan (DDBJ) 등이 있다. 이 중 SRA는 high-throughput sequencing 데이터의 저장소중 하나입니다.(https://www.ncbi.nlm.nih.gov/sra/docs/) SRA의 접근 번호 SRA에 업로드된 샘플에서 여러 가지 접근 번호가 있습니다. 이에 대한 포함 관계설명드리겠습니다.접근 번호설명SRP (Sequence Read Archive P..
🟧 NGS data workflow 보통 연구실에서는 시퀀서 가격이 비싸다 보니, 회사에 시퀀싱을 맞기게 됩니다. 이때 결과물로 raw data와 NGS report를 전송해 주는데, 이 안에 기본적인 QC정보를 담고 있습니다.그러나 이  보고서는 raw data가 쓸 만 한지 평가해 주진 않습니다. 그러므로 NGS데이터 분석에서 가장 중요한 것은 Raw data가 신뢰할 만한 것인지 판단하는 것입니다.    이를 위해 가장 대중적으로 사용되는 프로그램에는 fastQC와 multiQC가 있습니다.     🟧 설치 및 실행하기 multiQC는 fastQC의 보고서를 하나로 합쳐주는 것으로, 실제 QC분석은 fastQC에서 구동됩니다. - fastqc 홈페이지: https://www.bioinformat..
글 작성 (2024-05-24 ~ 2024-05-28)좀 더 읽기 쉬운 글로 수정하였습니다 (2024-11-19)       모든 생물학도가 사용한다고 해도 과언이 아닌 BLAST, 잘 알고 계시나요?생물정보학에서 서열정렬(Sequence Alignment)은 필수적인 기술로, 유전학, 단백질 연구, 진화생물학 등 다양한 분야에서 사용되고 있습니다. 이 글에서는 쉽게 이해할 수 있도록 서열 정렬의 역사, 기본 개념, 그리고 대표적인 도구인 BLAST까지 알아볼까요?    1. 서열 정렬(Sequence alignment) 이란?서열 정렬은 DNA, RNA 또는 단백질의 서열을 배열하여 서열 간의 기능적, 구조적 또는 진화적 연관성을 모두 파악하여 유사성을 확인하는 것이다. 또한 유사성을 통해 우리가 알아..
1. blast 다운로드하기  1) https://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/ 접속 2) 최신 버전인 ` ncbi-blast-#.#.#+-win64.exe`를 다운로드 3) 설치 "I Agree" 클릭   "Next" 클릭 위치는 기본적으로 C 드라이브에 "Program Files"에 위치하게 됩니다.  설치가 완료되었습니다.   설치 위치를 가보면 파일들을 확인할 수 있습니다.     3) 설치 확인(1) Win+R 에서 "cmd"검색(2) cmd 창에서 아래 스크립트 입력cd C:\Program Files\NCBI\blast-2.15.0+\bin #이건 본인 설치 위치에 따라 다름blastx -h # 실행 확인하기 잘 실행되는 것을 확인했다.  ..
| 이전글   [NGS sequencing] 01.시퀀싱 기술의 시작, Sanger sequencing (1세대)| 개요 Sanger sequencing이란 Fredric Sanger(1928~2013)이 만든 시퀀싱 방법을 말한다. Fredric Sanger는 단백질 분자의 시퀀싱 방법과 DNA분자의 시퀀싱 방법으로 총 두개의 노벨화학상을 수상하였다. DNA는 항bio-kcs.tistory.com [NGS sequencing] 02.현 시대의 No.1 illumina sequencing (2세대)| 개요 1세대인 Sanger sequencing의 정확도는 매우 높지만, 한 번의 한 서열만 읽을 수 있다는 단점이 있다. 이를 극복한 것이 서열을 대량으로 읽어내리는 Massive parellel seque..
| 이전글  [NGS sequencing] 01.시퀀싱 기술의 시작, Sanger sequencing (1세대)| 개요 Sanger sequencing이란 Fredric Sanger(1928~2013)이 만든 시퀀싱 방법을 말한다. Fredric Sanger는 단백질 분자의 시퀀싱 방법과 DNA분자의 시퀀싱 방법으로 총 두개의 노벨화학상을 수상하였다. DNA는 항bio-kcs.tistory.com [NGS sequencing] 02.현 시대의 No.1 illumina sequencing (2세대)| 개요 1세대인 Sanger sequencing의 정확도는 매우 높지만, 한 번의 한 서열만 읽을 수 있다는 단점이 있다. 이를 극복한 것이 서열을 대량으로 읽어내리는 Massive parellel sequen..
1. 리눅스에서 바로 확인하기 for i in ./*.fastq.gz; do echo "${i}: $(echo "scale=0; $(zcat "${i}" | wc -l)/4" | bc)" ; done >>counts.txt 출력물 ↓ ./001AcCUSw_trim_1.fastq.gz: 58358 ./001AcCUSw_trim_2.fastq.gz: 58358 ./001AcLUSw_3_trim_1.fastq.gz: 57066 ./001AcLUSw_3_trim_2.fastq.gz: 57066 ./001AcLUSw_4_trim_1.fastq.gz: 59239 ./001AcLUSw_4_trim_2.fastq.gz: 59239 ./001AcRUSw_1_trim_1.fastq.gz: 61334 ./001AcRUSw_..
fasta 파일을 Biostrings 패키지를 사용해서 R의 data frame 형태로 바꾸어 보자 library("Biostrings") fastaFile= readDNAStringSet("..ASVs_rep.fastq.txt") seq_name = names(fastaFile) sequence = paste(fastaFile) df
- 작성 : 2023.05.08 primer를 잘라내는 프로그램은 여러 개가 개발되었다. 그중에서 대표적인 몇몇의 프로그램을 비교해 보자. 참고로 모두 큰 차이가 존재하진 않는다! 이 프로그램들의 목적은 primer를 제거하는 것임으로 그 이상의 의의를 두지 말자. | Cutadapt - 논문 : Cutadapt Removes Adapter Sequences From High-Throughput Sequencing Reads. 2011 - 인용수 20,605(2023.05.08 기준) Cutadapt란 NGS데이터 전반에서 사용되는 파이썬 기반의 도구이다. True seq, illuminz, SMART등의 여러 시퀀서의 아웃풋 결과물을 다룰 수 있다. Cutadapt 설치 및 사용해 보기 - Cutada..
Linux에 Shell이 있다면, Window에는 CMD가 있다. 둘 다 명령어를 실행해 주는 해석기이다. window에서 cutadapt를 사용하는 것은 이전 글(Window에서 Cutadapt사용하기)에서 확인할 수 있다. 많은 샘플의 adapter를 잘라낼 때 linux에서는 for문을 통해서 간편하게 해결할 수 있다. window로 FOR문을 이용해서 사용 가능하지만, 조금 제한적이다. 내가 찾아낸 최선의 방법은, 샘플들의 이름(_1.fastq.gz 와 _2.fastq.gz가 제외된 이름)만 저장된 name_list.txt를 만들고, 그 안에서 변수를 하나씩 꺼내어 쓰는 방식이다. | 예시 데이터 보기 만약 서열의 이름이 다음과 같을 때, 우리는 위 샘플의 이름만 담긴 txt파일을 만들어 보자. ..
대부분의 생물정보학 프로그램은 Linux를 기반으로 사용된다. Linux 상에서 프로그램의 배포 및 업데이트가 편하기 때문이다. 그러나 Linux가 어려운 사람들을 위해 Window기반의 프로그램들도 출시되고 있다. 일부는 마우스로 사용가능한 프로그램으로 출시되고, 일부는 Linux와 비슷하게 Window의 command line을 기반으로 사용 가능하다. 이 중에 Cutadapt의 window버전은 pip를 사용해서 설치 가능하며, python으로 구동된다. | 준비물 - Anaconda 혹은 Minoconda - Python 최근 버전(3.7) | Cutadapt 설치 pip를 사용한 설치 py -m pip install cutadapt 버전 확인 py -m cutadapt --version 가장 최..
김해김씨99대손
'Bioinformatics/Sequencing data' 카테고리의 글 목록