Linux에 Shell이 있다면, Window에는 CMD가 있다. 둘 다 명령어를 실행해 주는 해석기이다. window에서 cutadapt를 사용하는 것은 이전 글(Window에서 Cutadapt사용하기)에서 확인할 수 있다. 많은 샘플의 adapter를 잘라낼 때 linux에서는 for문을 통해서 간편하게 해결할 수 있다. window로 FOR문을 이용해서 사용 가능하지만, 조금 제한적이다. 내가 찾아낸 최선의 방법은, 샘플들의 이름(_1.fastq.gz 와 _2.fastq.gz가 제외된 이름)만 저장된 name_list.txt를 만들고, 그 안에서 변수를 하나씩 꺼내어 쓰는 방식이다. | 예시 데이터 보기 만약 서열의 이름이 다음과 같을 때, 우리는 위 샘플의 이름만 담긴 txt파일을 만들어 보자. ..
대부분의 생물정보학 프로그램은 Linux를 기반으로 사용된다. Linux 상에서 프로그램의 배포 및 업데이트가 편하기 때문이다. 그러나 Linux가 어려운 사람들을 위해 Window기반의 프로그램들도 출시되고 있다. 일부는 마우스로 사용가능한 프로그램으로 출시되고, 일부는 Linux와 비슷하게 Window의 command line을 기반으로 사용 가능하다. 이 중에 Cutadapt의 window버전은 pip를 사용해서 설치 가능하며, python으로 구동된다. | 준비물 - Anaconda 혹은 Minoconda - Python 최근 버전(3.7) | Cutadapt 설치 pip를 사용한 설치 py -m pip install cutadapt 버전 확인 py -m cutadapt --version 가장 최..
| 준비물- 설치된 BLASTn (참고 : blast 설치)- fas/fasta파일fas/fasta파일은 서열과 서열의 아이디로 구성되어 있으며, 아이디는 > 다음에 오는 글자를 말한다. | 자동화 함수 만들기1. 빈 문서 만들기vi blast_script.sh 2. 생성된 문서에 아래 내용 붙여 넣기- 만약 fasta서열이면, for file in *.fasta; do 로 바꾸기 #!/bin/bashmkdir ./results/output_dir="./results/"for file in *.fas; do output_file="${output_dir}${file%.*}.csv" output_file_sum="${output_dir}${file%.*}_sum.csv" blastn -db ~/R..
| 개요 1세대인 Sanger sequencing의 정확도는 매우 높지만, 한 번의 한 서열만 읽을 수 있다는 단점이 있다. 이를 극복한 것이 서열을 대량으로 읽어내리는 Massive parellel sequencing(MPS)이다. 이는 NGS sequencing 혹은 2세대 시퀀싱 기술이라고 불린다. 2세대 시퀀싱 기술은 크게 두 범주로 나뉜다.1. Sequencing by hybridization1980년대에 고안되었으며, 이미 알고 있는 서열과 알고자 하는 서열의 binding을 통해 기존의 서열과 일치 여부를 확인한다. 크게 두 방식으로 분류 가능한데, 하나는 알고자 하는 target sequence를 셀에 고정하고, 서열 조각을 binding 하여 binding efficiency의 차이로..
| 개요 Sanger sequencing이란 Fredric Sanger(1928~2013)이 만든 시퀀싱 방법을 말한다. Fredric Sanger는 단백질 분자의 시퀀싱 방법과 DNA분자의 시퀀싱 방법으로 총 두개의 노벨화학상을 수상하였다. DNA는 항상 5’-to-3’ 방향으로 합성된다. 합성 시에는 3’-OH와 5’-phosphate와 반응하여 phosphodiester결합이 형성되며 5’에 붙어있던 인산이 떨어져 나간다. DNA가 합성되는 과정에서 순서대로 사용된 염기를 알 수 있다면, 서열을 분석할 수 있다. Fredric Sanger는 염기가 합성되는 단계를 멈추고, 멈추기 직전에 합성에 사용된 염기를 알아낸다면, 서열을 읽을 수 있다는 것에 아이디어를 얻었다. 이후 3’-OH가 존재하지 ..
작성: 2023-04-24수정: 2024-08-19, 2024-12-06 (NB의 한계 추가) 🟦 개요생물학에서 가장 많이 사용되는 유전자 검색 알고리즘은 BLAST(BLASTn, BLASTp, BLASTx)입니다. 그러나 QIIME2의 classifier는 naive bayes(Wang Q et al., Appl Environ Microbiol, 2007/ Bokulich NA et al., Microbiome , 2018) 알고리즘을 사용합니다.왜 우리는 BLAST를 사용하지 않고 classifier를 사용할까요? 이유는 대용량 데이터를 처리하기 위해서 빠른 속도와 정확성을 제공하기 때문입니다.먼저 naive bayes를 왜 쓰게 되었는지 알아봅시다. 🟦 베이즈 정리란 무엇인가?베이..
KEGGREST 패키지를 사용해서 KEGG pathway의 level1,2,3정보를 다운 받을 수 있다. library(KEGGREST) # 예제 kegg id ids
작성 : 2023.04.13~2023-04-17수정: 2024-02-05picrust2 visualization 들어가기에 앞서오늘은 올해 따끈따끈하게 출시된(무려 2023년 4월 8일) ggpicrust2 패키지를 소개합니다. ggpicrust2는 마이크바이옴의 기능 예측 도구인 picrust2의 결과물을 통계적으로 분석하고 시각화하는 데에 사용합니다. > 분석 환경 - biom과 picrust 설치 필요. - 추가적으로 분석은 R환경 (최신 버전) > 예제 데이터: QIIME2 예제인 moving-picture - 이는 사람의 혀, 장, 양 손바닥의 마이크로바이옴 데이터를 담고 있다. 이 중에서 혀와 장의 마이크로바이옴에 해당하는 기능예측 유전자를 비교해 본다. ggpicrust2- ..
| 계통수 시각화 프로그램 중 가장 많이 사용되는 Top 5 계통수 파일이 형식은 대부분의 소프트웨어에서 사용 가능하다. 정말 많은 도구가 있지만 그중에서 가장 널리 쓰이는 5개의 툴을 가지고 왔다. 아래 예제데이터인 phyloseq의 계통수를 가지고 각 프로그램으로 계통수를 그려보자. 예제 데이터는 qiime2의 moving-picture 데이터를 phyloseq개체로 변환한 것이다. library(ape) library(phyloseq) ps
- 작성 시작 : 2023.04.07~12| 계통수의 구조 - 빨간 점은 root - 초록점은 external node - 파란 덤은 internal node - 선은 각 node의 진화적인 변화를 선의 길이로 나타낸 것이다. 이는 아래 0.3의 scale bar로도 표시해 주었다. | 계통수 파일의 형식여러 형식이 있지만 가장 많이 사용되는 형식은 Newick, NEXUS, Phylip이 있다. Newick, NEXUS는 진화적 생물 데이터를 다루는 대부분의 프로그램에서 다루는 것이 가능하다. 그러나 BEAST나 MrByayes 파일은 특정 형식만을 입력 파일로만 가진다. Newick 트리 형식 대표적인 계통수 형식인 Newick에 대해 알아보자 위와 같은 데이터를 담고 있는 계통수가 있을 때, New..
- 수정 2023.04.12 세 논문에 나오는 시약이나 air swab에서 얻어지는 오염 Genus를 표로 정리하였다. 꼭 아래에 나와있는 균을 오염으로 생각하여 제거할 필요는 없지만 어느 정도 참고의 기준으로 사용 가능하다. 추가적으로 본인이 사용하고 있는 Kit에서 오염으로 검출된 균도 찾아보면 도움 될 것이다. Table1. OTUs removed from sequencing data prior to biostatical analysis [1]PhylumList of constituent contaminant generaProteobacteriaAlpha-proteobacteria: Acidovoraxc, Brevundimonasc, Phyllobacterium , Rhizobium, Mesorhi..
| qiime2R 설치 if (!requireNamespace("devtools", quietly = TRUE)){install.packages("devtools")} devtools::install_github("jbisanz/qiime2R") # current version is 0.99.20 | 예제 데이터 - 출처 : https://docs.qiime2.org/2020.2/tutorials/moving-pictures/ | qza파일을 R에서 다루기 table.qza파일을 R에서 읽어보자 SVs