Bioinformatics/└ Qiime2

[QIIME2] UNITE database 만들기

김해김씨99대손 2022. 6. 29. 17:44

수정: 2024-04-28-일

 

 

 

 

 

| qiime2 환경에서 classifier 만들기

 

1) classifier를 만들기 위한 준비 파일 다운로드

- 공식 홈페이지에 QIIME2 전용 파일이 준비되어 있다. 

 

qiime2 형식으로 만들기 위해서는 fasta 형식과, taxa데이터가 각각 파일로 저장되어 있어야 한다. 

 

이 글의 수정된 날짜를 기준으로 가장 최신 버전은 10.0이다.

 

 

각 database를 다운로드하면, 내부에 dymanic 분류 파일과 일반 fasta 파일이 존재한다. dymanic 분류에 대한 개념을 찾아보니, 전문가들이 3% 유사도가 아닌, 2.5, 2%를 기준으로 여러 분류기준을 사용한 database라고 한다. 또한 실제로 큰 차이는 없다고 한다.  

(참고: https://forum.qiime2.org/t/difference-between-unite-dynamic-and-not-dynamic-classifier/16708/2)

 

 

나는 10.0 버전 중 아래 reference를 사용하였다. 

 

 

wget https://s3.hpc.ut.ee/plutof-public/original/06daa092-e96a-48e7-9303-4402cc5c46c5.tgz
tar -xvzf sh_qiime_release_s_04.04.2024.tgz

 

압축을 풀면 아래와 같은 파일을 볼 수 있다. 

 

# fasta 파일을 qiime 형식으로 import
qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path sh_refs_qiime_ver10_99_s_04.04.2024.fasta  \
  --output-path sh_refs_qiime_ver10_99_s_04.04.2024.qza
  
# tax 파일을 qiime 형식으로 import
qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path sh_taxonomy_qiime_ver10_99_s_04.04.2024.txt \
  --output-path sh_taxonomy_qiime_ver10_99_s_04.04.2024.qza
  
# Train the QIIME classifier  ⏰⏰⏰⏰
qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads sh_refs_qiime_ver10_99_s_04.04.2024.qza \
  --i-reference-taxonomy sh_taxonomy_qiime_ver10_99_s_04.04.2024.qza \
  --o-classifier sh_qiime_ver10_99_s_04.04.2024_classifier.qza

 

 

두 데이터를 조합하여, qiime classifier를 만드는 과정을 시간을 매우 많이 잡아먹는다. 6시간 이상 걸릴 수 있으니, 퇴근하기 전에 돌려놓는 것을 추천한다.  

 

반응형