진핵생물 분류를 위한 EUKARYOME database (2024)

2024. 7. 11. 17:32· Bioinformatics/└ 기타
목차
  1. EUKARYOME (ver 1.8)
  2. 기존 데이터 베이스의 한계
  3. 사용법 for ITS
  4. 에러 및 해결  

EUKARYOME (ver 1.8)

- 논문 게재: 2024.05.23

- Metazoans, protists, fungi와 plants를 모두 포함하는 all eukaryotes에 대한 데이터 베이스 

- https://eukaryome.org/

  - General FASTA (for DADA2), QIIME, Mothur, BLAST 전용 DB 제공

  - 18S의 Long, SSU, LSU, ITS 총 네 가지 데이터 제공

 

기존 데이터 베이스의 한계

특정 영역만 다룬다 & 업데이트가 느림(PR2, SILVA/ 2020)

  - UNITE: ITS

  - PR2 database: SSU

  - SILVA: SSU & LSU

  => SSU, LSU, ITS를 모두 담은 DB는 없을까?

 

제작방법

- Amplicon(SILVA v138.1 + PR2 v4.14.1 + UNITE v 9.0) + Full-length(INSDc 16/04/2023) + PacBio HiFi + Oxford nanopore consensus 

- Multiple sequence alignments using MAFFT v7 with standard options

 

사용법 for ITS

DADA2

1. https://eukaryome.org/blast/ 접속

2. General_EUK_ITS 다운로드 (1,069,617 sequences) 이후 압축 풀기 

3. FASTA 파일 형식 수정 

- DADA2에 적합하게 설계되어 있지 않다. 

- linux상에서 아래 스크립트를 통해 수정(SILVA형식으로 변환)

`sed -e 's/^>[^;]*;/>/' General_EUK_ITS_v1.8.fasta > General_EUK_ITS_v1.8_modi.fasta`

`sed -e '/^>/ s/$/;/'   General_EUK_ITS_v1.8_modi.fasta >  General_EUK_ITS_v1.8_modi2.fasta`

 

4. DADA2에서 매칭

  
EUKv1.8 <- "/data/Reference/ITS/DADA2/EUKAYOME/ver1.8/General_EUK_ITS_v1.8_modi2.fasta"
taxa.EUK.QC30.its2 <- dada2::assignTaxonomy(ASVs, EUKv1.8, multithread = TRUE, tryRC = TRUE)
write.table(as.data.frame(taxa.EUK.QC30.its2), "./output/3.assignment/QC30_tax_forward_EUKver1.8.txt", quote = F)

 

 

 

 

QIIME2

1. https://eukaryome.org/blast/ 접속

2. Linux환경에서 

wget https://sisu.ut.ee/wp-content/uploads/sites/643/QIIME2_EUK_ITS_v1.8.zip

qiime tools import --type 'FeatureData[Taxonomy]' \
  --input-path QIIME2_EUK_ITS_v1.8.tsv \
  --output-path QIIME2_EUK_ITS_v1.8_taxonomy.qza

qiime tools import --type 'FeatureData[Sequence]' \
  --input-path QIIME2_EUK_ITS_v1.8.fasta \
  --output-path QIIME2_EUK_ITS_v1.8_fasta.qza

qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads QIIME2_EUK_ITS_v1.8_fasta.qza \
  --i-reference-taxonomy QIIME2_EUK_ITS_v1.8_taxonomy.qza \
  --o-classifier QIIME2_EUK_ITS_v1.8_classifier.qza

## 사용
qiime feature-classifier classify-sklearn \
  --i-classifier classifier.qza \
  --i-reads your_sequences.qza \
  --o-classification taxonomy.qza

 

 

 

 

에러 및 해결  

| 에러 🚨

 - DADA2에서 UNITE v8.2, UNITEv10.0, THF 1.6.1, EUKAYOMEv1.8을 비교하고자 약 1,600개의 ASV를 Assignment

 - UNITE v8.2 및 v10.0 데이터베이스를 사용할 때, 모든 시퀀스가 균계(Kingdom) 수준에서 Fungi (1,607 ASVs) 

 - EUKAYOMEv1.8 에서는 Kingdom-level에서 약 1,100개의 NA, 또한 Fungi로 매칭된 Kingdom은 오직 250개  

 

| 해결 

1.  데이터가 너무 커서 그런가? 

 - DB size: SILVA> EUKAYOME > RDP > UNITE

 => 10% 만 추출후 매치 -> 일부 NA가 뜨지만 전보다는 나아짐

 

2. CPU 과부화 때문인가?

 - thread 의 개수를 제한을 두고 수행

 => 차이 없음

 

3. EUKARYOME의 서열이 기존 UNITE서열과 차이 나는가?

- M.restricta서열만 추출, EUKARYOMEv1.8 (104개)/ UNITEv10(4개)

=> 계통수 구축 시 큰 차이 ㄴㄴ 

 

4. RDP classifier문제라고 가정 

- RDP classifier란?

위 표에서 "전체 서열"은 잘 못 명시되었으며, Kingdom에서 "Fungi 제외 Kingdom"을 말함

- 그렇다면 노이즈 때문인가?

=> 맞았다. 

 

그러므로 Fungi 만 추출 후 사용하는 것을 추천드립니다!

반응형
저작자표시 비영리 (새창열림)
  1. EUKARYOME (ver 1.8)
  2. 기존 데이터 베이스의 한계
  3. 사용법 for ITS
  4. 에러 및 해결  
'Bioinformatics/└ 기타' 카테고리의 다른 글
  • 마이크로바이옴 연구자가 읽어볼 만한 QIIME2 포럼 글 모음
  • Nextflow 알아보기
  • [hmpdacc] Human Microbiome Project의 파일 다운받기
  • Taxonomy assignment 결과에서 uncultured, unidentified, sp, unassigned, unclassified,와 NA의 차이
김해김씨99대손
김해김씨99대손
kim.soyeon.bio@gmail.com 오류수정, 피드백, 질문 메일 언제든지 환영합니다!
김해김씨99대손
Bioinfo_newbie
김해김씨99대손

블로그 메뉴

  • 블로그홈
  • Github
  • 글쓰기
  • 설정
  • 분류 전체보기 (358) N
    • 자기소개 (1)
    • Bioinformatics (211) N
      • Sequencing data (24)
      • Taxonomy (12)
      • Metagenome (5)
      • Microbiome (5)
      • └ Qiime2 (13)
      • └ Dada2 (8)
      • └ R for microbiome (39)
      • └ 기타 (28) N
      • Biopython (2)
      • 생물정보학 교육 (11)
      • Rosalind (18)
      • Article (25)
      • 기타 (18)
      • 채용 공고 (3)
    • Statistics (0)
    • Machine Learning (2)
    • Biology (16)
    • Big data (4)
      • 기타 (4)
    • Programming (59)
      • Python (2)
      • R (46)
      • R_Package function (2)
      • My R package (1)
      • Linux (7)
    • Database (2)
    • Management (0)
    • 대학원 (29)
      • 스크랩 (10)
    • 일상 (14)
      • Big picture (2)
      • 다이어리 (10)
    • 기타 (9)

공지사항

인기 글

최근 댓글

전체
오늘
어제
hELLO · Designed By 정상우.v4.2.2
김해김씨99대손
진핵생물 분류를 위한 EUKARYOME database (2024)
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.