Bioinformatics/Taxonomy

개요현재 분석에서 SILVA 138.1, RDP 19, Greengenes2, GTDB를 쓰고 있습니다. 문제는 계통 이름이 업데이트되는 과정에서 일부 DB는 적용되지 않았습니다. 그래서 database를 비교할 때 수동으로 변경해주어야 하는 번거로움이 생깁니다. SILVA 138.1 버전은 는 Phylum에서 Actinobacteriota, Firmicutes, Bacteroidota, Chloroflexi, Cyanobacteria, Pseudomonadota 등으로 변경 전후 이름이 혼합되어 있습니다. 심지어 Actinobacteriota는 Actinobacteria 가 변경을 거치면서 나타난 중간 버전(Actinobacteria -> Actinobacteriota -> Actinomycet..
https://ftp.ncbi.nih.gov/pub/taxonomy/Major_taxonomic_updates_2023.txthttps://ncbiinsights.ncbi.nlm.nih.gov/2022/11/14/prokaryotic-phylum-name-changes/https://ncbiinsights.ncbi.nlm.nih.gov/2024/08/29/ncbi-taxonomy-updates-to-yeasts/#more-13805
이전 글   레딧발 ML 계통수 제작 도구 추천검색을 하다가 여러 카테고리를 가진 해외 커뮤니티를 발견하였다. 레딧은 여러 주제별로 다양한 이야기를 토론하는 사이트인듯하다. 여기 bioinfomatics 레딧에 유용한 정보가 많이 올라오니 구독bio-kcs.tistory.com  Linux기반에서 수행될 때를 기준으로 작성되었습니다. 먼저 cd ~ 위치에 도구들을 위한 tools 폴더를 만들어 봅시다. cd ~mkdir tools/   1. Raxml 설치 - github: https://github.com/stamatak/standard-RAxML 서버에 파일 다운로드하기cd tools/wget https://github.com/stamatak/standard-RAxML/archive/master.zi..
검색을 하다가 여러 카테고리를 가진 해외 커뮤니티를 발견하였다. 레딧은 여러 주제별로 다양한 이야기를 토론하는 사이트인듯하다. 여기 bioinfomatics 레딧에 유용한 정보가 많이 올라오니 구독을 추천한다.  현재 Fungi의 분석 pipeline을 구축 중인데, 계통수에 관한 글을 가져왔다.   1. https://www.reddit.com/r/bioinformatics/comments/13w13ra/building_phylogenetic_trees/ 2. https://www.reddit.com/r/bioinformatics/comments/1bvg5cz/what_softwares_to_use_to_make_phylogenetic_trees/   | 정리하자면..- dataset이 작다면 DECI..
| 계통수 시각화 프로그램 중 가장 많이 사용되는 Top 5 계통수 파일이 형식은 대부분의 소프트웨어에서 사용 가능하다. 정말 많은 도구가 있지만 그중에서 가장 널리 쓰이는 5개의 툴을 가지고 왔다. 아래 예제데이터인 phyloseq의 계통수를 가지고 각 프로그램으로 계통수를 그려보자. 예제 데이터는 qiime2의 moving-picture 데이터를 phyloseq개체로 변환한 것이다. library(ape) library(phyloseq) ps
- 작성 시작 : 2023.04.07~12| 계통수의 구조 - 빨간 점은 root - 초록점은 external node - 파란 덤은 internal node - 선은 각 node의 진화적인 변화를 선의 길이로 나타낸 것이다. 이는 아래 0.3의 scale bar로도 표시해 주었다. | 계통수 파일의 형식여러 형식이 있지만 가장 많이 사용되는 형식은 Newick, NEXUS, Phylip이 있다. Newick, NEXUS는 진화적 생물 데이터를 다루는 대부분의 프로그램에서 다루는 것이 가능하다. 그러나 BEAST나 MrByayes 파일은 특정 형식만을 입력 파일로만 가진다. Newick 트리 형식 대표적인 계통수 형식인 Newick에 대해 알아보자 위와 같은 데이터를 담고 있는 계통수가 있을 때, New..
수정 : 2023-04-16 프로그램에 관한 사용법임으로 분류 알고리즘에 대한 설명은 생략하겠습니다. 1. 다운로드 및 설치 - MEGA 다운로드 링크 : https://www.megasoftware.net/ MobaXterm_Installer_v22.1 압축 풀기 MobaXterm_Installer_v22.1 더블클릭 -> 모두 Yes -> 설치 완료 2. 예제 파일로 계통수 그리기 1) FASTA format으로 저장하기 "내 PC\문서"를 가면 "MEGA X" 폴더가 만들어진 것을 볼 수 있습니다. 그 안의 "Examples"폴더에 들어가면 MEGA프로그램 사용법을 익히기 위해 추가적으로 다운된 샘플들의 fasta파일들을 볼 수 있습니다. "MEGA X\Example\NeiKumar2000" 폴더에..
전통적으로는 담자균/자낭균/접합균/병꼴문균이였지만 지금 추세는 그림의 8문인 듯하다 Reference Spatafora, Joseph & Aime, Mary & Grigoriev, Igor & Martin, Francis & Stajich, Jason & Blackwell, Meredith. (2017). The Fungal Tree of Life: From Molecular Systematics to Genome-Scale Phylogenies. Microbiology Spectrum. 5. 10.1128/microbiolspec.FUNK-0053-2016.
UPGMA와 Neighbor Joining Tree 의 유사점 - 둘 다 distance matrix를 기반으로 계통수를 만든다 UPGMA와 Neighbor Joining Tree 의 차이점 UPGMA NJ 저자 1958, Sokal 과 Michener가 개발 1987, Naruya Saitou과 Masatoshi Nei가 개발 계통수 종류 Rooted Tree Unrooted Tree 진화속도 진화속도가 모두 같다고 가정 (=branch의 길이가 모두 같다) 진화속도가 같지 않다 (branch의 길이가 변화에 비례한다) 속도 더 간단하고 빠르다 비교적 빠르다 신뢰도 신뢰도가 떨어지는 방법 더 좋은 결과를 내놓음 결론 - UPGMA는 branch의 길이가 모두 같은 rooted tree를 만들며 - NJ..
| UPGM (Unweighted-pair-group method with arithmetic mean) - 서열의 차이를 수로 표현하여(distance) 각 종의 계통수를 구하는 방법이다. - 가장 간단하며 빠르다. | UPGM 로 계통수 그려보기 각 종마다 비교하여 다른 서열의 수를 표로 나타내면 아래와 같다. 가장 distance가 적은 종을 하나의 그룹으로 묶는다. 여기선 distance = 5인 E와 D를 같은 그룹으로 묶어서 다시한번 distance를 계산한다. 그룹으로 묶인 DE와 다른 그룹간의 거리는 아래 식을 이용한다. 다시 묶인 그룹에서 가장 적은 distance를 가진 종은 C와 A이다. 다시 A와 C를 그룹으로 묶고 다시 distance를 계산해 준다. 마지막으로 AC와 D그룹을 묶..
🟦 기본 이론 ◾ 진화론의 시작은 찰스 다윈, 이후 형태학적 분류에서 DNA서열 수준으로 확장됨 ◾ 계통수를 볼때 유의할 점 : Species tree ≠ gene tree, 왜? homologous한 유전자를 비교해야 한다 ◾ Homologous (상동) 이란? - Orthologous genes: originated from speciation 같은 조상에서 유래하면서 동일한 기능 유지라는 유전자를 말 - Paralogous genes: originated from gene duplications 같은 조상으로 부터 왔지만 기능이 조금 다른 유전자를 말함 ◾ 돌연변이의 속도 : 10^8~10^9마다 1개 꼴로 돌연변이가 발생한다. 특히 박테리아에서는 10^2~10^3번 중 1번꼴로 돌연변이 발생한다...
🟦 계통수의 구조위 그림처럼 일반적인 계통수의 각 구조 명칭을 알아보겠습니다.- root : 모든 taxa의 공통 조상을 말한다 - Node : 계통수가 갈라지는 분지점으로 진화가 일어난 부분을 표시하는 것으로 볼 수 있습니다- Branch : 한 생물의 계통을 나타낸다- Terminal Taxa : 각 종, OTU들을 표시합니다- Ingroup : 연구대상 종의 단계통적 집합을 의미합니다. 예를 들에 내가 관심 있는 종이 B라고 했을 때 C을 포한 그룹이나 A를 포함한 그룹을 의미합니다- Outgroup : ingroup과 상대적으로 먼 그룹을 통칭하거나 혹은 연구 대상의 분류군과 공동조상을 가장 먼저 이루는 군을 말합니다 (진화 역사에 있어서 공동 조상으로부터 연구 대상과 가장 빨리 분지 된 군) ..
김해김씨99대손
'Bioinformatics/Taxonomy' 카테고리의 글 목록