Bioinformatics

이전 글   레딧발 ML 계통수 제작 도구 추천검색을 하다가 여러 카테고리를 가진 해외 커뮤니티를 발견하였다. 레딧은 여러 주제별로 다양한 이야기를 토론하는 사이트인듯하다. 여기 bioinfomatics 레딧에 유용한 정보가 많이 올라오니 구독bio-kcs.tistory.com  Linux기반에서 수행될 때를 기준으로 작성되었습니다. 먼저 cd ~ 위치에 도구들을 위한 tools 폴더를 만들어 봅시다. cd ~mkdir tools/   1. Raxml 설치 - github: https://github.com/stamatak/standard-RAxML 서버에 파일 다운로드하기cd tools/wget https://github.com/stamatak/standard-RAxML/archive/master.zi..
검색을 하다가 여러 카테고리를 가진 해외 커뮤니티를 발견하였다. 레딧은 여러 주제별로 다양한 이야기를 토론하는 사이트인듯하다. 여기 bioinfomatics 레딧에 유용한 정보가 많이 올라오니 구독을 추천한다.  현재 Fungi의 분석 pipeline을 구축 중인데, 계통수에 관한 글을 가져왔다.   1. https://www.reddit.com/r/bioinformatics/comments/13w13ra/building_phylogenetic_trees/ 2. https://www.reddit.com/r/bioinformatics/comments/1bvg5cz/what_softwares_to_use_to_make_phylogenetic_trees/   | 정리하자면..- dataset이 작다면 DECI..
결론만 말하지만, unclutured와 unidentified는 reference에 등록이 되었으며, 분류기로 분류가 되었다.그러나 이 생물이 실제로 배양 까다로워서 배양 결과가 없거나, Genus까지는 일치하는데 species level에서 판단이 안 되는 서열을 말한다. unassigned = unclassified = NA는 같은 뜻이며, 분류기가 분류하지 못한 서열이라는 뜻이다.   우리는 대게 QIIME2에서 fit-classifier-sklearn를 사용하여 완성된 ASV와 가장 유사한  계통정보를 매칭시킨다.  예를 들어, 곰팡이 연구에서 많이 사용되는 UNITE database(for QIIME2)의 taxonomy정보를 보면, 데이터베이스 자체에서 unidentified, sp로 분류된 ..
위 에러는 sequence에 taxonomy정보를 매칭하는 assignment단계에서 발생합니다. 이는 기존에 생성한 qiime classifier가 최신버전이기 때문에 생기는 문제입니다..ㅠㅠㅠqiime feature-classifier classify-sklearn \ --i-classifier ~/Reference/ITS/QIIME2/THFv1.6.1_classifier.qza \ --i-reads ./2.output/rep-seqs-dada2.qza \ --o-classification ./2.output/taxonomy_THF.qza  위 에러는 sequence에 taxonomy정보를 매칭하는 assignment단계에서 발생합니다. 이는 기존에 생성한 qiime classi..
Fungi database에는 UNITE가 가장 대표적으로 사용됩니다. 그러나 Targeted Host-associated Fungi ITS Database(THF)도 유명한 데이터베이스 중 하나입니다. 이를 dada2 버전으로 바꾼 다음에 사용해 봅시다.  1. 파일 다운로드 가장 최신 버전인 1.6.1을 다운로드하여 보겠습니다.   - THFv1.6.1- FASTA sequencesv1.6.1  위 파일은 QIIME2에 사용하기 좋은 형식으로 나누어져 있습니다. 즉 taxonomy annotation정보와 sequence정보가 따로 저장되어 있습니다. 이때 Accession 번호를 통해서, 각 서열에 매치된 데이터베이스의 정보를 파악할 수 있습니다. 2.  Taxonomy  형식 바꾸기 그러나 QII..
ReferenceLemon KP. Human nasal microbiota. Curr Biol. 2020 Oct 5;30(19):R1118-R1119. doi: 10.1016/j.cub.2020.08.010. PMID: 33022252.  사람의 비강에는 어떤 미생물이 서식하고 있고, 왜 이것이 중요한가?    인간의 비강(nasal passage)은 콧구멍(nostil)에서 목구멍의 윗부분을 말하며, 독특한 미생물 군이 자리 잡고 있다. 인간의 비강 미생물 군은 공중보건과 개인 건강에 매우 중요하다. 공생균(commensal)과 상리공생균(mutualist) 외에도 병원균을 포함하는 경우가 많다. 비강에 존재하는 병원균은 중이염부터 심각한 혈류 및 심장판박질환을 유발할 수 있다. 또한 병원체는 코에 군..
Fungi database에는 UNITE가 가장 대표적으로 사용됩니다. 그러나 Targeted Host-associated Fungi ITS Database(THF)도 유명한 데이터베이스 중 하나입니다. 이를 dada2 버전으로 바꾼 다음에 사용해 봅시다.   1. 파일 다운로드 가장 최신 버전인 1.6.1을 다운로드하여보겠습니다.   - THFv1.6.1- FASTA sequencesv1.6.1  위 파일은 QIIME2에 사용하기 좋은 형식으로 나누어져 있습니다. 즉 taxonomy annotation정보와 sequence정보가 따로 저장되어 있습니다. 이때 Accession 번호를 통해서, 각 서열에 매치된 데이터베이스의 정보를 파악할 수 있습니다.그러나 DADA2 의 database의 형식은 아래와..
이전 편 📗인코렌탈(생물정보 분석): 언제 어디서나 클라우드를 이용한 NGS분석 01 1. 서버 접속 이후 서버 접속이 완료되었다면, 아래와 같은 화면이 정상적으로 보입니다. 왼쪽에는 CLC Genomics Workbench 가 있으며, 우측 상단에는 리눅스 OS의 폴더와, 아래는 파일을 주고받기 위한 commend line 창이 띄워져 있습니다. 제가 사용한 파일은 엠플리콘 마이크로바이옴 예제 데이터입니다. Miseq으로 수행되었으며, 16S rRNA의 V4를 forward와 reverse방향에서 읽어낸 파일입니다(paired-end). 위 샘플은 DADA2의 예제 파일로서, 38개의 데이터로 구성되어 있습니다. 2. 지원하는 분석단계 1) 개별 도구 CLC의 왼쪽 아래 Tool box를 보면, 위 솔..
김해 김씨 99대손
'Bioinformatics' 카테고리의 글 목록 (2 Page)