분류 전체보기

QIIME전용 데이터의 특징은 taxonomy와 fasta가 나누어져 있음.이때 원하는 taxa를 taxonomy 데이터에서 추출한 후, 그 아이디에 맞추어서 fasta파일을 추출해야 한다. # 원하는 taxa 추출grep "Fungi" taxonomy.tsv > taxonomy_fungi.tsvcut -f 1 taxonomy_fungi.tsv > Fungi_id# fasta 파일에서 추출 awk 'NR==FNR {ids[$1]; next} /^>/ {flag=0} {seq=$0; sub(/^>/, "", seq); if (seq in ids) {flag=1; print ">" seq; next}} flag' Fungi_id ITS.fasta > ITS_fungi.fasta# 추출 확인 grep "^>..
작성: 2024.08.22  연구하다가 궁금한 주제들은 대부분 누군가가 질문을 해 보 았을 것이다.우리는 이러한 글에 많은 도움을 받는다. 그러나 일부 의견은 전문가의 의견이 아님으로 주의해야 한다.내가 추천하는 방식은 전문가의 이름을 기억하고, 이들의 답변을 중심으로 찾아보는 것이다.   # 추천 답변자 들 (리더 및 중재자)중재자 들이란 포럼 내 전문가를 말하며, 보통 도구의 개발진이나 분야의 전문가가 이를 담당합니다. 특히 가장 큰 forum인 QIIME의 중재자를 대표적으로 소개해봅니다. - Nicholas Bokulich: Professor of Food Systems Biotechnology at ETH Zürich - Greg Caporaso:  Professor of Northern Ari..
# 패키지 불러오기 library(tidyverse)library(phyloseq)library(RColorBrewer)library(ggplot2)taxa_plot % sort(decreasing = TRUE) # Top N 추출 Names % unique() # Top n 에 속하는 Phylum와 Taxa 를 data frame으로 정리하기 p_tax_table % .[!duplicated(.[ , taxa]),] # Top N 을 제외한 taxa는 모두 Other 로 치환 processed_data % .[,"Phylum" ]%>% unique processed_data[,"Phylum"] % ..
library(glue)seq_to_fas ", fas$ID) Xfasta[c(FALSE, TRUE)]
🟦 BLAST 옵션의 단점 Local BLAST의 결과에서 우리가 확인할 수 있는 정보는 Tax id와 Phylum, Species이름 정보 등이다. 그러나 전체 계통 정보를 얻는 옵션은 기본적으로 추가되어있지 않다.  나는 기본적으로 blast 수행 시 아래와 같은 output format옵션을 선택한다. -outfmt "7 delim=, qacc sacc evalue bitscore qcovus pident sscinames"결과는 아래와 같이 "query/ 접근번호/E-value/bitscore/query coverage/ identity/ 종속명"을 나타냅니다.   더보기>> outfmt의 옵션 전체 보기 약어내용qseqidQuery Seq-id (쿼리 시퀀스 ID)qgiQuery GI (쿼리 ..
· 대학원
저는 연구실 거의 1기 대학원생 이기 때문에 같은 분야의 선배가 존재하지 않습니다.막막한 대학원생을 위해 발표 참고 자료를 공유합니다. 저희 학교의 경우 졸업논문 심사 및 발표를 총 두 번 수행하게 됩니다. 각 심사는 예비 발표와 공개 발표로 구성되어 있습니다. 예비 발표에서는 수정할 점을 많이 말씀해 주셨는데, 최종적으로는 개선되었다는 교수님들의 말씀을 들을 수 있었습니다..  # 참고 영상https://www.youtube.com/watch?v=RMKcvTWQ8ZE&t=4shttps://www.youtube.com/watch?v=a-oWa2CS8jg&t=4203s # 참고 피피티- thesis defense/ 키워드로 검색연세대 시계열 - https://www.slideshare.net/slidesh..
Nextflow란?Nextflow는 최근 떠오르는 생물정보학의 workflow management sysyem 중 하나이다.보편적으로는 SnakeMake가 사용되지만, 레딧에서는 bio 쪽에서는 Nextflow가 community가 더 큰 편이라고 한다.    16S 같은 경우에는 QIIME으로 돌리면 그만인데 필요가 있나? 싶지만 일의 시간을 획기적으로 줄여준다고 한다.    어떻게 배우는가?Metagenome분야에서 대표적인 3가지 Nextflow참고하기1.  https://nf-co.re/ampliseq/2.7.1 - 초록색이 기본값이고, 흰색은 사용가능한 도구를 뜻한다. - 2020에 논문 게재 이후 16S에서 가장 많이 사용되며, 인용수는 160 이상- Straub, D., Blackwell, ..
- 목표: 올해 안 까지 Whole genome분석 환경 세팅하기   > QIIME2 shotgun에서 지원가능한지 알아보기  > Nextflow에서 사용가능한지 알아보기 1. MAGs으로 할 수 있는 연구- 전반적 기능 예측  - Antibiotic resistance genes (ARGs) - Antimicrobial peptides (AMPs) - Pan-genome - 유전자 변이 감지 (Metagenotyping) - 미생물 대사 시뮬레이션 Fig. 2: Comparison of 16S rRNA sequencing and whole-metagenome sequencing (WMS) in microbiome analysis. 2. 사용 도구 - QC: fastqc로 확인 후 Trimmomatic,..
1. 서버 R접속이 안되어서 에러 확인 $ less /var/log/messages -> Unable to initialize the JIT라는 에러 발생   $ sudo journalctl -u rstudio-server 이걸로도 재 확인  2. "Unable to initialize the JIT" 검색 -> https://support.posit.co/hc/en-us/articles/17423794149143-Unable-to-initialize-the-JIT  1) http://:/home 에 접속이 된다면?그렇다면 session을 종료 후 재 시작 해보자  2) 되지 않는다면, R session시작에 문제가 있는 것이다. $ less /etc/rstudio/rserver.conf문서를 확인해 보..
🟦 The Sequence Read Archive(SRA)란?NIH 주관 International Nucleotide Sequence Database Collaboration (INSDC)의 산하 저장소는 the European Bioinformatics Institute (EBI), and the DNA Database of Japan (DDBJ) 등이 있다. 이 중 SRA는 high-throughput sequencing 데이터의 저장소중 하나입니다.(https://www.ncbi.nlm.nih.gov/sra/docs/) SRA의 접근 번호 SRA에 업로드된 샘플에서 여러 가지 접근 번호가 있습니다. 이에 대한 포함 관계설명드리겠습니다.접근 번호설명SRP (Sequence Read Archive P..
EUKARYOME (ver 1.8)- 논문 게재: 2024.05.23- Metazoans, protists, fungi와 plants를 모두 포함하는 all eukaryotes에 대한 데이터 베이스 - https://eukaryome.org/  - General FASTA (for DADA2), QIIME, Mothur, BLAST 전용 DB 제공  - 18S의 Long, SSU, LSU, ITS 총 네 가지 데이터 제공 기존 데이터 베이스의 한계특정 영역만 다룬다 & 업데이트가 느림(PR2, SILVA/ 2020)  - UNITE: ITS  - PR2 database: SSU  - SILVA: SSU & LSU  => SSU, LSU, ITS를 모두 담은 DB는 없을까? 제작방법- Amplicon(SI..
하... 합격이오!!!!!!!!!!!!!!! 필기시험 2주 후에 사전점수가 발표됩니다. 사전점수는 문제에 큰 오류가 없다면 확정점수와 동일합니다.2024년도 8회 실기시험은 7월 5일 (금)에 발표되었습니다.   저는 6회 필기를 보고 1년 뒤에 실기 시험을 봤습니다. 8회 실기 때는 6회, 7회의 실기문제를 보고 준비했기 때문에, 예제문제가 쌓이고 난 이후에 보길 잘했다는 생각이 듭니다.  예상대로 1 유형 만점, 3 유형은 반타작에, 2 유형이 운 좋게 30점이 나와서 합격을 거머쥘 수 있었습니다.그러나 3 유형은 답을 적지 않은 것은 모두 틀렸네요.. 난이도는 생각보다 쉬웠지만, 기초 통계에 대한 공부가 부족한 상태로 시험을 봐서 3 유형 점수가 반타작이었습니다.  물론 자격증은 커트라인을 넘는 것..