빅분기 실기지난주 6월 22일 (토)에 시행된 빅분기 실기시험의 공부방법과 시험 후기를 공유해보고자 합니다. - 시험 장소: 대전 대전광역시 중구 중앙로 137번 길 36 세잔 IT직업전문학교- 시험 시간: 10:00~13:00 (9:30까지 입실)- 시험 정보 - 제1 유형 데이터 처리/ 30점 (3문제) - 제2 유형 데이터 모델링/ 40점 (1문제) - 제3 유형 통계/ 30점 (2문제, 각 문제당 3문제, 5점씩) 8회 공부[백그라운드] - 컴공 X, 대학원에서 코딩 O - 통계는 기초 정도, 머신러닝을 다루기도 하지만 이론 잘 모릅니다.- 주 언어는 R이며, dplyr 사용에 능숙합니다. - 이전에 ADsP를 취득한 경험이 있습니다. [공부 시간 및 공부방법] - 공부 소요시간..
인기 글
- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가 🟦 PICRUSt2란? 단백체 분석이나 RNA seq, Microbiome에서 분석하는 기본 데이터는 table이다. 각 샘플이 행으로 배치되어 있고, 각 열의 이름은 단백질 이름, RNA 이름, ASV 이름, taxa로 바꾸어 갈 뿐이지 형식은 거의 동일하다. 이때 우리는 행 값을 feature라고 부르겠다. 이를 통해서 우리는 각 샘플에 어떤 특정한 열에 해당하는 물질 또는 생물이 풍부하게 존재함을 알 수 있다. microbiome(Amplicon) 데이터에서 feature는 ASV 혹은 OTU이다. 이 feature을 사용해서 ..
작성 : 2023.04.13~2023-04-17수정: 2024-02-05picrust2 visualization 들어가기에 앞서오늘은 올해 따끈따끈하게 출시된(무려 2023년 4월 8일) ggpicrust2 패키지를 소개합니다. ggpicrust2는 마이크바이옴의 기능 예측 도구인 picrust2의 결과물을 통계적으로 분석하고 시각화하는 데에 사용합니다. > 분석 환경 - biom과 picrust 설치 필요. - 추가적으로 분석은 R환경 (최신 버전) > 예제 데이터: QIIME2 예제인 moving-picture - 이는 사람의 혀, 장, 양 손바닥의 마이크로바이옴 데이터를 담고 있다. 이 중에서 혀와 장의 마이크로바이옴에 해당하는 기능예측 유전자를 비교해 본다. ggpicrust2- ..
글 작성 (2024-05-24 ~ 2024-05-28)좀 더 읽기 쉬운 글로 수정하였습니다 (2024-11-19) 모든 생물학도가 사용한다고 해도 과언이 아닌 BLAST, 잘 알고 계시나요?생물정보학에서 서열정렬(Sequence Alignment)은 필수적인 기술로, 유전학, 단백질 연구, 진화생물학 등 다양한 분야에서 사용되고 있습니다. 이 글에서는 쉽게 이해할 수 있도록 서열 정렬의 역사, 기본 개념, 그리고 대표적인 도구인 BLAST까지 알아볼까요? 1. 서열 정렬(Sequence alignment) 이란?서열 정렬은 DNA, RNA 또는 단백질의 서열을 배열하여 서열 간의 기능적, 구조적 또는 진화적 연관성을 모두 파악하여 유사성을 확인하는 것이다. 또한 유사성을 통해 우리가 알아..
2024.04.18.업데이트 마이크로바이옴을 공부하면 아마 가장 먼저 배우게 되는 것이 이 QIIME2의 사용법입니다. Moving pictures tutorial을 참고하여 각 단계별로 세세하게 알아봅시다.🙉 분석 데이터 관찰하기- QIIME tutorial 홈페이지: https://docs.qiime2.org/2024.2/tutorials/moving-pictures/- 관련 영상: https://www.youtube.com/watch?v=RcdTZE8VbJg&list=PLOCEVoX6zu2Ii8RD7i9Oi7Pbot_5WF08n QIIME2의 moving-picture tutorial에서 사용된 데이터는 사람의 마이크로바이옴 데이터입니다. 이 데이터는 항생제 사용에 관하여 두 명의 대..
글 작성: 24.01.03. 내용추가: 24.01.02. 1. Network analysis | 마이크로바이옴 연구에서 네트워크 연구란? - microbiome은 복잡한 미생물 군집을 말한다. 여러 생물들의 상호작용은 전체 미생물의 구조를 안정적이며 견고하게 만든다. - 네트워크 plot은 미생물의 scale과 다양성을 모두 나타낼 수 있으며, 단편적인 관계보다 보편적인 시스템을 보여준다. | Network의 구성성분 - node: 하나의 샘플이나 OTU/ASV를 뜻한다 - edge: 각 단위 간의 관계를 말한다 | network plot에서 알 수 있는 정보들 - node의 정보: 색, 모양, 크기, 라벨에 정보를 표시할 수 있다. - e.g. 색에는 그룹 데이터를, 크기는 relative abunda..
🟦 계통수의 구조위 그림처럼 일반적인 계통수의 각 구조 명칭을 알아보겠습니다.- root : 모든 taxa의 공통 조상을 말한다 - Node : 계통수가 갈라지는 분지점으로 진화가 일어난 부분을 표시하는 것으로 볼 수 있습니다- Branch : 한 생물의 계통을 나타낸다- Terminal Taxa : 각 종, OTU들을 표시합니다- Ingroup : 연구대상 종의 단계통적 집합을 의미합니다. 예를 들에 내가 관심 있는 종이 B라고 했을 때 C을 포한 그룹이나 A를 포함한 그룹을 의미합니다- Outgroup : ingroup과 상대적으로 먼 그룹을 통칭하거나 혹은 연구 대상의 분류군과 공동조상을 가장 먼저 이루는 군을 말합니다 (진화 역사에 있어서 공동 조상으로부터 연구 대상과 가장 빨리 분지 된 군) ..
자료 설명 ▶ 자료 출처 : https://www.edwith.org/ptnr/kobic/ 의 강의 ▶ 샘플 정보 - 3반복 실험 - CDA Knockout 과 Control - 총 6 sample ▶ DEG 파일 정보 (log2 read count table) - log2로 치환한 값 - raw name은 gene ID, column name은 sample ID R에서 heatmap 그리기 1. 파일 읽어 오기 DEG
- 수정 2023-03-22 : 오개념 수정 🟦 Alpha diversity란? - Alpha diversity는 한 sample내의 종 다양성을 말한다. Alpha diversity를 이해하기 위해 아래 데이터를 사용해보자. 이 데이터는 한 바다에 5종의 생물이 발견되었음을 가정한다. Species Number (n) n(n-1) p pInp p^2 Sea holly 2 2 0.1333333 -0.26862 0.017769 Sand couch 8 56 0.5333333 -0.33527 0.284409 Sea bindweed 1 0 0.0666666 -0.18042 0.004436 Sporobolus pungens 1 0 0.0666666 -0.18042 0.004436 Echinophora spinos..
최신글
강의 자료 (무료)- Lectures of Prof Wishart : https://youtube.com/playlist?list=PLE20foNk9J6IGPVSFkfn6U7lmUzFvWPYQ&si=mziqTi-zeoPJJxIe Metabolomics lecture series by Prof David Wishart www.youtube.com - 2022 summer school on Non-Targeted Metabolomics: https://youtube.com/playlist?list=PL0JAF-4UFc8Nujp1ET-TwNdOGrBGsuZ7J&si=98QlnVc0KrBBEO1j 2022 Summer School on Non-Targeted Metabolomics www.youtube.com-..
옛날 버전 코드만 보고, "-o"을 설정하는 바람에 결과가 계속 안 나왔었다. 알고 보니 MetaPhlAn4에서 샘플 작성 방법이 일부 수정된 듯...내 시간 😭😭 metaphlan \--nproc 32 \--input_type fastq \--bowtie2out metaphlan4.out/MockATCC_1.bowtie2.bz2 \./host_removal/host_removed.1.fastq.gz,./host_removal/host_removed.2.fastq.gz \metaphlan4.out/host_removed_profile.txt Reference- https://protocols.hostmicrobe.org/software/list-of-software-and-uses/metaphlan..
Likert plot이란?Likert plot은 흔히 설문조사라고 불리는 리커트 척도(likert scale) 조사에 사용되는 시각화 방법입니다. 리커트 척도는 문장을 제시하고, 그에 대한 동의/비동의를 평가하는 방식을 뜻한다. 주로 3~5가지의 문항을 사용한다고 합니다. R의 likert plot은 원데이터를 분포로 바꾸지 않아도, 자동적으로 요약 및 시각화를 해주는 도구입니다. 항생제 내성결과 또한 분포에 따라 데이터를 정렬하는 것으로, likert plot을 사용하기 좋은 데이터입니다. 항생제 내성 결과항생제 내성은 3가지로 나눌 수 있습니다.R (Resistant): high likelihood of therapeutic failure.S (Susceptible) high likeliho..
내용추가: 24/10/10 지난 6월, 네이처에 게재된 마이크로바이옴 관련 논문이 철회되었습니다. 해당 논문은 암 연구를 위해 활용된 WGS 데이터(TCGA)에서 박테리아 유전체를 추출하여 32가지 암을 구분하는 머신러닝 모델을 개발한 연구입니다. 이 연구는 Human Microbiome Project를 이끄셨던 Rob Knight 교수님의 연구실에서 수행되었습니다. 최근 레딧을 통해 이 소식을 접하게 되었습니다. 비록 이 주제가 매우 뜨거운 이슈임에도 불구하고 국내에서는 충분한 보도가 이루어지지 않았습니다. 이에 관련된 자세한 상황을 시간 순으로 정리하였으니 관심 있으신 분들은 참고하시기 바랍니다. 📅 Timeline Cancer microbiome 저자 연구실은 🟣 , 반박의견은 🟢으로 표시 1️⃣ ..
Obviously, there is no general sequence-clustering threshold across species and there will always be a trade-off between over-splitting and lumping of species (Kauserud, H, Fungal Ecology, 2023). "Lumpers and splitters"의 splitters는 더 작은 단위로 나누고 싶어 하는 연구자를 말하며 (공통점 강조), Lumpers는 좀 더 큰 단위로 할당하고 싶어 하는 연구자를 말한다(차이점 강조). 이 표현은 찰스 다윈이 처음 사용했다고 알려져 있다. 현재, 연구실에서는 진균의 유전체를 다루고 있다. 박테리아만 다루다가 진균을 분석해 ..
https://ftp.ncbi.nih.gov/pub/taxonomy/Major_taxonomic_updates_2023.txthttps://ncbiinsights.ncbi.nlm.nih.gov/2022/11/14/prokaryotic-phylum-name-changes/https://ncbiinsights.ncbi.nlm.nih.gov/2024/08/29/ncbi-taxonomy-updates-to-yeasts/#more-13805
QIIME전용 데이터의 특징은 taxonomy와 fasta가 나누어져 있음.이때 원하는 taxa를 taxonomy 데이터에서 추출한 후, 그 아이디에 맞추어서 fasta파일을 추출해야 한다. # 원하는 taxa 추출grep "Fungi" taxonomy.tsv > taxonomy_fungi.tsvcut -f 1 taxonomy_fungi.tsv > Fungi_id# fasta 파일에서 추출 awk 'NR==FNR {ids[$1]; next} /^>/ {flag=0} {seq=$0; sub(/^>/, "", seq); if (seq in ids) {flag=1; print ">" seq; next}} flag' Fungi_id ITS.fasta > ITS_fungi.fasta# 추출 확인 grep "^>..
작성: 2024.08.22 연구하다가 궁금한 주제들은 대부분 누군가가 질문을 해 보 았을 것이다.우리는 이러한 글에 많은 도움을 받는다. 그러나 일부 의견은 전문가의 의견이 아님으로 주의해야 한다.내가 추천하는 방식은 전문가의 이름을 기억하고, 이들의 답변을 중심으로 찾아보는 것이다. # 추천 답변자 들 (리더 및 중재자)중재자 들이란 포럼 내 전문가를 말하며, 보통 도구의 개발진이나 분야의 전문가가 이를 담당합니다. 특히 가장 큰 forum인 QIIME의 중재자를 대표적으로 소개해봅니다. - Nicholas Bokulich: Professor of Food Systems Biotechnology at ETH Zürich - Greg Caporaso: Professor of Northern Ari..
# 패키지 불러오기 library(tidyverse)library(phyloseq)library(RColorBrewer)library(ggplot2)taxa_plot % sort(decreasing = TRUE) # Top N 추출 Names % unique() # Top n 에 속하는 Phylum와 Taxa 를 data frame으로 정리하기 p_tax_table % .[!duplicated(.[ , taxa]),] # Top N 을 제외한 taxa는 모두 Other 로 치환 processed_data % .[,"Phylum" ]%>% unique processed_data[,"Phylum"] % ..
library(glue)seq_to_fas ", fas$ID) Xfasta[c(FALSE, TRUE)]
🟦 BLAST 옵션의 단점 Local BLAST의 결과에서 우리가 확인할 수 있는 정보는 Tax id와 Phylum, Species이름 정보 등이다. 그러나 전체 계통 정보를 얻는 옵션은 기본적으로 추가되어있지 않다. 나는 기본적으로 blast 수행 시 아래와 같은 output format옵션을 선택한다. -outfmt "7 delim=, qacc sacc evalue bitscore qcovus pident sscinames"결과는 아래와 같이 "query/ 접근번호/E-value/bitscore/query coverage/ identity/ 종속명"을 나타냅니다. 더보기>> outfmt의 옵션 전체 보기 약어내용qseqidQuery Seq-id (쿼리 시퀀스 ID)qgiQuery GI (쿼리 ..
저는 연구실 거의 1기 대학원생 이기 때문에 같은 분야의 선배가 존재하지 않습니다.막막한 대학원생을 위해 발표 참고 자료를 공유합니다. 저희 학교의 경우 졸업논문 심사 및 발표를 총 두 번 수행하게 됩니다. 각 심사는 예비 발표와 공개 발표로 구성되어 있습니다. 예비 발표에서는 수정할 점을 많이 말씀해 주셨는데, 최종적으로는 개선되었다는 교수님들의 말씀을 들을 수 있었습니다.. # 참고 영상https://www.youtube.com/watch?v=RMKcvTWQ8ZE&t=4shttps://www.youtube.com/watch?v=a-oWa2CS8jg&t=4203s # 참고 피피티- thesis defense/ 키워드로 검색연세대 시계열 - https://www.slideshare.net/slidesh..
# 이전글 [ggpicrust2] picrust2 결과물을 시각화 하는 ggpicrust2 튜토리얼작성 : 2023.04.13~2023-04-17수정: 2024-02-05picrust2 visualization 들어가기에 앞서오늘은 올해 따끈따끈하게 출시된(무려 2023년 4월 8일) ggpicrust2 패키지를 소개합니다. ggpicrust2는 마이크바이옴의 기능 예측bio-kcs.tistory.com [web crawling] KEGG PATHWAY level에 따른 표를 가져와보자 Structured Tables from KEGG Pathway Data🟦 목적 ggpicrust2 도구 사용 시, Kegg number에 따라 annotation 할 때, kegg 서버에 문제가 생기는 일이 매우 잦았..
Nextflow란?Nextflow는 최근 떠오르는 생물정보학의 workflow management sysyem 중 하나이다.보편적으로는 SnakeMake가 사용되지만, 레딧에서는 bio 쪽에서는 Nextflow가 community가 더 큰 편이라고 한다. 16S 같은 경우에는 QIIME으로 돌리면 그만인데 필요가 있나? 싶지만 일의 시간을 획기적으로 줄여준다고 한다. 어떻게 배우는가?Metagenome분야에서 대표적인 3가지 Nextflow참고하기1. https://nf-co.re/ampliseq/2.7.1 - 초록색이 기본값이고, 흰색은 사용가능한 도구를 뜻한다. - 2020에 논문 게재 이후 16S에서 가장 많이 사용되며, 인용수는 160 이상- Straub, D., Blackwell, ..
- 목표: 올해 안 까지 Whole genome분석 환경 세팅하기 > QIIME2 shotgun에서 지원가능한지 알아보기 > Nextflow에서 사용가능한지 알아보기 1. MAGs으로 할 수 있는 연구- 전반적 기능 예측 - Antibiotic resistance genes (ARGs) - Antimicrobial peptides (AMPs) - Pan-genome - 유전자 변이 감지 (Metagenotyping) - 미생물 대사 시뮬레이션 Fig. 2: Comparison of 16S rRNA sequencing and whole-metagenome sequencing (WMS) in microbiome analysis. 2. 사용 도구 - QC: fastqc로 확인 후 Trimmomatic,..
1. 서버 R접속이 안되어서 에러 확인 $ less /var/log/messages -> Unable to initialize the JIT라는 에러 발생 $ sudo journalctl -u rstudio-server 이걸로도 재 확인 2. "Unable to initialize the JIT" 검색 -> https://support.posit.co/hc/en-us/articles/17423794149143-Unable-to-initialize-the-JIT 1) http://:/home 에 접속이 된다면?그렇다면 session을 종료 후 재 시작 해보자 2) 되지 않는다면, R session시작에 문제가 있는 것이다. $ less /etc/rstudio/rserver.conf문서를 확인해 보..
🟦 The Sequence Read Archive(SRA)란?NIH 주관 International Nucleotide Sequence Database Collaboration (INSDC)의 산하 저장소는 the European Bioinformatics Institute (EBI), and the DNA Database of Japan (DDBJ) 등이 있다. 이 중 SRA는 high-throughput sequencing 데이터의 저장소중 하나입니다.(https://www.ncbi.nlm.nih.gov/sra/docs/) SRA의 접근 번호 SRA에 업로드된 샘플에서 여러 가지 접근 번호가 있습니다. 이에 대한 포함 관계설명드리겠습니다.접근 번호설명SRP (Sequence Read Archive P..
EUKARYOME (ver 1.8)- 논문 게재: 2024.05.23- Metazoans, protists, fungi와 plants를 모두 포함하는 all eukaryotes에 대한 데이터 베이스 - https://eukaryome.org/ - General FASTA (for DADA2), QIIME, Mothur, BLAST 전용 DB 제공 - 18S의 Long, SSU, LSU, ITS 총 네 가지 데이터 제공 기존 데이터 베이스의 한계특정 영역만 다룬다 & 업데이트가 느림(PR2, SILVA/ 2020) - UNITE: ITS - PR2 database: SSU - SILVA: SSU & LSU => SSU, LSU, ITS를 모두 담은 DB는 없을까? 제작방법- Amplicon(SI..
하... 합격이오!!!!!!!!!!!!!!! 필기시험 2주 후에 사전점수가 발표됩니다. 사전점수는 문제에 큰 오류가 없다면 확정점수와 동일합니다.2024년도 8회 실기시험은 7월 5일 (금)에 발표되었습니다. 저는 6회 필기를 보고 1년 뒤에 실기 시험을 봤습니다. 8회 실기 때는 6회, 7회의 실기문제를 보고 준비했기 때문에, 예제문제가 쌓이고 난 이후에 보길 잘했다는 생각이 듭니다. 예상대로 1 유형 만점, 3 유형은 반타작에, 2 유형이 운 좋게 30점이 나와서 합격을 거머쥘 수 있었습니다.그러나 3 유형은 답을 적지 않은 것은 모두 틀렸네요.. 난이도는 생각보다 쉬웠지만, 기초 통계에 대한 공부가 부족한 상태로 시험을 봐서 3 유형 점수가 반타작이었습니다. 물론 자격증은 커트라인을 넘는 것..
만약 샘플이 다르다면, 형성된 ASV를 기준으로 합치는 것은 매우 어렵습니다. 그러나 해상도가 조금 떨어지더라고 Species 기준으로는 두 샘플을 합칠 수 있습니다. 예제데이터를 사용하여 두 개의 phyloseq을 임의로 두 개로 나눈 다음에 다시 합쳐보겠습니다! 먼저 Phyloseq을 합치기 위한 조건이 있습니다. 1. 동일한 Metadata 속성을 가질 것 - 즉 sample_data()로 나오는 데이터의 colnames가 동일해야 합니다.2. 전체 데이터를 Species-level로 합친 다음에, tax_table의 rownames이 Species여야 합니다. 3. count가 아닌 relative abundance에서만 합치는 것이 그나마.. pivot_wider를 이용해서 Phylos..
일단 다른 연구에 도움이 되고자, 기존 HMP 데이터 베이스를 재분석하는 일을 하였다. 교수님이 짬 날 때만 하라고 하셨지만, 짬이 많이 나서 빠르게 해치웠다. 위 프로젝트의 목표는 기존 데이터셋에 나타나지 않은 A라는 균이 우리 연구실 샘플에서 많이 나타나는데, HMP 데이터에서 이 A가 과소평가된 게 아닐까? 하는 의구심으로 시작되었다. 아니나 다를까 역시 맞았다. 동정된 지 별로 오래되지 않은 균이기 때문에, 기존 HMP 데이터셋에 나타나지 않았던 것이다. 분석된 데이터셋은 16S rRNA의 V1 V3, V3V4사 사용되었으며, 현재 V3V4는 분석 중이다. 기존 HMP 16S데이터가 QIIME1기반의 OTU가 사용되었기 때문에, DADA2 결과와는 상이한 부분이 많다. 패키지는 아래 논문처..