각 Phylum이 몇 퍼센트를 차지하는지 계산해 보자. 데이터는 Phyloseq의 기본 데이터 GlobalPatterns을 사용한다. | 데이터 불러오기 library(phyloseq)library(dplyr)data("GlobalPatterns")GlobalPatterns# read count table -> relative abundance tablerel % tax_glom(taxrank = "Phylum") %>% # 데이터의 크기를 줄이기 위해 Phylum 레벨로 리드 수를 합한다 psmelt() 준비된 melt 데이터를 살펴보자. 각각의 OTU, taxonomy, metadata가 따로 있는 biom format의 파일에서, 각 OTU가 어떤 샘플에서 어느 정..
| 함수 metadata의 각 column 별로 x값을 달리해서 그림을 그려주는 함수를 만들어보자. 예제 데이터는 phyloseq의 GlobalPatterns를 사용할 것이다. 추가적으로 GlobalPatterns의 metadata에 "Type"이라는 변수를 추가하여 보자. Type은 각 샘플을 사람 것인지, 환경에서 얻어 온 것인지 혹은 Mock 샘플인지 구분하여 준다. library(ggpubr) library(phyloseq) library(ggplot2) library(dplyr) data("GlobalPatterns") GlobalPatterns # phyloseq-class experiment-level object # otu_table() OTU Table: [ 19216 taxa and 2..
샘플의 이름은 각 기관마다 다르지만, 분석할 때는 인덱싱 하기 쉽게 단순화하여 사용한다. 예를 들어 01번째 환자의 cheek 부위의 샘플이라면, "001ch"처럼 약자를 이용해 이름을 짓는다. 또한 마이크로바이옴 기초 데이터의 시퀀싱 결과를 파악하기 위해서 각 샘플마다 read 수를 확인해야 한다. 이때 sampling depth로 rarefy의 수를 정하기도 하고, 시퀀싱이 잘 되었는지 확인한다. 나는 이를 한눈에 보기 위해 R을 이용하여 아래와 같은 테이블을 만들고자 하였다. HV01 HV02 HV03 HV04 Total Read So Df Ac Ne 하지만 여기엔 조건이 있다. 1. 이름에 각 환자의 순번과 부위가 존재해야 한다. ex) 001VH, 003JF, CD001 등등 일정 형식이 존재해..
🟦 샘플 필터링은 왜 필요한가? ◼ 마이크로 바이옴 분석에서 데이터는 보통 대용량 데이터이다. ◼ 분석 시 컴퓨터의 과부하를 줄이기 위하여 일부 데이터만 추출하여 비교하기도 한다. - ex) major한 taxa에서 differencfial abundance test를 위해 read수가 많은 순으로 10%만 골라낸다 ◼ 일정 depth를 충족하지 못한 샘플은 왜곡이 많을 것이라고 가정해 제거하고 분석을 수행한다. 🟦 Phyloseq 데이터를 이용한 필터링 해보기 library(phyloseq) data(GlobalPatterns) GlobalPatterns # hyloseq-class experiment-level object # otu_table() OTU Table: [ 19216 taxa and 2..
🟦 1. 서론 일단 데이터 분석의 자동화가 가능한가? 이는 데이터마다 다르다. 데이터 별로 각 EDA분석 이후 데이터의 품질을 보고 그 이후 분석 방법을 설계해야 한다. 그러나 마이크로바이옴 데이터의 경우 OTU table이라는 정형화된 데이터 형식이 있으며, 각 퀄리티가 떨어지는 데이터를 제외하고 분석하는 경우가 많아 이러한 변수의 영향을 덜 받는다고 말할 수 있다. 그러므로, 각 분석의 반복적 작업 단계를 자동화하는 것이 목표이며, 이에 대한 방법을 고민하고 있다. Taxonomy 함수를 그릴 때 기본적인 R base의 색으로 표현해도 문제는 없지만, 외부 발표용 자료는 어느 정도 보는 사람이 잘 이해하도록 만들어야 한다. 하지만 수동적으로 색을 부과하는 작업은 시간이 낭비된다. 그래서 입력한 숫자에..
- 작성 시작 : 2023-01-17 - 작성 완료 : 2023-02-28 논문에서는 독창성이 가장 가치가 높은 가치로 꼽히지만, 그러한 내용을 설명하는 그림자료도에도 신경을 써야 한다. 마이크로바이옴 분야에서 흔하게 사용되는 figure는 alpha diversity, beta divertsity, Taxonomy composition이 있다. 그 중 Taxonomy composition은 각 샘플에서 어떤 taxa가 상대적인 분포를 갖는지 보여주는 그림이다. 이 글에서는 phyloseq 예제 데이터인 GlobalPatterns을 사용해서 시각화 방법 3가지를 소개한다. 🟦 1. 수동으로 RColorBrewer색 지정 - Phyloseq 객채 : GlobalPatterns - 내가 기존에 사용하던 방법..
- 여러 통계적 테스트에서 가장 중요한것은 p-value값이 특정 값보다(대게 0.05) 높은지 낮은지 이다. - 현재 보고자 하는 것은 피부의 각 부위별로 왼쪽과 오른쪽의 차이를 비교하고 싶다. - 이때 permonova test를 시행한 후, 각 부위별로 p-value값을 모아서 보고자 한다. - 사용하는 객체는 phyloseq의 예제 데이터를 사용한다 을 사용한다. ⬛ 예제 데이터 library(tidyverse) library(phyloseq) library(vegan) library(glue) - Phyloseq 의 기본 예제 데이터 이용 : enterotype - 위 데이터에서 enterotype이 각 1,2,3인 값에서 Sequencing technique(일루미나, 생어)에 따른 차이가 있..
작성 : 2022-10-24수정 : 2023-06-04 (microbial 패키지 추가) 🟦 목표1. Microbiome의 marker 미생물을 찾는데 많이 사용되는 LefSe 분석에 대해 알아보고2. R을 이용하여 분석을 후 시각화해 보자 🟦 LefSe 분석이란?LDA (linear discriminant analysis)란이는 차원축소 방법 중 하나로, 간단히 말해 기존의 데이터의 class들을 잘 나눌 수 있는 선을 찾고 새로운 데이터가 나타났을 때 사전에 찾은 선을 기준으로 어떤 class인지 분류해 주는 알고리즘이다(출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=ysd2876&logNo=221212453..