Bioinformatics

샘플의 이름은 각 기관마다 다르지만, 분석할 때는 인덱싱 하기 쉽게 단순화하여 사용한다. 예를 들어 01번째 환자의 cheek 부위의 샘플이라면, "001ch"처럼 약자를 이용해 이름을 짓는다. 또한 마이크로바이옴 기초 데이터의 시퀀싱 결과를 파악하기 위해서 각 샘플마다 read 수를 확인해야 한다. 이때 sampling depth로 rarefy의 수를 정하기도 하고, 시퀀싱이 잘 되었는지 확인한다. 나는 이를 한눈에 보기 위해 R을 이용하여 아래와 같은 테이블을 만들고자 하였다. HV01 HV02 HV03 HV04 Total Read So Df Ac Ne 하지만 여기엔 조건이 있다. 1. 이름에 각 환자의 순번과 부위가 존재해야 한다. ex) 001VH, 003JF, CD001 등등 일정 형식이 존재해..
🟦 샘플 필터링은 왜 필요한가? ◼ 마이크로 바이옴 분석에서 데이터는 보통 대용량 데이터이다. ◼ 분석 시 컴퓨터의 과부하를 줄이기 위하여 일부 데이터만 추출하여 비교하기도 한다. - ex) major한 taxa에서 differencfial abundance test를 위해 read수가 많은 순으로 10%만 골라낸다 ◼ 일정 depth를 충족하지 못한 샘플은 왜곡이 많을 것이라고 가정해 제거하고 분석을 수행한다. 🟦 Phyloseq 데이터를 이용한 필터링 해보기 library(phyloseq) data(GlobalPatterns) GlobalPatterns # hyloseq-class experiment-level object # otu_table() OTU Table: [ 19216 taxa and 2..
2023.06.07 R풀이 추가 더보기 Wascally Wabbits 1202년, 피보나치로 알려진 피사의 레오나르도가 Liber Abaci책을 출간하면서 번식에 대한 문제를 담았다. 토끼 번식에 대한 가정은 아래와 같다. 인구는 1월 1일 한 쌍의 신생아 토끼에서 시작한다. 한 달이 지나면 생식 연령에 도달한다. 특정 달에는 모든 토끼는 생식 연령의 다른 토끼와 짝을 이룬다. 정확히 두 토끼의 짝짓기 한달 후, 암컷과 수컷 토끼 총 한 쌍을 낳는다. 토끼는 죽거나 번식을 멈추지 않는다. Fn은 각 달에 총 토끼 짝의 수라고 했을 때, F3 = F2 + F1 = 2 + 1 = 3이다 Fibonacci's exercise은 1년이 지난 후 몇 쌍의 토끼가 남는지에 대한 계산을 했다. 1년 후 개체수는 14..
더보기 The Need for Averages 평균은 어디에나 있다. 스포츠에서, 우리는 팀이 승리할 것이라고 예상되는 수를 예측하려고 한다. 도박에서는, 우리는 블랙잭을 게임하면서 평균 실점을 예측하려고 한다. 비즈니스에서, 회사는 다음 분기의 평균 매출을 계산하려고 한다. 분자 생물학에서도 평균은 필요하다. 연구자는 평균적인 항생제 저항 병원균의 수를 예측하며, motif에 일치할 것이라고 예측되는 위치의 수를 추정하고, 인구 전체에 대한 대립 유전자 분포에 대한 평균을 연구한다. 이 문제에 대해서, 우리는 마지막 대립유전자 분포에 대해 논의해야 한다. 문제 1과 n사이의 정수값을 가지는 X 확률변수(random variable)에서, X의 기댓값(expected value )은 아래 그림과 같다. ..
🟦 1. 서론 일단 데이터 분석의 자동화가 가능한가? 이는 데이터마다 다르다. 데이터 별로 각 EDA분석 이후 데이터의 품질을 보고 그 이후 분석 방법을 설계해야 한다. 그러나 마이크로바이옴 데이터의 경우 OTU table이라는 정형화된 데이터 형식이 있으며, 각 퀄리티가 떨어지는 데이터를 제외하고 분석하는 경우가 많아 이러한 변수의 영향을 덜 받는다고 말할 수 있다. 그러므로, 각 분석의 반복적 작업 단계를 자동화하는 것이 목표이며, 이에 대한 방법을 고민하고 있다. Taxonomy 함수를 그릴 때 기본적인 R base의 색으로 표현해도 문제는 없지만, 외부 발표용 자료는 어느 정도 보는 사람이 잘 이해하도록 만들어야 한다. 하지만 수동적으로 색을 부과하는 작업은 시간이 낭비된다. 그래서 입력한 숫자에..
- 작성 시작 : 2023-01-17 - 작성 완료 : 2023-02-28 논문에서는 독창성이 가장 가치가 높은 가치로 꼽히지만, 그러한 내용을 설명하는 그림자료도에도 신경을 써야 한다. 마이크로바이옴 분야에서 흔하게 사용되는 figure는 alpha diversity, beta divertsity, Taxonomy composition이 있다. 그 중 Taxonomy composition은 각 샘플에서 어떤 taxa가 상대적인 분포를 갖는지 보여주는 그림이다. 이 글에서는 phyloseq 예제 데이터인 GlobalPatterns을 사용해서 시각화 방법 3가지를 소개한다. 🟦 1. 수동으로 RColorBrewer색 지정 - Phyloseq 객채 : GlobalPatterns - 내가 기존에 사용하던 방법..
Q. metagenome에서 dark matter가 무엇인가? A. Dark matter in metagenomics refers to genetic material that cannot be classified into any known taxonomic groups. Metagenomics is the study of genetic material obtained directly from environmental samples, such as soil, water, and human microbiomes. In metagenomic sequencing, researchers can generate large amounts of DNA sequences from a sample, but not all ..
- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가[🚩소식] 2025년도 1월 10일에 PICRUST2에 GTDB 가 추가되었다는 소식이 올라왔습니다. 아무래도 기존 2만여 개의 reference 서열 대비 크기가 훨씬 큰 데이터이기 때문에, 기능 예측의 정확도가 향상될 것으로 기대됩니다.  - https://github.com/picrust/picrust2/wiki/PICRUSt2-GTDB-database   🟦 PICRUSt2란?  단백체 분석이나 RNA seq, Microbiome에서 분석하는 기본 데이터는 table이다. 각 샘플이 행으로 배치되어 있고, 각 열의 이름은 단백질 ..
Metaphlan3 이란? metagenome 데이터에서 marker gene을 위주로 데이터에 taxonomy를 assign해주고 다른 분석도 해주는 도구이다 장점은 다른 tool에 비해 빠른 속도를 가진다 현재 버전 4까지 나와있지만. 4는 용량이 많이 커서 노트북이나 데스크탑으로는 사용하기 어렵다 설치만 해도 노트북에서 WSL을 설치하고 conda 에러로 Anaconda를 깔았다 지우고 Metaphlan설치와 에러 해결로 한 5시간 넘게 걸린것 같다..ㅠ | 설치 방법 - conda 사용 ( 이 방법 사용) $ conda create --name mpa -c bioconda python=3.7 metaphlan - pip사용 pip install metaphlan - 설치 파일 직접 다운로드 (gi..
- 여러 통계적 테스트에서 가장 중요한것은 p-value값이 특정 값보다(대게 0.05) 높은지 낮은지 이다. - 현재 보고자 하는 것은 피부의 각 부위별로 왼쪽과 오른쪽의 차이를 비교하고 싶다. - 이때 permonova test를 시행한 후, 각 부위별로 p-value값을 모아서 보고자 한다. - 사용하는 객체는 phyloseq의 예제 데이터를 사용한다 을 사용한다. ⬛ 예제 데이터 library(tidyverse) library(phyloseq) library(vegan) library(glue) - Phyloseq 의 기본 예제 데이터 이용 : enterotype - 위 데이터에서 enterotype이 각 1,2,3인 값에서 Sequencing technique(일루미나, 생어)에 따른 차이가 있..
Unclassified된 species를 blast돌리기 위해 phyloseq 개체에서 추출한 계통을 fasta포멧으로 만들고자 했다. 원래 엑셀로 정렬을 하는 방법도 있고, 리눅스 상에서 간단하게 변경하는 방법도 있지만 역시 뭐니뭐니 해도 R로 하는 것이 가장 간편하다. fasta 포멧으로 만들기 위해 서열과 이름으로 data frame만들기 df
김해김씨99대손
'Bioinformatics' 카테고리의 글 목록 (11 Page)