🟦 PICRUSt and Predicting functions
- 이 강의는 PICRUSt 1에 대한 설명이다
- 강의 영상 : 미네소타 대학교 Dan Knights교수님의 Microbiome Discovery 20: PICRUSt and predicting functions
| 왜 기능적인 부분이 중요한가?
taxa는 달라도 기능적인 부분은 동일할 수 있다. 즉 taxa로만 단순히 구별해서는 안된다. 그러나 amplicon data는 가격이 저렴(샘플당 20$) 하지만 기능도 볼 수 있는 shotgun(샘플당 300$) 은 가격이 매우 높다. 그래서 이러한 기능을 예측하는 도구를 개발했는데 이 도구가 PICRUSt이다. 이는 패키지는 사람의 장 미생물에서 metagenome분석과 비교하여 80~85%의 정확도를 보인다.
| PICRUSt workflow
분석 단계를 나누어서 보자. 뜻의 왜곡을 막기 위해 원문을 옅은 회색으로 추가하였다.
1. take a tree of all of the know taxa and all of the taxas that observed in your sample
Reference OTU tree에 우리가 가진 데이터의 Gene content table를 이용하여 서열을 계통수에 위치시키자.
일단 알려진 taxa(reference에 존재하는 taxa)와 연구자가 가진 샘플에 포함된 taxa를 포함하는 계통수를 만든다.
Gene content란? gene content is precomputed for each organism in a reference phylogenetic tree gene content란 기존에 만들어진 reference tree에서 각 유기체에 대해 미리 계산된 값을 말한다. PTPCR 모델에서는 Gene content 계통수와 KO-EC 매핑 정보를 이용하여 유전자 복제 횟수를 추론한다.
- dark blue(청람색?)색의 원은 어떤 유전적 내용을 담고 있는지 알고 있으며 우리가 가진 strain sequnce이다.
dark blue circles are the ones that the taxa where we know their genomic content so we have a strain sequence here.
- light baige는 functional annotation을 하기엔 genome level에서 부족한 서열이 위치하고 있다.
then the light beige are the ones that for whom we don't have good's genome level functional annotation.
2. Remove the taxa from tree that don't have their genomes sequenced
즉 Reference에서 whole genome과 잘 매치되지 않는 서열을 제거한다. 이제 우리는 모든 tip마다 full genome을 가지게 되었다.
so what we do is, we first remove the taxa from the tree that don't have their genomes sequenced. now we've got a pruned tree with only all for all for every tip we have a full genome
PICRUSt의 reference data에 따른 제한이 PICRUSt2가 출시되는 이유이기도 하다.
3. Infer ancestral States for all those tips
각 tip(node)에 대해서 부모노드(=tip = ancenstral)를 추론한다.
we know the whole genome content. then we use some simple methods to infer the ancestral States for all of those tips and we do that for every gene independently.
so, we know basically what's the counts of a particular type of gene in every single tip on the tree and then we infer the counts in the ancestral States
4. Inference gene contents for tips with unknown gene content
아까 제거했던 unknow gene content까지 추론한다.
we predict back out to the tips for those tips where we didn't actually have the full annotation and when we do that we can use standard methods for doing that prediction and also estimating the confidence in the gene count store predicting and we can do this either for gene counts or we can just do it for presence absence of a gene.
so now we have the full genome content predicted for every species are every otu these are all the know know to use plus any that we saw in your sample and from that we can get the gene content predictions for all of those bucks
5. 그 다음 merker gene의 copy number을 예측한다(16S)
we can also use this to estimate the copy number of the marker gene in this case 16s. so we can predict how many 16s copies each bug has in your sample and this lets us better understand the actual counts of each of the bugs observed in the sample. so that we're not double counting bugs that have two 16s copies or triple counting bugs that have three sub 16s copies. so that's something you get kind of for free and picrust when you're predicting all of the genes one of the genes is the 16s.
6. Normalize OTU table
추론된 기능에 해당하는 OTU table을 예측된 copy number에 의해 표준화 한다
then you combine so that's all the inference and that's all done ahead of time and then you download when you download the package you get all of those inferences. and in practice we're not actually predicting new functional traits for new otu every time we do this to make it run much faster what we do is we take the whole Greengenes set of of otu at 97% and predict those in the tree ahead of time. so that comes with picrust then you don't have to then you don't have to wait for it to do all the ancestral state reconstruction and prediction while you're running.
7. Infer metagenome
So then you take your OTU table which has to be, at least for the the published version of picrusts, has to be closed reference otu picked against the greengenes 2013 reference set ,although it pie crusts can easily be set up to run on other databases, and then you first you take that ot you table your otu table and the 16s gene counts and run it through a script to normalize the copy number so that's where you're correcting for copy number. now you get a normalized otu table. then you take that normalized otu table and the predicted gene count for every OTU it's basically a matrix multiplication and that gives your inferred metagenome and that's the final result is basically this table that says for every sample we know what's the functional repertoire
| 논문에 나오는 Figure를 살펴보자
whole genome sequencing(WGS)과 PICRUSt를 비교한 그림이다. PICRUSt는 세모모양으로 WGS는 동그란 모양으로 표시하였다. 각 샘플링된 부위마다 WGS와 PICRUSt가 겹치는 것을 볼 수 있다.
here's a picture of the accuracy of pie crust on the human microbiome projects data and this is showing just broad trends in the differences between different environments. but still you can see that all of the so the pie crust samples are shown with triangles you can see for example the the skin samples in picrusts are clustering with the skin samples in the actual deep shotgun data. the stool samples in picrust cluster with the actual stool samples and so on.
PICRUSt와 WGS의 정확도(상관관계)사람 샘플에 대해서 정확도는 높지만 환경 샘플은 낮은 편이다. 특히 잘 알려지지 않은 환경 샘플(Hypersaline)에 경우 정확도가 더 낮다.
it shows the accuracy of picrust predicting the full meta-genome. this is using Spearman correlation with on the y-axis and then the average distance within a given sample of each OTU to the nearest neighbor in the tree of known taxa. and so that that means that the black samples for example those are the human samples they have low distance to the nearest reference genome for the average bug and they also have higher accuracy and picrust. this means that ballpark for the human gut you can get 85~85% accuracy or so as you move into other soil samples or environmental samples the accuracy goes down a bit when you have really unknown environments like these hyper saline environments. these also a bit shallower then you don't get you don't get very good predictions and at a certain point the predictions get get pretty bad and so I wouldn't even recommend using it. but for the human gut it's it's not bad and you can actually find interesting relevant functional signals in the data just going from the 16s data to the predicted functional repertoire.
reference database과 거이가 멀 수록 정확도는 떨어진다.
plot just showing the accuracy on a per genome basis plotted against the distance of a genome to its nearest neighbor in the reference database. so you see as you get farther and farther away from from the reference database the accuracy decreases.
| 요약 ✔
🔹 샷건 메타게놈 분석은 모든 유전체를 분석할 수 있지만 가격이 매우 높다
- 만약 biopsy 처럼 사람의 DNA가 너무 높게 나오는 샘플의 경우 샷건 시퀀싱이 어렵기 때문에 PICRUSt가 유용하다
there are times when you might not be able to do shotgun sequencing like let's say you have biopsies intestinal biopsies and there's too much host DNA in there to get good deep shotgun sequencing
🔹 PICRUSt 는 사람의 장 분석에서 메타게놈과 80~85%의 유사도를 보인다
- 출판된 데이터를 다시 분석하기에(mining) 유용하다
- PICRUSt로 샷건 시퀀싱을 위한 샘플을 선정하고 샷건 연구의 도구로 활용해라
another common approach is to run 16s sequencing on all of your samples run picrusts on them and then use the picrust results to choose a subset that you want to spend the money on on doing the deep shotgun sequencing for
- 그러나 출판할때, PICRUSt의 결과는 "오직 제안"으로만 사용하는 것을 명심하라
because this helps people understand that you don't think that you actually know what genes are there you know that they're just predictions. so I'm always careful to just have a little disclaimer there whenever I'm reporting the results
- 사람의 장 샘플에서는 대부분 유용하다
🟦 ChatGPT에게 물어보기
Q. picrust2의 workflow를 상세하게 설명해 줘
- 유전자 복제 횟수 예측
- Picrust2는 PICRUSt1의 단점 중 하나인 유전자 복제 횟수 예측의 정확도를 향상하기 위해 부분 별도 최소 제곱 회귀 모델(PTPCR)을 사용합니다.
- PTPCR 모델은 유전자의 GC 함량과 길이, 그리고 군집 내에서 발현되는 다른 유전자의 수 등을 고려하여 해당 군집의 유전자 복제 횟수를 예측합니다.
- 기능 예측
- Picrust2는 Greengenes, SILVA 등과 같은 대형 16S rRNA 유전자 데이터베이스를 사용하여 유전자 유형 및 기능을 예측합니다.
- 예측된 기능은 다양한 데이터베이스에서 유전자 복제 횟수와 연관시켜 샘플 내 미생물 군집의 생태학적 특성과 생리학적 기능을 파악합니다.
- 기능 정규화
- 각 샘플에서 발견된 기능 수는 샘플의 규모와 유전자 복제 횟수를 고려하여 정규화됩니다.
- 이렇게 정규화된 기능 데이터는 샘플 간에 비교 가능한 형식으로 변환됩니다
Q. picrust2의 workflow 중에서 "1. 유전자 복제 횟수 예측" 단계를 자세하게 알려줘
Picrust2의 1번 단계인 유전자 복제 횟수 예측은 미생물 군집에서 발현되는 유전자 수를 정확히 추정하기 위한 과정입니다. 이 단계는 다음과 같은 순서로 이루어집니다.
- 미생물 군집 구성
- 16S rRNA 유전자 시퀀싱 데이터를 사용하여 미생물 군집을 구성합니다.
- 이 단계에서는 각 군집에서 발견된 16S rRNA 유전자 수를 측정합니다.
- 군집 내 유전자 풍부도 계산
- Picrust2는 부분 별도 최소 제곱 회귀 모델(PTPCR)을 사용하여 각 군집 내에서 발현되는 유전자의 풍부도를 추정합니다.
- PTPCR 모델은 유전자의 GC 함량, 길이, 그리고 군집 내에서 발현되는 다른 유전자의 수 등을 고려하여 해당 군집 내에서 발현되는 유전자의 풍부도를 추정합니다.
- 복제 횟수 예측
- 각 유전자의 복제 횟수는 군집 내 유전자 풍부도와 유전자의 KO 번호(KEGG Orthology)를 사용하여 예측됩니다.
- 이 예측된 복제 횟수는 KEGG 데이터베이스에서 유전자의 기능 및 발현과 관련된 정보를 참고하여 계산됩니다.
- 이 과정에서는 이전 버전의 Picrust에서 사용된 PICRUSt1 알고리즘과 달리 머신 러닝을 사용하지 않고, 대신 유전자의 특성에 기반한 수학 모델을 사용합니다.