작성: 2024.08.22
연구하다가 궁금한 주제들은 대부분 누군가가 질문을 해 보 았을 것이다.
우리는 이러한 글에 많은 도움을 받는다. 그러나 일부 의견은 전문가의 의견이 아님으로 주의해야 한다.
내가 추천하는 방식은 전문가의 이름을 기억하고, 이들의 답변을 중심으로 찾아보는 것이다.
# 추천 답변자 들 (리더 및 중재자)
중재자 들이란 포럼 내 전문가를 말하며, 보통 도구의 개발진이나 분야의 전문가가 이를 담당합니다. 특히 가장 큰 forum인 QIIME의 중재자를 대표적으로 소개해봅니다.
- Nicholas Bokulich: Professor of Food Systems Biotechnology at ETH Zürich
- Greg Caporaso: Professor of Northern Arizona University
- Justine Debelius: Baltimore, MD
- Colin J Brislawn: Freelance Data Scientist
- Mehrbod Estaki
- Timur Yergaliyev
- Mike Robeson
# 포럼 게시글
대부분의 연구자가 궁금해하는 내용은 tag #best-of-the-forum에 있을 것이다. 이를 먼저 확인해 보자!
👉 https://forum.qiime2.org/tag/best-of-the-forum 👈
아래 글들은 새로 배우는 학생들이 많이 물어보는 글을 정리하였다.
1. What is a "Feature" exactly? (Feature가 정확히 무엇인가?)
https://forum.qiime2.org/t/what-is-a-feature-exactly/2201/3
We use the generic term “feature” because these features can be many different data types.
..
In QIIME2 (currently) most features will be OTUs or sequence variants.
...
Many other types of feature data can be imported into QIIME2 for analysis, and with the proliferation of different technologies and data types, stronger support for these may come in the near future.
Thus, we adopt the generic term “feature”, which is much more inclusive than “OTU”.
2. PCA vs PCoA - which is the appropriate one for microbiome data (PCA 대 PCoA, 어떤 것이 마이크로바이옴 데이터에 적합한가?)
https://forum.qiime2.org/t/pca-vs-pcoa-which-is-the-appropriate-one-for-microbiome-data/5974
I recommend a PCoA ordination of Weighted UniFrac distances between samples.
PCA and PCoA are really similar. In fact, PCA is just a type of PCoA that uses euclidean distances! So we could say:
Type of Ordination:
- MDS
- CCA
- PCoA
- PCoA of Jaccard distances
- PCoA of Bray-Curtis dissimilarities
- PCoA of Euclidian distances (this is also called PCA)
- PCoA of UniFrac distances
3. Emperor for... dummies? (바보를 위한 Emperor을 설명해 줘)
https://forum.qiime2.org/t/emperor-for-dummies/13609
공식 답변은 아래와 같다.
"PCoA transforms the original multidimensional matrix to a new set of orthogonal axes that explain the maximum amount of inertia in the dataset.."
Yikes! 🙀
나는 아래와 같이 설명하고자 한다:
"In a PCoA plot, each point is one sample.If points are close together, then those samples are biologically similar."
P.S. In my example, I have 8 samples, for only two reps per group. This is bad, and I feel bad. PCoA works great for millions of samples, so I should get more than 8!
뉴비의 질문 제목이 고인 물을 설레게 만들었다..
본문을 보면 정말 재치 있게 설명해 주신다. 마지막에 " This is bad, and I feel bad."이 정말 LOL
4. Understanding beta-group-significance PERMANOVA results (PERMANOVA결과 해석하는 법)
https://forum.qiime2.org/t/understanding-beta-group-significance-permanova-results/12648/1
You want to combine permanova and permdisp, since they test different hypothesis.
- Permanova asks if there is a difference in either within or between group distance for any of my groups.
- Permdisp tests the hypothesis that there is a significant difference in within group variance.
So, my hope is that I see a large signal in permanova and a small one in permdisp, because that suggests that my difference is driven by differences between communities compared to differences within one of my communities.
5. adonis, betadiver, and betadisp
https://forum.qiime2.org/t/adonis-betadiver-and-betadisp/9364
Q. I was worried that the proportion of variance explained by the two eigenvectors was quite low, and wondered how researchers use this information in their interpretations of the figure itself. PC의 분산(%)이 작을 때 어떻게 해석하나요?
%는 단지 처음 두 개의 PC로 설명된다. 반드시 문제가 되는 것은 아니며, 변수가 데이터에 엄청난 효과를 미치지 않는다는 것을 뜻 함.
Warning vegan 패키지의 betadisper를 사용할 때 주의점
Stewart Schultz noticed that the permutation test for type="centroid" had the wrong type I error and was anti-conservative. As such, the default for type has been changed to "median" , which uses the spatial median as the group centroid. Tests suggests that the permutation test for this type of analysis gives the correct error rates.
Using type = median is more appropriate now. I haven’t read up on this yet though. But, I took their warning.
6. Why is NCBI not used for training classifiers? QIIME에서 SILVA, RDP, UNITE로는 훈련된 분류기를 제작하여 쓰는데, NCBI는 왜 그렇지 않은가?
https://forum.qiime2.org/t/why-is-ncbi-not-used-for-training-classifiers/14743/2
Q. Is there a reason why people don’t use NCBI for classifiers?
1. 처음부터 reference를 구축하는 것은 매우 어렵다. 그러므로 refseq(표준 서열)을 쓰는 것이 추천되는 이유이다.
2. 많은 curation 된 데이터 베이스는 NCBI에서 선별된 서열로 만들어졌다.
3. 또한 curation 된 데이터베이스를 사용해야 재현성이 높다.
말 그대로 NCBI는 "아무나" 서열을 올릴 수 있음으로 쓰레기를 필터링하고자 하는 많은 노력이 들어간다.
7. Closed Reference OTU picking vs taxonomic annotation
https://forum.qiime2.org/t/closed-reference-otu-picking-vs-taxonomic-annotation/13457
#best-of-the-forum
criteria | de novo | open reference | closed reference | denoising |
requires database | No | Yes | Yes | No |
keeps all your high quality reads | Yes | Yes | No | Yes |
externally valid 외부에서 재현 가능 | no | kind of | Yes | with same trim length and hypervariable region |
combine multiple hypervariable regions | no | no | yes | no |
taxonomic annotation | classifier | database & classifier | database | classifier |
single nucleotide resolution 개별 서열을 판독하는 해상도 가능? | no | no | no | yes |
개인적인 추천으로는 denoising을 사용한 ASV를 권장한다.
8. Sample size calculation for microbiome studies
https://forum.qiime2.org/t/sample-size-calculation-for-microbiome-studies/12114
9. Deep sequencing 어느 정도의 read가 나와야 microbiome분석하기 적합한가?
https://forum.qiime2.org/t/deep-sequencing/3586
Q. Is there a minimal number of sequences (deep)
1. 이는 샘플의 특성에 따라 다르다. 만약 biomass가 적은 샘플이라면, 1,000개의 read 로도 많은 정보를 얻을 수 있다. global patterns 논문에서는 2,000을 기준으로 잡았다.
2. 샘플링의 깊이는 alpha diversity 측정에 매우 중요하다. 대부분 rarefaction curve를 사용하여 충분한 시퀀싱에 도달하였는지 나타내지만, 이도 비판이 없지 않다. 또한 beta diversity에서 계통 간 거리를 고려하는 Unifrac의 경우 샘플링 깊이에 따라 큰 차이를 보인다. 미생물 군집을 판단하는 데에는 1000~2000이면 패턴을 나타낼 수 있지만, 정확한 탐색을 위해서는 더 깊은 깊이가 필요하다.
3. 이후 분석 과정에서도 시퀀싱 깊이는 중요하다. 현재 샘플의 분산을 안정화하기 위해서 1) rarefying을 수행하거나 2) relative abundance로 변환하여 분석하는 방식으로 나뉜다. 또한 일부 통계방법은 존재가 적고 희귀한 분류군에 민감하다.
즉, 이는 데이터에 따라 혹은 분석 방법에 따라 다르다.
나의 경험에 따르면, 대변과 장연구에서는 1,000~1,500 이하는 모두 버린다. 그러나 특정 샘플이 1,500~2,000이면서 대다수의 샘플이 5,000~6,000 개의 read를 가지면 샘플 수를 고려하여 폐기 혹은 유지를 결정한다.
또한 최소 read의 수가 5,000~6,000개의 경우 대부분의 downstream 분석에서 문제가 없지만, 1,500~2,000개 라면 주의해야 한다.
10. Alpha and Beta Diversity Explanations and Commands
https://forum.qiime2.org/t/alpha-and-beta-diversity-explanations-and-commands/2282
사용된 지수에 대하여 모든 코멘트를 작성함
11. To cluster or not to cluster?
https://forum.qiime2.org/t/to-cluster-or-not-to-cluster/10022
#best-of-the-forum
The product of denoising methods such as DADA2, DEBLUR, UNOISE, (and perhaps MED?) are
Exact Sequence Variants (ESV). DADA2 ESVs are called Amplicon Sequence Variants (ASV), Deblur calls them sub-OTUs (sOTU), and UNOISE method calls them zero-radius OTU (zOTU)
Coming back to some of the unanswered questions now. "--p-trun-len" is not necessary for dada2 but is required for Deblur and the recommendation to truncate to equal length has more to do with quality control, the denoising algorithm’s specific requirements, and chimera detection than biological importance.
"AATTGGCCAATT", "GAATTGGCCAATT"
These may be different strains of the same species with 1nt difference, different species with 1nt difference in this particular region (more differences might occur elsewhere), or the different 16S gene of the same organism which happen to differ from each other by 1nt such as S. aureus. There is really no way to be sure and trimming that first nt to get equal length doesn’t resolve the ambiguity either, simply covers it up and pretends we know.
ASV가 제작되는 단계
- Make the most abundant sequence an ASV.
- For each sequence (in order of decreasing abundance), find the set of ASVs that meet “abundance” and “genetic” criteria. The abundance criterion requires that the candidate sequence be some fold less abundant than the ASV (e.g., so that it can be considered sequencing error). The genetic criterion requires that the candidate sequence be sufficiently similar to the ASV s sequence (e.g., so that it can be considered sequencing error or part of the same population of organisms).
- If no ASVs meet these two criteria, make the candidate sequence into a new ASV.
- If ASVs do meet these criteria, then, starting with the most genetically-similar ASV , check if the candidate sequence is distributed differently among the samples than that ASV. If the distributions are sufficiently similar, merge the candidate sequence into that ASV. Specifically, add the candidate sequence’s counts across samples to the ASV ’s counts.
- If the candidate sequence does not have a distribution across sample sufficiently similar to an existing ASV , then make this sequence a new ASV.
- Move on to the next candidate sequence.
1. 가장 풍부한 서열을 ASV로 만듦
2. 각 서열은 풍부도와 유전적 기준을 만족시키는 ASV들을 찾는다. 즉, 이후 만들어지는 후보 ASV들은 기존 1번보다 덜 풍부해야 한다. 또한 기존 ASV와 충분히 유사해야 한다.
3. 후보 ASV가 두 조건을 충족하지 않으면, 새로운 후보 ASV를 새로운 ASV로 만든다.
4. 후보 ASV가 두 조건을 충족하는 경우, 유전적으로 가장 유사한 ASV부터 시작하여, 해당 후보 ASV들이 샘플 간 다르게 분포되었는지 확인한다. 분포가 충분히 유사하면, 후보 서열을 해당 ASV에 병합한다. 특히, 샘플 전체의 후보 서열 개수를 ASV개수에 추가한다.
5. 후보 서열이 기존 ASV와 충분히 유사한 샘플 분포를 가지고 있지 않으면, 이 서열을 새로운 ASV로 만든다.
6. 그다음 후보 서열로 이동한다.
즉, 각 서열에서 풍부도와 유사성을 고려하여 ASV를 생성한다. 즉, 특정 ASV와 후보 서열이 99.99% 유사하지만, 샘플 전체에 다르게 분포된다면 이는 별도의 ASV로 만들어진다!!