출처: McMurdie, P. J., & Holmes, S. (2014). Waste not, want not: why rarefying microbiome data is inadmissible. PLoS computational biology, 10(4), e1003531. https://doi.org/10.1371/journal.pcbi.1003531 https://doi.org/10.3389/fmicb.2019.02407
용어 정의
- rarefying : ad hoc library size normalization by random subsampling without replacement
- rarefaction는 두 개의 정의가 존재
1. normalization approach 🚩 위 논문에서는 이 정의를 사용
2. individual-based taxon resampling curves : justified for coverage analysis or species richness estimation in some settings
Rarefying 단계
1. 최소 library size인 NL_min을 선택한다.
2. NL_min 보다 적인 샘플은 버린다.
3. 모든 샘플의 read수가 NL_min 가 되도록 랜덤으로 추출한다.
- 2.단계에서 버려지는 샘플을 줄이기 위해, 전체 샘플에서 가장 작은 library size를 NL_min로 잡기도 한다.
- 위 방법은 Library size에 크게 영향받는 Unifrac distance를 위해 고안된 방법이다.
결과
Clustering 결과
- NL값이 클 수록 낮은 effect size에도 각 그룹을 잘 구분(Accuracy)한다.
- Rarefy는 모든 NL 값에서 낮은 정확도를 보인다.
- unweighted Unifrac에서만 유일하게 proportion(relative abundance) 보다 rarefy가 정확도가 높다
DAA 결과
- Rerefied는 모든 NL에서 낮은 AUC를 보인다.
Rarefied Count의 단점
1. Rarefied counts는 오직 진짜 데이터의 일부분을 나타냄으로, Type-II error를 증가시킨다. 이는 각 샘플을 DAA 분석을 어렵게 함 2. Rarefied counts는 Poisson model에 비해 과분산을 유지하며, 이는 Type-I error를 증가시킨다.
3. Rarefying counts는 임의적인 depth 선택을 필요로 한다. 또한 이 값은 데이터 셋에 따라 달라져 최적의 값을 알기 어렵다.
4. rarefying에서 random step 은 불필요하며, 인공적인 불확실성을 추가한다.
아직 Beta, Alpha diversity분석에서 rarefy는 만연하게 사용되고 있다. 이는 Unifrac distance를 보정하는 방법으로 많이 사용되어 왔다. 그러나 Min depth가 적은 경우(예, 2000 read) rarefy 수행 시 왜곡된 결과를 얻을 수 있다. 특히 피부 마이크로바이옴의 경우 read수가 많이 나오지 않음으로 이는 중요한 사항이다. 현재 2000 read이하 샘플은 버리고 있지만 우리 연구실에서는 rarefy를 수행하지 않고 분석한다. 아직 연구실 세팅 문제로 아직도 시퀀싱이 꾸준히 문제가 있지만, 내년 안에는 문제없을 것으로 생각된다.