ANOSIM(Analysis of similarities)이란?

김해김씨99대손 2022. 5. 19. 13:41

qiime에서 통계적인 유의성을 보기 위해 아래와 같은 diversity beta-group-significance 를 실행하였다.

qiime diversity beta-group-significance \
--i-distance-matrix ~\
--m-metadata-file ~ \
--m-metadata-column ~ \
--p-method anosim \
--output-dir ~

위 함수의 결과 파일은 아래와 같다. 이 결과파일을 어떻게 해석하는것인지 알아보자.

| ANOSIM

📌 ANOSIM 이란? (위키백과)

Analysis of similarities (ANOSIM) is a non-parametric(비모수성) statistical test widely used in the field of ecology. The test was first suggested by K. R. Clarke as an ANOVA-like test, where instead of operating on raw data, operates on a ranked dissimilarity matrix(비유사성 순위 행렬).

즉 정규성이 입증되지 않아 비모수적 통계방법을 쓰며, 각 데이터 간의 dictance를 dissimilarity matrix(각 값의 차이, 간단하게 말하면 각 값을 다른 값으로 뺀 값)을 사용하여 각 그룹 간의 차이를 판별한다.

📌ANOSIM 가설

ANOSIM의 귀무가설과 대립가설은 아래와 같다

귀무가설_H0 : 그룹 간의 유사성이 그룹 내 유사성보다 크거나 같다
대립가설_H1 : 그룹 간의 유사성이 그룹 내 유사성보다 크거나 같지 않다

즉, ANOVA는 각 집단의 평균의 차이를 비교한다면, ANOSIM은 각 그룹간의 유사성을 기준으로 한다

📌예시

만약 우리가 어떠한 화장품을 개발한다고 할 때 화장품을 바른 얼굴과 바르지 않은 얼굴의 미생물 군의 분포를 비교한다고 가정해 보자. 우리는 미생물군의 차이가 있었으면 좋겠는 입장이다.

귀무가설은 그룹 간의 미생물 종의 분포의 유사성이 화장품을 바르는 그룹 내 유사성과 안바르는 그룹내 유사성보다 크거나 같다는 입장이고

대립가설은 아니다 차이가 있다!라는 뜻이다.

우리는 통계적인 유의성 검정을 통해 귀무가설을 기각할 수 있다. 만약 귀무가설이 맞을 확률이 5% 이하다(유의 수준 0.05)라면 귀무가설을 기각하고 대립가설을 채택할 수 있다.

만약 귀무가설을 기각하였다면 통계적으로 다르다고 판명되었으니, 화장품을 판매할 때 관련 논문을 보여주면서 화장품의 성능을 광고할 수 있다. (아마도)

📌ANOSIM 계산

ANOSIM을 판정할 때는 R값으로 판별하며, R값은 아래 식으로 정의된다.

$$ R=\frac{r_{B}-r_{W}}{M/2} $$

rB : 다른 그룹에서 유래된 샘플 사이의 순위 유사도 평균값 the average of rank similarities of pairs of samples (or replicates) originating from different sites

rW : 그룹 내 샘플 간의 순위 유사도 평균값 the average of rank similarity of pairs among replicates within sites

M = n(n − 1)/2 , n은 샘플의 수

정확하진 않지만 대략 [(그룹 간의 유사성 - 그룹 내의 유사성)/자유도]로 볼 수 있다

R은 -1 ~ +1 사이의 값을 갖는다

- R = 1에 가까울수록 그룹 내의 유사도가 높다 = 그룹 간 차이가 난다

- R = 0에 가까울수록 그룹 내 유사성과 그룹 간의 유사성이 다르지 않다는 것을 보인다 = 그룹간 별 차이가 없다

- R < 0 은 그룹내 보다 그룹간의 유사성이 높은 것을 보여준 것이며,

그룹 내의 비유사도가 그룹 간 비유사도보다 크다 = sample이 다른 그룹으로 잘못 묶였을 가능성이 있다.

만약 R값이 0.44로 나왔다. 그런데 그 값으로 우리가 그룹 내 유사성이 그룹 간 유사성보다 크다고 판별 지을 수 있을까?

아래의 기준을 보면 알 수 있다.

0.75 < R < 1 - highly different

0.5 < R < 0.75 - different

0.25 < R < 0.5 - different with some overlap

0.1 < R < 0.25 - similar with some differences (or high overlap)

R < 0.1 - similar

+) ANOSIM 할 때 우리가 볼 것은 그룹 간 차이가 있는지 없는지 (P-value)이다. 차이가 있다면 R값을 본다. 그런데 R값이 0.2로 너무 작으면 두 그룹을 나누는 'factor'의 중요성이 낮다는 걸 의미한다.

| 용어 설명

- ANOVA (분산분석) : 2그룹 이상의 표본 평균들의 차이를 비교하며 결국 조건을 바꾸었을 때 그룹 간 차이가 있는지 아닌지 통계적으로 검증하는 방법을 말한다

- 귀무가설 : 모든 집단의 평균은 다 같다.

- 대립 가설 : 집단의 평균은 같지 않다.

https://www.displayr.com/what-is-a-distance-matrix/

- Dissimilarity : 비유사성, 말 그대로 얼마나 다른가를 나타낸다. 최소값(일치)이 0이고 최대값은 0 이상

- Dissimilarity Matrix : = distance matrix, Dissimilarity가 비유사성이고 matrix가 행렬이니까 말그대로 그룹들 간의 비유사성을 행렬로 표시한 것을 말하며 위 그림의 오른쪽 table을 말한다

- Non-parametric statistics : 비모수통계, 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법. 이해를 돕는 글 [1]

| Reference

Dissimilarity Matrix

https://www.displayr.com/what-is-a-distance-matrix/

비모수 통계

https://ko.wikipedia.org/wiki/%EB%B9%84%EB%AA%A8%EC%88%98_%ED%86%B5%EA%B3%84

https://3months.tistory.com/126

ANOSIM

https://en.wikipedia.org/wiki/Analysis_of_similarities

https://opiatalk.com/what-is-anosim-test/

https://www.researchgate.net/post/Which-R-value-is-considered-to-show-a-strong-difference-between-the-groups-in-ANOSIM

https://www.researchgate.net/post/Can_anyone_help_me_in_understanding_and_clearly_interpreting_ANOSIM_Analysis_of_Similarityand_SIMPER_Similarity_percentage_analysisresults

저작자표시 비영리 (새창열림)