네트워크 분석에서 끝낸다음 결과를 섣부르게 단정 짓지 말자. 모든 분석법이던 장단점과 고찰해야 할 점이 분명하게 존재한다. Karoline Faust 교수님은 미생물 데이터에서 네트워크 분석에 대한 주의점을 몇 가지 나열하고 있다. 실제 데이터를 다룰 때 이점을 명심하면서 다루는 것이 좋을 것 같다.
- Faust, K. Open challenges for microbial network construction and analysis. ISME J 15, 3111–3118 (2021). https://doi.org/10.1038/s41396-021-01027-4
- Citations: 84
마이크로바이옴 네트워크 분석의 연결은 모두 상대적인 abundance에 따른 관계를 말한다. 그러나 각 미생물의 풍부도는 샘플링 방법(Swab, biopsy, scrapes), DNA 추출방법과 Sequencing run에 따라 다르다. Taxa를 구성하는 방법인 operational taxonomic units(OTUs) 혹은 amplicon sequence variants(ASVs)에 개수와 풍부도가 달라진다. 또한 Node기준을 ASV 혹은 Species나 Class level로 결정할 것인지에 따라 Network 분석의 결과는 상이할 수 있다. 결과적으로 Edge의 생물학적 의미는 불분명하며, 추가적인 연구가 필요하다. 그러므로 우리는 데이터 전처리, 교란요인, 네트워크의 평가과 해석에 대한 문제를 중요시해야 한다.
1) 각 미생물의 상호작용이 실제로 미생물 군집의 풍부도에 영향을 미치는가?
- 단편적인 네트워크 추론은 군집의 구성에 대한 정보를 제공하지만 각 미생물에 대한 역학에 대한 정보를 제공하기에는 부족하다. 그러므로 시간에 따른 연속적인 네트워크의 변화를 관찰해야 한다.
2) 미생물 풍부도는 어떻게 처리되어야 하는가?
- 유전자 추출, 증폭 시퀀싱에 따른 차이로 각 샘플의 총 read 수(depth)는 생물학적 결과를 반영하지 않는다. 그러나 이를 그대로 사용하면 샘플의 read수가 많을수록 그 샘플에 포함된 taxa의 풍부도가 크다고 나타남으로, 우리는 Rarefaction을 통해 해결했다. Rarefaction 은 전체 샘플을 랜덤 하게 같은 수의 read로 추출하는 방법을 말한다. 그러나 이 방법은 아직 논란의 여지가 있다.
그러나 네트워크의 분석결과에 대한 견고성을 확인하기 위해 Rarefaction을 사용하기도 한다. 혹은 Cell density를 측정하여미생물 변화가 유의미한지 판별할 수도 있다. 만약 영양분에 변화가 미생물 구성의 비율에 영향을 미치지 않지만, 전체적인 세포 밀도 증가에 영향을 미치는 경우가 그러하다.
3) 풍부도가 낮은 taxa를 어떻게 처리하는가?
- 우리가 분석에 사용하는 OTU, ASV table은 많은 0 값을 담고 있다. 이를 해결하기 위한 첫 번째 방법은 임의적으로 read수가 너무 적은 taxa를 제거하는 방법이다(prevalence filtering). 예를 들어 전체 샘플 중 50% 샘플 이상에서 발견된 taxa만 남기는 방법을 말한다. 두 번째는 0 값이 너무 많을 때 연관성을 계산하지 않는 방법이다. 만약 Species A와 Species B가 전체 10개 샘플에서 공통적으로 0 값을 띄는 샘플이 5개라고 하자. 이때 임의적으로 전체 샘플에서 공통으로 0 값을 4개 이상 가지는 Species 간의 연관성을 계산하지 않는다고 설정하는 것이다. 이에 대한 임계값은 연구자의 선택이다.
- 관련 임계값에 대한 연구는 " Cougoul, A., Bailly, X., Vourc'h, G., & Gasqui, P. (2019). Rarity of microbial species: In search of reliable associations. PloS one, 14(3), e0200458. https://doi.org/10.1371/journal.pone.0200458" 참고
4) 환경 요인은 어떻게 처리하는가?
- 미생물은 pH나 수분, 산소 레벨, 영양분에 따라 매우 크게 영향받는다. 그러므로 네트워크의 edge가 환경요인에 대한 반응인기 실제 두 미생물에 대한 반응인지 알기 어렵다.
- 이를 처리하기 위한 가장 쉬운 방법은 환경 변수를 포함하여 네트워크를 구축하는 것이다(c). 두 번째 방법은 각 그룹을 주요 변수(여기서는 pH)에 따라 나누고, 별도의 네트워크를 구축하는 것이다(d). 세 번째는 FlashWeave의 HE 모드처럼 회귀를 통해 환경변수에 따른 값을 계산하는 것이다(e). 그러나 많은 생물이 비선형적으로 임계값을 넘었을 반응함으로 이에 대한 방법론은 많은 고찰이 필요하다. 마지막 방법은 pH와 pH가 낮은 그룹에서 풍부한 생물, pH가 높은 그룹에서 풍부한 생물 모두와 연관이 있는 edge 중 가장 연관이 낮은 edge를 제거하는 방법이다(f).
5) higher-order interactions (HOIs; 고차 상호작용) 은 어떠한가?
- HOI는 엄격하게 따르면 추가적인 종에 따른 여러 종간의 상호작용을 말한다. 예를 들어 A미생물이 다른 B미생물에서 분비되는 b분자에 의존할 때, C미생물이 동일한 b분자를 생산하는 경우가 있다. 이때 C미생물이 A와 B에 추가된다면, A와 B 간의 공급관계는 약해질 수 있다.
- 대부분의 네트워크 분석 도구는 이를 무시한다. 기존에 HOI를 감지하기 위해 entropy maximization(엔트로피 함수가 최대화되는 상관관계를 찾는다)를 사용했다. 혹은 연관 규칙 마이닝을 통해 HOI로 해석될 수 있는 규칙을 찾는다. 만약 D와 E종이 있는 경우에만 F종이 발견될 때, 우리는 HOI가 존재한다고 해석한다. 이러한 구조에서 D와 E종은 F종의 증식에 필요한 보조인자를 생산하기 때문이며, D 혹은 E 한 종만 존재할 때, 각 종들은 F종과의 상호작용이 관찰되지 않는다.
- 그러나 HOI가 과적합인지 혹은 진짜 HOI인지 판별하기 쉽지 않으며, 해석하고 분석하는 것이 어렵다.
6) 미생물 네트워크를 어떻게 구축하고 평가해야 하는가?
- 즉 어떤 알고리즘(SparCC, SPIEC-EASI , Pearson, Spearman etc.)을 사용해서 구축해야 하는가? 이는 논문 Hirano, H., Takemoto, K. Difficulty in inferring microbial community structure based on co-occurrence network approaches. BMC Bioinformatics, (2019). 에 논의되어 있으며 본인의 데이터셋에 따라 분석 방법을 달리해야 한다.
7) 생물학적 데이터에서 미생물 네트워크 구성을 밴치마킹 하는 방법은?
- 이는 미생물 네트워크가 실제로 잘 작동하는지 결과가 알려진 생물학적 결과로 평가하는 것을 말한다. 그러나 첫 번째로 기존에 알려진 생물학적 상호작용이 완전한지 명확하지 않다. 또한 HOI로 인해 추론된 상호작용이 실제 상호작용과 다를 가능성이 있다. 이는 HOI존재 여부를 확인해야 한다.
8) hairball(복합하고 다루기 어려운 문제)에서 어떤 것을 배울 수 있는가?
- 복잡한 네트워크를 어떻게 다루어야 하는가? 우리는 데이터 통합과 군집화를 통해 해결한다. 1) 데이터 통합은 미생물뿐만 아니라 특정 유전자의 존재, 환경 변수등을 node로 추가하여서 여러 변수에 대한 미생물의 상호작용을 동시에 관찰 가능하게 한다. 또는 예를 들어 2) pH에 영향받는 node들을 분류군으로 묶어서 niche 구조를 알아낼 수도 있고, Kingdom 별로 군집화 하여 수천 개 노드 간의 상호작용을 몇 개의 그룹 간의 상호작용으로 군집화 하여 해석할 수도 있다.
9) 핵심 네트워크를 어떻게 알아내는가?
- 여러 시점에서 샘플링한 데이터에서 미생물 네트워크가 보존되는지 의문이 제기된다. 이때 간단한 판별 방법은 개별적인 시간에 대한 네트워크를 구축한 다음 교차점을 찾는 것이다. 가장 중요한 것은 Node 간 보존되는 edge에 초점을 맞춰야 한다.
- 핵심 네트워크 판별에서 유의할 점은 예상보다 더 많은 edge가 존재하는 경우에만 유익하다. 그러나 어떤 측정 null model을 사용해야 하는지 명확하지는 않다. 또한 특정 네트워크에만 보존되는 edge를 식별하는 것이 매우 어렵다. 그러므로 관련 전용 분석 도구의 개발이 필요하다. 마지막으로 핵심 네트워크는 Bashan et al. 이 논의한 universal 네트워크와 다르다.
10) 미생물 네트워크가 생태계를 잘 반영하는가?
- 네트워크 분석에서 Hub는 고도로 연결된 node를 말한다. 이때 두 가지 가정이 있다. 먼저, 네트워크 추론 알고리즘이 정확하게 hub를 측정해야 하며, 그다음으로 그들이 실제로 환경 내에서 주요 역할을 해야 하는 것이다. 그러나 첫 번째 가정은 올바르지 않다. 각 추론 방법에 따라 hub node를 다르게 식별하기 때문이다. 게다가 실험적으로 핵심종이라고 확인된 hub는 거의 없다.
- 또한 실제로 네트워크가 충분히 추론되었다면, positive edge percentage나 density, modularity 같은 지표가 생태계에서 유용한 정보를 제공하는가? 아직은 실험적인 증거는 부족하며 항상 일치하지 않는다. 따라서 네트워크와 생태계간의 연구가 더 필요하다.
네트워크 분석이 단순한 숫자를 유용한 정보로 바뀌길 희망하며, 네트워크 추론 알고리즘을 넘어 이런 과제를 해결하는 데에 초점을 맞추어야 한다.
실제 네트워크 분석 수행 시, 데이터 셋에 따라서 전혀 중요하지 않은 taxa들이 node 간의 연결성이 높다는 이유로 Hub 노드로 지정된 경우를 보았다. 이때 생물학적 의미와 분석 간의 괴리가 있다고 느꼈는데 위 논문에도 그 문제점을 제시하고 있다. 결과를 잘 나온 대로만 해석하면 너무 가공된 연구일 가능성이 높은 것 같다. 그러므로 연구 결과가 예상처럼 나오더라고 항상 의심하는 버릇이 필요하다.
논문을 읽고 현재 분석중인 네트워크의 분석과정과 결과 해석을 수정해야 한다는 것을 깨달았다. 알고리즘 구성방법을 SparCC가 아닌 상관분석으로 바꾸고, 네트워크의 density값을 강조해야 하는 게 아니라 그 외의 생물학적 의미를 가질만한 부분을 강조해야겠다.