출처
Sorbie A, Delgado Jiménez R, Benakis C. Increasing transparency and reproducibility in stroke-microbiota research: A toolbox for microbiota analysis. iScience. 2022 Feb 26;25(4):103998. doi: 10.1016/j.isci.2022.103998. PMID: 35310944; PMCID: PMC8931359.
마이크로바이옴 분야에서 머신러닝이란?
많은 마이크로바이오타 연구는 대부분 적은 샘플 수와 균등하지 않는 그룹으로 이루어진 경우가 많다. 이는 머신러닝에서 오버피팅을 일으킬 수 있다 (Teschendorff, 2019). 사용가능한 샘플의 최소 크기는 주어진 데이터와 모델의 복잡성에 따라 다르다. 경험상, 40 미만의 샘플에서는 모델 학습을 권장하지 않음 (Wirbel et al., 2021).
정확도 추정은 cross validatio을 사용하여 얻을 수 있다. 그러나 많은 경우 이는 잘못 사용되며 종종 데이터의 누설문제로 사용되지 않음 (Quinn, 2021).
많은 샘플 수로 연구한다면, 기존 연구처럼 뇌졸증에 강력한 박테리아 식별 가능 (Asnicar et al., 2021a; Ghosh et al., 2020). 머신러닝의 올바른 사용을 위해, ML에 익숙하지 않은 연구자를 위한 mikropml이나 SIAMCAT 같은 R 패키지를 사용할 수 있다 (Topc¸uoglu et al., 2021 ; Wirbel et al., 2021).
mikropml
- 홈페이지: http://www.schlosslab.org/mikropml/
- 논문: Topçuoğlu BD, Lapp Z, Sovacool KL, Snitkin E, Wiens J, Schloss PD (2021). “mikropml: User-Friendly R Package for Supervised Machine Learning Pipelines.” Journal of Open Source Software, 6(61), 3073. doi:10.21105/joss.03073, https://joss.theoj.org/papers/10.21105/joss.03073.
(Schloss 교수님 강의 영상이 있는 것으로 보아 mothur 랩에서 개발한 것으로 보인다)
- tutorial: http://www.schlosslab.org/mikropml/articles/introduction.html
- 인용수: 21 (2023.10.03)
SIAMCAT
- 홈페이지: https://siamcat.embl.de/
- 논문: Wirbel J, Zych K, Essex M, Karcher N, Kartal E, Salazar G, Bork P, Sunagawa S, Zeller G Microbiome meta-analysis and cross-disease comparison enabled by the SIAMCAT machine learning toolbox Genome Biol 22, 93 (2021) https://doi.org/10.1186/s13059-021-02306-1
- 인용수: 115 (2023.10.03)
- tutorial: https://siamcat.embl.de/articles/SIAMCAT_vignette.html