마이크로바이옴데이터와 환자 메타데이터를 이용해서 유의미한 예후 예측 모델을 제작한 허지원 교수님의 세미나를 재미있게 들었다. 위 모델은 대장암 예후 예측에서 높은 정확도를 보였다. 이러한 연구 방법은 대장암뿐만이 아니라 여러 암 모델에서도 사용가능할 것으로 보인다.
| 개요
- 주제 : 대장암 예후를 예측하는 분변 미생물 바이오마커 발굴 [Bric/웨비나]
- 일시 : 2023년 3월 20일(월) 오전 10시(한국시간)
- 연사 : 허지원(연세대학교)
- 주최 : Bric
- 강연 영상 : https://www.youtube.com/watch?v=3znHS0EVQkY&t=1s
| 강의
| +) 2가지 장의 종류
| 대장암 예후 지표
대장암의 예후 지표는 여러 가지가 사용된다. 대표적으로 나이, 암의 진행 단계, 암 관련 유전자 등이 있다.
또한 Carcinoembryonic antigen(CEA, 일부 암은 CEA 생산을 유발), Neutrophil-to-lymphocyte ratio (NLR, 중성구/림프구로 갑값이 높으면 염증이나 감염의 징후), Plasma fibrinogen(혈액응고인자, 염증에 영향을 받을 수 있으며 높을수록 질환의 위험도가 높음)등이 있다.
| 기존의 장 마이크로바이옴 연구의 한계점
- 대부분 F.nucleatum에 집중한다. 이렇게 일부 병원균에만 집중하여 타깃 해서 찾아낸다.
- 비지도 스크리닝이 적용된 사례는 3건, 분변이 아닌 암조작 자체를 사용했다. 또한 샘플 사이즈가 크지 않다.
| 예후예측 모델 설계
- 연구실과 서울대학교 병원의 대장암 진단을 받은 333명의 환자의 수술 전 분변샘플을 16S 시퀀싱 하였다.
- 2-3년 추적관찰을 시행하였다.
1) 예후 예측 바이오마커 알아내기
이전 연구는 특수한 pathogen에 집중하였다면 이제는 commensal에 집중하여 보았다.
일단 결과를 바로 보자면, 프리보텔라 속(Prevotella genus)이 많고, 특정 알리스티페스 균주(Alistipes-assigned Bacteroides sp.), 디알리스터 인비서스(Dialister invisus), 피라미도박터 피스콜렌스(Pyramidobacter piscolens)가 발견되지 않을 경우, 발견된 그룹에 비해 무진행 생존율(progression-free survival, FPS)과 종합 생존율(overall survival, OS)이 유의미하게 좋다.
방법은 아래와 같다.
일단 미생물을 스크리닝 하기 위해 너무 rare 한 균을 제외하기 위해 prevalenve는 10% 이상으로 잡았으며, 교차검증(Cross validation)을 실시하였다. 교차검증은 7:3으로 나누어 1000번 정도 반복 수행하였다.
교차 검증은 비모수 로그 순위법(Univariate log-rank test)을 통해 통계적으로 검정하였다. 로그순위법의 원리는 먼저 '비교 대상 간의 생존곡선에 큰 차이가 없다'라고 귀무가설을 설정하고, 실제 관측값 개수(observed count)와 사건이 일어날 법한 수(expected count)를 각 그룹별 사건 발생 시간의 카이-제곱(chi-square)을 계산하여 비교, 결과를 합산하는 방법이다.(Junyong I., 2018)
이후 다변량 Cox 회귀분석(Multivariate Cox regression)으로 하나 이상의 예측변수(predictor)가 대장암 예후에 미치는 영향을 계산한다. 이때 Prevotell는 abundance(얼마만큼 있나)로, 나머지 미생물군은 observation(있냐 없냐)으로 계산하였다.
70% 테스트 데이터와 30% 값을 비교하였을 때, 유의하게 4종의 미생물이 추가로 예후 예측과 관련 있다는 결과가 나왔다.
저 위의 bavteroides sp.는 assign당시 데이터베이스에서 저 이름으로 붙여졌는데, 이후에 블라스트 돌려보니 아래 두 종으로 판명되었다.
2) 가중치 부여하기
각 값에 따라 임상적으로 간단한 체크리스트를 만들어서 1씩 더한 간단한 가중점수를 부여하였다. Prevotella가 적으면 다른 미생물에 +1점을 더해서 위험지수를 만들어 보았다.
이 값에 따라 랜덤샘플링한 여러 샘플에 적용하였다. 이때 모든 미생물(총 5개)을 모두 사용한 모델에서 정확도가 가장 높았다.
| 모델 평가
M5에 의해 군집화 된 예후예측 군과 실제 예측 데이터를 비교한 결과이다. 맨 왼쪽의 예상 결과와 M5가 예측한 결과가 비슷한 경향성을 보이는 것을 알 수 있다. 또한 기존 모델(나이, CEA 등)에 비교한 정확도 비교 결과이다. 이를 보면 M5가 다른 지표에 비해 우수한 정확도를 보이는 것을 알 수 있다.
각 모델의 값이 독립적인지? 혹은 다른 지수를 포함하였을 때도 정확도가 높아지는지? 검증하였다. 단일 모델보다 여러 모델을 합친 결과 정확도는 우수했다.
| 기능예측
PICRUSt2를 이용해서 예후가 좋은 그룹과 좋지 않은 그룹의 마이크로바이옴에서 기능을 예측해 보았다. 가운데 volcano plot으로 각 그룹에서 유의성 있게 차이나는 그룹을 보여주고 있다.
각 그룹에서 가장 차이가 많이 나는 pathway 두 개를 비교하였다. G그림에서 이를 CD8+ T cell의 수와 상관관계를 보았다. 이를 보다 Thiamine diphosphate salvage 2 가 증가할수록 T cell 값도 증가하는 경향을 보이며, 반대로 L-Histidine degradation이 증가할수록 T cell의 수는 감소한다.
| Discussion 1. Prevotella and CRC
기존에는 고기, 술 등이 CRC에 영향을 준다고 알려져 있었다. 그러나 이전에 prevotella는 건강한 식단을 섭취하는 사람의 바이오 마커로 알려져 있었다. 그렇다면 prevotella와 CRC는 어떤 관계가 있을 것인가?
| Discussion 2. Vitamin and CRC
기존에도 비타민과 CRC의 연관성은 연구가 되어 왔다. 위 연구에서 나온 B1비타민이 CRC에 미치는 영향에 대해 더 심화적인 연구가 필요할 것이다.
| 연구와 한계점
한계점은 샘플이 서울대 병원의 대장암 환자를 대상으로 한정되어 있는 것, 이후 기능적인 증명하는 과정이 남아있다.
| 연사님 추가 말씀
다른 암이나 대사성 질병에 공통적으로 적용될 수 있을 것으로 보인다. 진단과 치료뿐만 아니라 예후에서도 공부해 보시는 걸 추천드립니다.
연사님 추가 말씀
- 다른 암이나 대사성 질병에 공통적으로 적용될 수 있을 것으로 보인다. 진단과 치료뿐만 아니라 예후에서도 공부해 보시는 걸 추천드립니다.
| QnA
Q. 혹시 Prevotella의 경우 Prevotella intermedia와 같은 종이 치주염과 연관되어 있는 균으로 알려져 있는데, Prevotella의 속을 더 세부적으로 나누어서 분석을 진행해보시진 않으셨는지 궁금합니다.
A. Prevotella intermedia는 치주염과 대장암에서 안 좋은 균주로 알려져 있다. 아쉽게도 특정 Species단위에서는 그 정도로 유의한 것을 찾아볼 수 없었다.
Q. M5 스코어에 1점씩이 아니라 균주별 weight를 주는 것은 고려해보지 않으셨는지요?
A. 여러 접근법으로 시도해 보았다. 일단 복잡하게 weight은 overfitting의 가능성이 있지만 정확도는 올라갈 것 같습니다. 그러나 weight를 주는 방법보다는 임상적으로 편하게 적용하기(범용성을) 위해 간편하게 제작하였다.
Q. 서바이벌 조사에서 박테리아의 abundance가 사용되나요?
A. Enterotific 한 박테리아 Prevotella 등은 abundance를 기준으로 나누었는데요, 그 이후에 안 좋다고 예상되는 균주 스크리닝은 abundance를 고려하지는 않았습니다. 그냥 observation만 보았습니다.
Q+. 발견에 대한 cutoff가 있나요
A+. 적은 양이라도 발견이 되면 detection 된 것이라고 계산했다. 이럴 때 시퀀싱 depth를 엄청 높이면 적은 양이라도 감지가 되니 단점이라고 볼 수 있을 것 같습니다. 추후에 전체적인 양 대비 cutoff를 정하는 것을 고려해야 할 것이다.
Q+. M5모델에서 abundance정보가 들어가나요?
A+. Prevotella는 들어가지만 나머지는 들어가지 않는다
Q+. 컨트롤 샘플을 사용하지 않는 이유는?
A+. 정상 군의 분변 샘플을 얻기가 어려웠다.
Q. 현재는 특정한 균주들을 억제하거나 증가시키는 방법은 없는 것 같습니다. 예를 들어 Prevotella가 암 억제에 유리하고 Bacteroidetes가 불리하다고 했을 때 장차 이들을 증가시키거나 억제하는 방법은 어떤 접근으로 가능하다고 생각하십니까?
A. Genus에서 접근한 이유가 Prevotella가 다이어트에 의해 조절되는 마이크로바이옴이라고 알려져 있다. 섬유질 섭취가 증가하면 같이 늘어난다. 이를 직접적으로 조절할 수 있지 않을까 생각 든다. 더 나아가 특정 음식이 영향을 끼치지 않을까 생각을 가지고 이후 실험을 진행하고 있고, 재밌는 데이터를 확보하고 있다.
Q. 환자 샘플링 시에 항생제 치료군과 치료하지 않은 군을 구별하시지는 않으셨는지요?
A. 변수로 추가로 구분하지 않았습니다. 그러나 항암치료 이후에 대한 정보는 포함하게 됩니다.
Q. thiamine histidine 언급하셨는데 분석과정에서 관련된 효소는 도출되었을까요?
A. 효소를 확인하기 위해서는 WGS를 실시해야 하지만, amlicon만 사용하였다. 추가적으로 연구한다면 직접적으로 어떤 효소가 증가하였는지 확인하는 것도 좋은 실험이라고 생각됩니다.
Q. T 세포의 abundance와 특정 pathway를 연관 지어 분석하신 부분이 매우 흥미로운데, 이를 진행하신 방법에 대해서 간단하게라도 설명해 주시면 정말 감사하겠습니다. 저도 PiCRUST2를 진행하여 STAMP라는 프로그램으로 특정 pathway가 치주염에 연관이 되어있는 것으로 파악을 했는데 이후 분석을 진행해보지 못하였습니다. 보여주신 결과가 매우 흥미로워 보입니다.
A. 서울대 병원에서도 Tcell의 수를 계산을 하셔서, 이후 상관관계를 본 것입니다. P값과 상관계수를 추가적으로 본 것이다.
Q. 여러 질병에서 마이크로바이옴이 바이오마커로 개발되고 있는데, 이번 연구에 사용된 샘플들 중 대장암 진행 stage에 따른 바이오마커로 사용된 균들의 분포는 어떻게 달랐는지 궁금합니다.
A. Stage를 고려하여도 예후 예측이 가능하였다. M5가 낮은 쪽에서 실제로 단계 발달이 낮았다.
| 후기
마이크로바이옴 연구의 궁극적인 목표는 이 균을 컨트롤하여 사람의 몸에 영향을 주거나, 이를 이용하여 질병을 진단, 예측하는 것이다. 이 중 가장 많은 연구가 된 장 마이크로바이옴 분야에서 높은 정확도를 보이는 대장암 예후 예측 모델 M5를 알아보았다. 이 모델은 단일 미생물에 집중하는 것이 아니라 여러 미생물 바이오 마커 정보를 이용하였다는 점이 다른 모델과의 차이점으로 볼 수 있다. 또한 모델을 만드는 과정을 상세히 알려주셔서 청자가 여러 아이디어를 얻을 수 있는 좋은 강연이었다. 나는 현재 분석하는 피부마이크로바이옴 모델의 샘플 수가 많지는 않지만, 이 모델의 개발 방법을 착안하여, 정상 대조군 데이터와 현재 분석하고 있는 피부 마이크로바이옴 정보를 대조해 보고 관련 모델을 개발해 보고자 하였다. 이에 대해 오늘 들은 세미나가 많은 도움이 되었다.
| 참고
허지원 교수님 인터뷰
- https://www.ibric.org/myboard/read.php?Board=tr_interview&id=311691&qinterview=Y
관련 논문
- Huh, JW., Kim, M.J., Kim, J. et al. Enterotypical Prevotella and three novel bacterial biomarkers in preoperative stool predict the clinical outcome of colorectal cancer. Microbiome 10, 203 (2022). https://doi.org/10.1186/s40168-022-01388-8