논문을 고른 이유
- 수업 논문 발표용
- 마이크로바이옴 데이터를 이용한 질병 상태 예측이라는 효용성 있는 연구
배경
Colorectal cancer (CRC) 이란?
- CRC는 전 세계에서 두 번째로 흔한 암으로 발병률을 서양에서 꾸준히 증가
- 조기발견의 증가되었지만, 1-3기 CRC환자에서 24%는 종양 제거 후 5년 이내 재발, 절반 이상의 사례가 2년 이내 발생
- 수술 후 위험을 계층화(분류)하는 것이 장기적인 관리에 중요하다. 보통 혈액과 대변에서 측정된 몇몇 지표가 중요한 요소임
장에 영향을 미치는 미생물
- Fusobacterium nucleatum: anaerobic oral commensal, promotes colorectal carcinoma and cancer progression in rodents
- Escherichia coli: host DNA damage
- Bacteroides fragilis: tumor-promoting chronic inflammation
현재 연구의 한계
- 대부분의 진단 biomarker는 하나의 측정 병원미생물에 집중한다(특히 F. nucleatum)
우리의 연구
- 333 CRC환자를 관찰하여 Kaplan-Meier 생존 분석을 수행한 결과 Prevotella가 CRC의 진단에 매우 연관되어 있음을 알 수 있었다.
방법
샘플 수집
- 339명의 대장암 환자 수술( 전이성이 아닌 원발성 종양 절제) 2주 전 샘플링. 집에서 채취 후 24시간 이내 병원으로 전달. 6명을 제외하고 333명을 연구에 사용.
- 모든 환자는 선암종( adenocarcinoma ; 선조직 포함 상피조직에 생긴 종양 )
- 수술 후 후 27.6주, 43.6주 followed up 관찰.
- 추가 정보는 BMI, 나이, 성별, American Society of Anesthesiologists (ASA;미국 마취 학회 신체상태 분류; class 6로 분류 ) 분류, 흡연 이력, 음주, 수술 후 화학요법, 약물 치료, 동반 질환 및 종양 정보(TNM stage, 림프 침범, 돌연변이 정보_K-ras ) 수집.
- lymphovascular invasion: 림프나 혈관에서 종양세포가 발견되는 것은 의미
- K-ras는 대장암에서 흔히 일어나는 발암유전자의 돌연변이로, 종양 유전자를 촉진
- 암의 위치는 colon( splenic flexure, descending colon, and sigmoid colon )과 proximal colon(cecum, ascending colon, hepatic flexure, and transverse colon)으로 분류하였음
- 환자는 매 3 혹은 6 개월마다 암의 진행을 모니터 하였으며, 더 이상 진행 되지 않은 환자 269명의 follow-up 기간은 중앙값 29.5 달이다. (2~3년)
- 후속 방문 시 carcinoembryonic antigen (CEA)을 포함한 신체검사 및 테스트 진행. 복부 골반 및 흉부 엑스레이는 6개월 또는 1년마다 시행. 대장 내시경은 1~2년마다 시행.
- 생존자의 평균 추적 기간은 43.5개월(사망한 경우 25.6개월)
시퀀싱
- V3-V4영역
- Illumina MiSeq platform
16S rRNA 분석
- 34,184,627 read와 17,194 ASV 검출
- 분석 도구: QIIME2, Reference: SILVA 138 database, rarefy 유무: 有(최소 read 64,604), Beta diversity 군집화: k-means (k=2)
Survival analysis
- PFS 정의: 은 수술 후 대장암의 재발 또는 사망까지의 시간.
- Kaplan-Meier survival analysis 분석 : survival, survminer r package 사용.
- log-rank test 분석: 각 범주화된 변수 간의 생존 분석. 연속 변수( levels of serum metabolites, number of tissue-associated T cells, and bacterial counts)는 중앙값으로 이분법화 됨(dichotomized). 그러나 일부 변수는 기존에 제시된 표준을 따름 : CEA, high > 5 ng/ml; plasma fibrinogen, high ≥ 335 mg/dL; neutrophil-to-lymphocyte ratio (NLR), high ≥ 5; platelet-to-lymphocyte ratio, high ≥ 150; lymphocyte-to-monocyte ratio, high ≥ 2.4; ; prognostic nutritional index, high ≥ 45; age, high ≥ 65; and BMI, high ≥ 25.
- Cox 위험 비례모형 : 변수들에 의한 hazard ratio (HR)를 얻음 (survival R package)
- Screening prognostic bacteria: 관찰된 438 종 중에 79종이 prevalence 10% 이상, relative abundance 0.01% 이상에 속함. 전체 데이터의 70%(333 샘플 중 233)를 Monte Carlo cross-validation (CV)을 통해 검증하고, 30% 데이터(100 샘플)에서 0.05보다 p-value값이 낮은 prognostic species를 필터링하였음. 교란효과를 제거하기 위해서는 Cox모델의 변수 값을 일부 조정. 결과로 HR> 1.5와 FDR < 0.1의 결과인 4종을 예후 바이오마커로 선택
- Microbiota-based hazard score: 5종( Prevotella genus, Bacteroides sp., P. piscolens, D. invisus, F. nucleatum.)을 선택. 각 종을 포함하고 있거나 은 풍부도(prevotella의 경우)를 지니고 있으면, 1점의 가중치 부여. 생산된 31개의 score를 평가하기 위해서 샘플의 절반(166)을 랜덤 하게 1,000번 샘플링하여 테스트 데이터 구성. M5모델에서 1-2점이면 중간 그룹, 3-5점이면 높은 그룹으로 지정하고, 추가로 CRC의 임상 병리학적 단계로 구성된 위험모델을 추가하고, 추가된 임상병리학적 단계가 예후 예측을 개선하는지 검증.
- Metagenomic functionality inference: PICRUSt2 분석에서 effect size를 계산하기 위해 각 pathway에 따른 average taxonomic relative functional abundance (TRFA)를 계산. p-value값이 0.001 이하에 TRFA가 5 이상인, 높은 M5에서 9개의 풍부하고 6개의 낮은 전체 15개의 미생물 pathway를 검출했다. pathway data는 MetaCyc database에서 얻음
- Statistics: PERMANOVA(Bray-Curtis dissimilarity), Wilcoxon rank-sum test, Fisher’s exact test,
결과
장의 마이크로바이옴 분포 결과
- CRC 환자의 장 마이크로바이옴은 정상대조군 (Arumugam, M,m et al., 2011)처럼 enterotype으로 군집을 이룬다.
- 임상병리학적 단계와, CRC의 진행 단계, 사망 유무도 유의한 차이를 보임
- Alpha diversity(Shannon)은 Enterotype2(prevotella 우세)에서 type1보다 다양성이 높았지만, CRC단계나 수술 후 결과는 큰 차이가 나지 않았다.
- enterotype1에서 advanced CRC나 진행 단계인 비율이 높았고, 혈액 변수에서 Carcinoembryonic antigen(CEA)와 fibrinogen(혈액응고인자, 염증이 심할수록 높음)의 단계가 높았다. (fig S1)
- 수술 후 화학요법에 대한 매개변수는 대부분 유의하지 않음
CRC환자의 상태를 나타내는 Prevotella 타입과 4개의 기회주의자
- follow up은 중앙값 27.6달과 42.7달에 측정
Enterotype은 생존율에 큰 영향을 미치지는 않지만, Prevotella의 경우 유의한 차이를 보였다. (Bacteroides와 Faecalibacterium 에서는 유의성이 보이지는 않음, Fig S2)
위 분석은 "CRC환자의 미생물 dysbiosis는 opportunistic pathobionts의 증가를 동반한다. 그러므로 우리는 나쁜 예후를 가진 환자기 더 많은 병원균을 가졌다"라고 가정했다. 이를 알아보기 위해 univariate log-rank survival test와 multivariate Cox proportional hazard analysis(CoxPH)를 수행하였다. 이때 abundanc가 0.01 이상에 prevalence가 10% 이상인 균을 타깃으로 하였다.
log-rank test는 Bacteroides sp., F. nucleatum, Dialister invisus, and Pyramidobacter piscolens 가 death와 예후의 risk를 증가시킨다고 나타냄 (Fig SC은 PFS가 아닌 OS기준)
Cox 분석 결과, HR이 1 이상이면서, p-value값이 0.1 이하에서도 4개의 종을 발견하였다 (Figure 2J).
미생물 종을 포함하는 M5모델 구성
미생물 종을 포함하는 모델, 총 2^5-1 = 31개의 모델 구성 -> 이 중 모든 미생물종(5개)을 포함한 M5모델의 정확도(C-index)가 가장 높았다(=M5) (Figure 3B). M5 모델에서 0점을 low, 1-2를 moderate, 3-5를 High로 분류한 결과의 생존분석에서 유의성을 보였다 (Figure 3C, D).
- 다른 변수보다 뛰어난가? stage를 기준으로 보았을 때 CEA, AGE보다 뛰어난 정확도를 보임 (Figure 3E, F).
- 다른 변수와 독립적인가? 각 변수를 추가했을 때 정확도의 상승 = 독립적임을 보임 (Figure 3G).
M5 모델에서 유의한 차이를 보이는 pathway 예측 분석
PICRUSt2를 이용하여, 어떤 유전체가 M5-low 집단에서 유의한 차이를 보이는지 분석하였다. M5-low에서 풍부한 기능유전체 중에서 log rank test에서 생존율과 유의한 결과를 보인 것은 Thiamine diphosphate salvage(Vitamin B1 회수) 2와 L-Histidine degradation(히스티딘 분해)이다 (Figure 4D, E).
Thiamine diphosphate salvage 은 다양한 생물군에서 기여하였으며, L-Histidine degradation은 bacteroidaceae의 기여가 우세하였다. 임상적으로 Thiamine의 섭취는 암세포 크기 감소를 보였으며, 이 농도는 장내 미생물의 영향을 받습니다. 또한 L-Histidine 분해에 기여하는 많은 종들이 사람과 동일한 아미노산을 사용하는 미생물 균들로, 이는 장에 여러 생물학적 과정에 직접적으로 영향을 미칠 가능성이 높음을 시사합니다.
추가적으로 암 예후 예측에 긍정적인 결과에 기여하는 CD8 T cell과 각 기능 유전체의 상관관계를 분석한 결과, Thiamine diphosphate salvage 2는 CD8 T cell의 증가와 양의 상관관계를 보였으며, L-Histidine degradation는 음의 상관관계를 보였습니다.
읽고난 후
- Enterotype 분류에 사용되는 prevotella가 CRC 예후 예측에 기여를 한다는 첫 번째 연구이다.
- 위 모델로 분석되지 않은 새로운 데이터를 예측한 결과와, 기능 예측 유전자 부분은 임상이나 동물 실험에서도 동일한 결과를 도출하는지 궁금하다.
출처
Huh, JW., Kim, M.J., Kim, J. et al. Enterotypical Prevotella and three novel bacterial biomarkers in preoperative stool predict the clinical outcome of colorectal cancer. Microbiome 10, 203 (2022). https://doi.org/10.1186/s40168-022-01388-8
Arumugam, M., Raes, J., Pelletier, E. et al. Enterotypes of the human gut microbiome. Nature 473, 174–180 (2011). https://doi.org/10.1038/nature09944
Survival Analysis. 카플란-마이어 추정 (Kaplan Meier Estimation)
Survival Analysis. Cox 비례 위험 모형(Cox Proportional Hazard Model) - 1
[R 통계분석] 13. 콕스 회귀분석, 콕스 비례-위험 모형(Cox Regression analysis, Cox Proportional-Hazard Model)
용어
- Progression Free Survival(PFS): 무진행 생존기간, 병이 진행되지 않은 상태에서 악화되거나 사망에 이르기 전까지 생존 기간
- overall survival (OS): 종합 생존율, 치료 시작 후 사망 순간까지 기간을 추적(임상연구의 경우 가능한 긴 기간)
암과 같은 질병을 앓는 환자의 치료 중 혹은 치료 후 더 이상 악화되지 않는 경과 시간. 새로운 치료법이나 약물이 얼마나 잘 작동하는지 보는 방법(위 논문에서는 재발하거나 사망하는 시간으로 정의)
- 생존분석: 관찰 시점에서 사망에 이르는 시간을 추청 하는 통계적 분석법
- Survival function (생존함수) : 더 오래 생존할 확률, 고객이 특정 시간보다 더 오래 잔존할 확률을 계산
- Hazard function (위험함수) : 특정 시간 t에 고객이 이탈할 확률, 사망할 확률
- Kaplan-Meier survival analysis : 특성 time point에 몇% 가 살아남았는지 누적생존율 추청
위의 이미지를 보면 5년 후 70%가 생존하는 것을 관찰할 수 있다.
- log-rank test: 생존분석으로 얻어진 curve가 유의한 지 검사 -> p-value값 도출
- Cox Proportional Hazard Model: 종속 변수는 사건이 발생하기까지 걸리는 시간이며, 생존율에 영향을 미치는 위험인자를 알아내는 분석 방법. 가정은 연구 기간 동안 두 군의 위험비가 일정하게 유지(비례위험 HR(Hazard ratio)는 종속변수에 영향을 미티는 크기, 즉 exp(coef) 값이다. 이 값은 Forest plot으로 보통 시각화.
- 시간과 사건 사이의 예측 회귀묘형
- Kaplan-Meier 분석의 단점: 특성 외의 다른 요인들을 통제할 수 없음
- 결과 (HR)
1 이상 -> 사망 위험 증가
1 이하 -> 사망 위험 감소
- Monte Carlo cross-validation : Repeated random sub-sampling validation라고도 하며, 데이터를 무작위로 분할하여 학습-검정에 사용한다. 결괏값은 검정 오차의 평균을 반환한다.
연관 링크
R 생존분석 tutorial: Survival Data Analysis