- 작성 : 2022.12.01
🟦 알파폴드2
- 지난 2020년 11월, 알파고를 개발한 것으로 잘 알려진 인공지능 회사 구글 딥마인드가 ‘알파폴드2(AlphaFold2)’를 발표했다. 단백질 구조 예측 인공지능인 알파폴드2는 작년 12월에 있었던 단백질 구조 예측 능력 평가 대회(CASP)에서 92.4점으로 1위를 기록
- 이 프로그램은 먼저 그동안 축적된 단백질 구조 데이터와 아미노산 배열을 학습. 그다음 이를 토대로 하여 새로운 아미노산 서열로부터 구조를 예측. 이전 방식이 분석하는 데 몇 주에서 몇 달까지 소요하던 것에 비해, 딥러닝과 텐션 알고리즘을 결합한 알파폴드2는 고작 하루 이틀 만에 결과를 내놓
- 2021년 7월 15일 딥마인드측은 알파폴드2의 개발 과정이 담긴 논문과 소스코드를 공개. 또한 사람들의 우려와 달리 그로부터 일주일 후, 딥마인드는 알파폴드2로 만든 단백질 구조 예측 데이터베이스 사이트를 열었음. 이후 총 2억개 이상의 단백질 구조를 업데이트
- 알파폴드2 주요 메커니즘 : 아미노산 엣지(Sequence-Residue edges)와 아미노산-아미노산 엣지(Residue-Residue edges) 간 상호작용으로 인한 단백질 쌍(Pair) 업데이트/시퀀스 지속 업데이트와 함께 반복적 특징 추출(Iterative feature extraction)/ CNN 대신 어텐션 사용
🟦 로제타폴드(RoseTTAFold)
- 미국 워싱턴대 단백질 디자인 연구소의 데이비드 베이커(David Baker) 교수팀
- 성능 개선을 위한 결단으로 1, 2, 3차원 정보 간 연결을 강화
🟦 ESM폴드
- 페이스북의 모회사인 메타가 텍스트를 예측하는 '대형 언어 모델(LLM)'이 적용된 AI 'ESM폴드(ESMFold)'로 박테리아와 바이러스 등 미생물의 단백질 약 6억1700개 이상을 예측한 결과를 논문 사전공개 사이트 '바이오 아카이브' 2022년 11월 1일자에 공개
- ESM폴드로 2주만에 6억1700개의 단백질 구조를 예측하는 데도 성공. 이중 3분의 1 이상은 전체 단백질의 모양이 정확하고 경우에 따라서는 원자 수준까지도 식별할 수 있도록 정교
- ESM폴드의 단백질 구조 예측 정확도가 구글 딥마인드의 단백질 구조 예측 AI '알파폴드'에 미치는지는 아직 미지수지만, 검색을 하듯 빠른 속도로 손쉽게 단백질 구조 예측이 강점
🟦 단백질 구조 예측 그 이상
- 단백질 각각의 구조예측 이후에는 protein-protein interaction의 예측에 초점을 맞추고 있음
- 여러 회사들도 각각 단백질사이의 결합 distance를 예측하는 모델등을 개발중에 있음
- 백민경 교수님 인터뷰 :
단백질 구조 예측 관련 학계 전체적으로 주목하는 주제는 cryoEM 데이터 활용을 통한 단백질 멀티스테이트 구조 예측
- 2022.12.01 Kbio-X 글로벌 세미나(백민경 교수님) 曰 :
Q 단백질 구조 변화는 예측 가능한가?
A 단백질의 구조 변화를 알파폴드나 로제타폴드로 예측할 수 있는지 질문주셨는데요, partially yes라고 답변드릴 수 있을 것 같습니다. 현재의 알파폴드와 로제타폴드가 타겟 단백질만 넣고 예측을 했을 때 다양한 구조를 만들어주지는 못하지만, 타겟 단백질과 결합하는 단백질을 같이 넣고 복합체구조를 예측을 하면 결합에 따른 구조변화가 같이 예측되는 경우들이 있습니다
Q Endosome, lysosome과 같이 pH가 다른 소기관 내에서의 구조 변화나 protein-protein interaction을 예측가능한지도 궁금합니다
A 현재의 로제타폴드, 알파폴드는 주변 환경변화는 전혀 고려하지 못하고 있습니다. 단백질의 pH에 따른 구조 변화를 현재의 알파폴드를 활용해서 예측은 어렵구요, 대신 pH-dependent MD simulation등을 활용해 볼 수는 있을 것 같습니다.
Q 코로나 바이러스의 스파이크 단백질 등도 예측 가능하나요?
A 일반적으로 바이러스 단백질의 구조 예측은 훨씬 어렵습니다. 제가 바이러스 진화과정에 대해 잘 아는 전문가는 아니라서 정확한 이유는 모르지만 바이러스 단백질에 대해 HHblits과 같은 생물정보학 툴을 활용해서 MSA를 만들어보면 보통 10개 남짓의 서열밖에 찾아주질 못합니다 (알파폴드/로제타폴드는 서열이 30~50개 이상이어야 정확한 구조 예측이 가능합니다). 단순히 현재의 단백질 서열 데이터베이스에 바이러스가 별로 없어서인지 아니면 다른 이유가 있는 것인지는 모르겠으나 이러한 이유로 바이러스 단백질에 대해서는 예측하기 어려운 경우가 많습니다.
🟦 인공지능은 어떻게 배워야 하는가?
- 2022.12.01 Kbio-X 글로벌 세미나(백민경 교수님) 曰 :
비슷한 분야의 사람들이 어떻게 인공지능을 활용하는가?에서 부터 시작해서
일단 그 분야 관련해서 프로그램을 다뤄보는 것이 중요하다
본인이 연구하는 분야에서 사용되는 인공지능 모델로 부터 출발하는 것이 좋다
Reference
- https://m.dongascience.com/news.php?idx=55583
- https://www.dongascience.com/news.php?idx=56929
- http://www.aitimes.com/news/articleView.html?idxno=140110