이 프로젝트는 내가 들어오기 전에 교수님이 맡으셨던 프로젝트이다. 교수님이 바쁘신 나머지, 내가 추가 분석을 담당하게 되었다. 분석은 내가 대학원들 들어오고 나서부터 오늘까지 약 1년간 지속되었다. 사실 기초 분석은 모두 끝낸 상태라, 처음 공부하면서 이미 완성된 결과를 다시 한번 확인하고, 그 후에 새로운 분석들을 추가해서 살을 붙였다. 정말 지겹고 속이 울렁거릴 정도로 수정했던 것 같다. 분석도 분석이지만, 이미지 퀄리티부터, 색, 샘플 정렬, taxa정렬, 글씨체 등등 여러 세세한 부분이 더 많은 비율을 차지했던 것 같다. 기억을 더듬어 보자면 아래와 같다. 1. 샘플의 메타데이터를 관찰한다. ✨이 단계가 매우 중요하다. 사실 이 전에 실험 계획이 더더욱 중요하다. - 메타데이터에 오류가 없는지 꼼..
대학원
작성 날짜 : 2023.06.21.수 대표적인 Skin microbiome의 시퀀싱 영역에 대한 논문을 보면 피부에서 중요한 Staphylococcus, Streptococcus를 검출하기 위해서 V1 V3 영역이 가장 좋다고 알려져 있다. 그러나 실제로 V1V3을 사용한 연구는 많지 않다. 이에 관해서는 실제 데이터를 받고 나서 깨달았다. V1V3는 다른 영역에 비해 길이가 길기 때문에 국내 회사의 시퀀싱 기계로는 잘 검출되지 않는다. 정확히 말하면 Read 수는 괜찮은데 적당한 퀄리티를 보장할 수 없었다. V34가 Raw data대비 전처리 후의 데이터가 각 70~80%의 수율을 가진다면, V1V3는 20~10% 정도뿐이었다. 결국 교수님께서 V34를 보거나 16S full length를 사용하기로 ..
- 원문 : https://www.kiet.re.kr/research/economyDetailView?detail_no=2821&year=2023&month=05&sval= - 저자 : 최은희 - 파일 : 보건데이터의 종류 - 활력징후 : 혈압, 혈당, 호흡, 체온 - 오믹스 : 유전체, 마이크로바이옴 - 기타 : 앱, 소셜미디어 보건 데이터의 형태 - 정형 : 진단명, 처방 코드 등 - 비정형 : 의료기록, 영상, 이미지 등 (보건데이터의 80~90%) - 반정형 : 의료진의 판독 소견 등 보건 데이터의 유통 - 공공기관 개방 플랫폼 : 질병관리청, 건강보험심사평가원, 국민건강보험, 통계청, 국립암센터, 국립중앙의료뭔, 국민건강보험일산병원, 국립장기조직혈액관리원, 국립재활원 - 민간영역 : 전자의무기록..
- 원문 : https://www.bioin.or.kr/board.do?num=320428&cmd=view&bid=issue - pdf : 구분 개념 및 차이점 AI AI(인공지능)은 학습, 문제 해결, 의사 결정 등 일반적으로 인간의 지능이 필요한 작업을 수행할 수 있는 지능형 시스템을 만드는 것을 지칭하는 포괄적인 용어이자 광범위한 분야 ML ML(머신러닝)은 데이터의 패턴과 인사이트를 사용하여 명시적인 지시 없이도 작업을 수행할 수 있도록 디지털 컴퓨터를 훈련시키는 AI의 하위 분야 DL DL(딥러닝)은 여러 계층으로 구성된 인공 신경망을 사용하여 학습하고 의사 결정을 내리는 ML의 하위 집합임. 이미지(예: DALL-E2) 또..
- 링크 : https://www.bioin.or.kr/board.do?num=320476&cmd=view&bid=report - 지구 마이크로바이옴 프로젝트가 대표적이다 -> 지역특성에 따른 데이터베이스 구축의 필요 - 토양미생물체를 이용한 토양 품질 개선, 작물 생산성 향상, 유기물 분해 공정 개선 연구 多 - 미생물보단 식물과, 토양미생물 전체의 군집과 뿌리 주변 미생물에 집중 -> 엔지니어닝 - 이를 활용한 스마트팜 농업이 증가할 것
# 1. 모든 해야 할 일은 얼마나 완성되었는지, 이 일의 목적은 무엇인지, 마감기한이 있는지를 생각해야 한다. 이미 데이터가 있는 연구이며 논문 준비가 되어있으면 시급성 1순위로 두고 제일 먼저 마감할 것. 집중할 것에 집중하고, 나머지는 그 후에해도 늦지 않는다. # 2. 쓸데 없는 그림 그리기에 치중하지 말 것. 비교 분석은 각 방법의 차이를 보여주는 그림 한 장씩, 아니면 중요하다고 생각하는 plot만 보자. 세부적인 단계는 후순위다. 그 과정을 위해 시간과 노력을 쏟지 말고 다른 연구의 진도를 나가는 것이 좋다.
데이터의 특성을 파악하지 않고, ITS데이터에서 통계적인 유의성이 나오는 Alpha diversity plot을 그렸다. 그러나 이는 각 Site별로 다양성의 차이가 나는 변수를 무시한 채, 통계적인 유의성이 돋보이는 그럴듯한 결과물 제출했다. 나 또한 이 그림이 의미가 있다고는 생각하지 않았다. 그러나 그 이상의 생각을 하지는 않았던 것 같다. 분석한 데이터는 샘플의 수가 많지 않았으며, 샘플링 시기가 약을 처방하고 일정한 간격만큼 측정된 것이 아니기 때문에 많은 변수가 존재했다. 그러므로 교수님께서는 이 샘플의 연구의 목적은 이 약을 처방한 환자의 Fungus의 분포를 보는 것 그 이상의 결과물을 내기 어렵다고 하셨다. 대학원을 오기 전에 고려했던 것은 내가 연구라는 분야에 활약할 수 있는지였다. 이..
- 2023.04.19 랩미팅 피드백 - 분석을 할 줄 아는 것보다. 이 분석이 어떤 방법을 사용하며, 분석의 결과가 무슨 의미를 가지는지가 더 중요하다. - 샘플의 경향성만 간단히 보고싶다면 taxonomy를 보는 것처럼, 분석의 목적과, 그 샘플에서 최종적으로 보고자 하는 것을 생각하다. - 그림을 그리는건 한 달만 배우면 할 수 있다. 그러나 실험을 디자인하고, 샘플을 선정하고, 그 샘플의 퀄리티를 측정하고, - 샘플의 결과가 맞는지 판단하는 것은 간단히 할 수 없다. 그것이 자신의 전공 분야여야 한다. 각 단계를 이해하고, 이 후에 어떤 분석을 할 것인지 생각해야 한다. - 여러 논문보다 현재 연구 주제에 맞는 논문을 봐라. 논문 쓸 때 어차피 50-60개는 몰아서 본다. - 시각화 - 진균과 박..
마이크로바이옴데이터와 환자 메타데이터를 이용해서 유의미한 예후 예측 모델을 제작한 허지원 교수님의 세미나를 재미있게 들었다. 위 모델은 대장암 예후 예측에서 높은 정확도를 보였다. 이러한 연구 방법은 대장암뿐만이 아니라 여러 암 모델에서도 사용가능할 것으로 보인다. | 개요 - 주제 : 대장암 예후를 예측하는 분변 미생물 바이오마커 발굴 [Bric/웨비나] - 일시 : 2023년 3월 20일(월) 오전 10시(한국시간) - 연사 : 허지원(연세대학교) - 주최 : Bric - 강연 영상 : https://www.youtube.com/watch?v=3znHS0EVQkY&t=1s | 강의 | +) 2가지 장의 종류 | 대장암 예후 지표 대장암의 예후 지표는 여러 가지가 사용된다. 대표적으로 나이, 암의 진행..
- 일시 : 2023.02.08(수) - 장소 : 서울대학교 자연과학관 26동 B102호 - 수강 강의 : Human Microbiome Studies with Bioinformatics Approaches (이선재 교수님/GIST) ⬛ 등록 Type Annual Membership Fee Early Registration (~Feb.03) On-Site Registration (Feb.06~ Feb.08) Member Student ₩ 40,000 ₩ 120,000 ₩ 170,000 Ac/Gov/Non-Profit ₩ 80,000 ₩ 150,000 ₩ 200,000 Industry ₩ 50,000 ₩ 200,000 ₩ 250,000 Non-member Student - ₩ 180,000 ₩ 230,00..
원문 : https://m.ibric.org/miniboard/read.php?Board=isori&id=135722&FindText=%EC%83%9D%EB%AA%85%EC%A0%95%EB%B3%B4%ED%95%99%20bioinformatics%20python 안녕하세요. 요즘 대기업이나 중소기업 벤처기업 등 모든 규모의 기업에서 bioinfo 채용하는 곳이 엄청 많습니다. 저희도 많이 채용하고 싶지만 국내에 졸업생 풀이 너무 작아서 쉽지 않더군요. 그런 분들이 기업체로 진로를 정했으면 자신을 잘 표현하는게 중요한데, 지극히 개인적인 의견으로 기억나는 인상적인 경우들을 적어봅니다. 1. bioinfo.는 기본적으로 컴퓨터 사용이 능숙하면 큰 점수를 줍니다. 어쩌면 기업체에서는 연구 성과보다도 컴퓨터 사..
코딩의 가장 좋은 점은 반복 작업을 자동화 하는 것이다. 또한 돌려놓고 다른 일을 함으로서 효율적으로 일을 할 수 있다는 장점도 있다. 마이크로바이옴 분석을 위해 현재 일부 분석 스크립트를 자동화 하였다. 종류는 아래와 같다. - Bera diversity에서 index별로 PCoA를 만드는 함수 - DA 분석을 위해 Volcano plot을 자동으로 반환하는 함수 - Taxonomy plot에서 Top n개를 뽑으면 Phylum별로 색을 자동으로 배분해 주어서 그려주는 함수(Rcolorbrewer사용) 간단해 보이지만 생각보다 함수를 만드는 것에는 여러 제약 조건이 있었다. 각 함수마다 원하는 변수의 종류가 ""가 붙었는지 안붙었는지에 따라 결과도 다르고(dplyr::arrange ↔ dplyr::ar..