이전 편 📗인코렌탈(생물정보 분석): 언제 어디서나 클라우드를 이용한 NGS분석 01 1. 서버 접속 이후 서버 접속이 완료되었다면, 아래와 같은 화면이 정상적으로 보입니다. 왼쪽에는 CLC Genomics Workbench 가 있으며, 우측 상단에는 리눅스 OS의 폴더와, 아래는 파일을 주고받기 위한 commend line 창이 띄워져 있습니다. 제가 사용한 파일은 엠플리콘 마이크로바이옴 예제 데이터입니다. Miseq으로 수행되었으며, 16S rRNA의 V4를 forward와 reverse방향에서 읽어낸 파일입니다(paired-end). 위 샘플은 DADA2의 예제 파일로서, 38개의 데이터로 구성되어 있습니다. 2. 지원하는 분석단계 1) 개별 도구 CLC의 왼쪽 아래 Tool box를 보면, 위 솔..
1. 서론 생물정보학 분야는 코딩이 결코 빠질 수 없는 분야일까요? 제 주변에 생물정보학에 대해 물어보는 많은 분들이 코딩을 배우는 것에 대한 허들을 많이 느끼곤 합니다. 오히려 코딩이 생물정보학에 대한 접근성을 낮추는 셈입니다. 사실 모두가 공감하실 겁니다. 코드를 입력하는 시간보다 업데이트나 설치가 더 어렵다는 것을…🙉 그러나 QIIME 같은 도구를 사용하면 시각적으로 결과를 보여주는 Qiime View를 제공하기도 하며, 결과를 간단하게 확인할 수 있게 하고, 여러 편리한 도구들이 많이 출시되었습니다. 여러 오픈 소스들의 장점은 무료이면서, 모두가 사용 가능하지만, 반대로 말하면 누구나 만들 수 있고, 이에 대한 검증은 어렵다는 것입니다. 반대로 많은 전문 프로그램들도 GUI(Graphical Us..
2024.03.13. 수 개요박테리아 엠플리콘 분석에서 마커 유전자로 16S rRNA의 V3 V4 영역이 가장 많이 사용된다. 대략적인 길이는 약 ~465 bp이다. 엠플리콘 데이터는 DADA2의 denoising과정을 통해 퀄리티를 필터링하고 paired-end 서열을 합쳐준다. 이때 merge를 위해서는 적어도 12(최적 20nt) nt 이상 겹치는 영역이 존재해야 한다. 그러므로 V3-V4 서열을 필터링할 때, 너무 짧지도 혹은 길게 자르지 않도록 주의해야 한다. 그러면 어떤 길이로 잘라야 최적의 퀄리티를 얻을 수 있을까? 이에 대한 실행 코드를 소개한다. (참고: "Many loss in V3-V4 filterAndTrim", https://github.com/benjjneb/dada2/iss..
작성 : 2023-06-07수정 : 2024-01-26 PICRUSt2 결과를 어떻게 보여줘야 보는 이로 하여금 이해가 수월할지 고민해 보았다. 마이크로바이옴 논문에서는 Erro bar를 사용하여 각 비교 그룹에서 얼마나 양적으로 차이 나는지 보여주거나, heatmap을 사용하는 것이 대다수였다. 혹은 분석 결과를 LDA score 등 를 통해서 보여주기도 한다. 전체 샘플에서 kegg pathway에 해당하는 분포를 보고 싶을 때에는 heatmap 이 가장 적합하다. heatmap은 다른 시각화 방법보다 raw data를 반영한다. 이를 고려하여, 전반적인 raw data를 보여주기 위해서 heatmap을 사용하고, 통계적으로 유의한 feature 간의 비교를 위해서는 Error bar/ L..
| 함수 metadata의 각 column 별로 x값을 달리해서 그림을 그려주는 함수를 만들어보자. 예제 데이터는 phyloseq의 GlobalPatterns를 사용할 것이다. 추가적으로 GlobalPatterns의 metadata에 "Type"이라는 변수를 추가하여 보자. Type은 각 샘플을 사람 것인지, 환경에서 얻어 온 것인지 혹은 Mock 샘플인지 구분하여 준다. library(ggpubr) library(phyloseq) library(ggplot2) library(dplyr) data("GlobalPatterns") GlobalPatterns # phyloseq-class experiment-level object # otu_table() OTU Table: [ 19216 taxa and 2..
- 일시 : 2023.02.08(수) - 장소 : 서울대학교 자연과학관 26동 B102호 - 수강 강의 : Human Microbiome Studies with Bioinformatics Approaches (이선재 교수님/GIST) ⬛ 등록 Type Annual Membership Fee Early Registration (~Feb.03) On-Site Registration (Feb.06~ Feb.08) Member Student ₩ 40,000 ₩ 120,000 ₩ 170,000 Ac/Gov/Non-Profit ₩ 80,000 ₩ 150,000 ₩ 200,000 Industry ₩ 50,000 ₩ 200,000 ₩ 250,000 Non-member Student - ₩ 180,000 ₩ 230,00..
샘플의 이름은 각 기관마다 다르지만, 분석할 때는 인덱싱 하기 쉽게 단순화하여 사용한다. 예를 들어 01번째 환자의 cheek 부위의 샘플이라면, "001ch"처럼 약자를 이용해 이름을 짓는다. 또한 마이크로바이옴 기초 데이터의 시퀀싱 결과를 파악하기 위해서 각 샘플마다 read 수를 확인해야 한다. 이때 sampling depth로 rarefy의 수를 정하기도 하고, 시퀀싱이 잘 되었는지 확인한다. 나는 이를 한눈에 보기 위해 R을 이용하여 아래와 같은 테이블을 만들고자 하였다. HV01 HV02 HV03 HV04 Total Read So Df Ac Ne 하지만 여기엔 조건이 있다. 1. 이름에 각 환자의 순번과 부위가 존재해야 한다. ex) 001VH, 003JF, CD001 등등 일정 형식이 존재해..
🟦 샘플 필터링은 왜 필요한가? ◼ 마이크로 바이옴 분석에서 데이터는 보통 대용량 데이터이다. ◼ 분석 시 컴퓨터의 과부하를 줄이기 위하여 일부 데이터만 추출하여 비교하기도 한다. - ex) major한 taxa에서 differencfial abundance test를 위해 read수가 많은 순으로 10%만 골라낸다 ◼ 일정 depth를 충족하지 못한 샘플은 왜곡이 많을 것이라고 가정해 제거하고 분석을 수행한다. 🟦 Phyloseq 데이터를 이용한 필터링 해보기 library(phyloseq) data(GlobalPatterns) GlobalPatterns # hyloseq-class experiment-level object # otu_table() OTU Table: [ 19216 taxa and 2..
🟦 1. 서론 일단 데이터 분석의 자동화가 가능한가? 이는 데이터마다 다르다. 데이터 별로 각 EDA분석 이후 데이터의 품질을 보고 그 이후 분석 방법을 설계해야 한다. 그러나 마이크로바이옴 데이터의 경우 OTU table이라는 정형화된 데이터 형식이 있으며, 각 퀄리티가 떨어지는 데이터를 제외하고 분석하는 경우가 많아 이러한 변수의 영향을 덜 받는다고 말할 수 있다. 그러므로, 각 분석의 반복적 작업 단계를 자동화하는 것이 목표이며, 이에 대한 방법을 고민하고 있다. Taxonomy 함수를 그릴 때 기본적인 R base의 색으로 표현해도 문제는 없지만, 외부 발표용 자료는 어느 정도 보는 사람이 잘 이해하도록 만들어야 한다. 하지만 수동적으로 색을 부과하는 작업은 시간이 낭비된다. 그래서 입력한 숫자에..
- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가 📌 [소식] PICRUST2의 refrence가 GTDB 를 기반으로 확장되었다는 소식이 올라왔습니다. Reference 서열과 기능 유전체 데이터베이스가 업데이트 되었기 때문에, 기능 예측의 정확도가 향상될 것으로 기대됩니다 (25.01.10) - 관련링크 🔗https://github.com/picrust/picrust2/wiki/PICRUSt2-GTDB-database HomeCode, unit tests, and tutorials for running PICRUSt2 - picrust/picrust2github.com📌 [후기..
- 주최 : Microbiome Insight - 강사 : Ruairi Robertson, PhD - 출처 : https://www.youtube.com/watch?v=SDbYFCAHX8s Microbiome Insight에서 이메일 왔길래 클릭해보니 아래 강의 영상을 보내줬다. 간단한 비교 영상이지만 도움이 될 것 같아 정리해본다. 🟦 16s rRNA Sequencing ◾ 16S rRNA gene 를 타깃으로 하며, output은 16s rRNA의 유전자의 read 조각들 이다 ◾ 여러 Pipeline(Qiimw, Muthur, Dada2)을 사용해 생물정보학 방법으로 분석 🟦 Shotgun Metagenomic Sequencing ◾ all genomic DNA 를 타깃으로 한다 ◾ 과정 1. ex..
- 일시 : 2022.12.04, 11:00~12:00 - 장소 : 전북대학교 생명과학과 401호 - 강의 : 한림대학교 김봉수 교수님(Cj bioscience/ Chunlab) 1. 마이크로 바이옴 이란? 마이크로 바이옴의 정의 - microbiome 의 정의는 microbiota + Activity를 포함하는 개념이다. 즉 각 미생물의 종과 더불어 그 환경에서 각 종이 어떤 역할을 하는지 알아내는 학문이다 - 즉 환경에 대한 이해가 매우 중요하다 - Holobiont는 최근 등장한 개념으로 미생물 + 숙주 + 환경을 더불어 일컫는 말이다. 이들의 공동체가 공진화하는 진화적 뜻을 포함하고 있다 - Microbiome study란 단순히 Structure(Composition)만 보는 것이 아니라, 각 ..