Bioinformatics

ISID학회를 다녀온 후 마이크로바이옴 논문을 요약, 정리해 보았다. 마이크로바이옴 논문 중 대부분은 Omics적인 내용을 담고 있다. 논문 중 국내(연세대)에서 출간된 논문도 마이크로바이옴과 지질, 면역물질에 대한 omics내용을 담고 있었다. 3년 전에 생물정보학을 처음 접했을 당시에도 오믹스가 중요하다는 말을 들었다. 현재 마이크로바이옴 분석을 담당하고 있지만, 아직도 오믹스의 뜻을 잘 이해하지 못했다. 이번 기회에 한번 알아보고자 Jianbiao He BS의 "Application of omics technologies in dermatological research and skin management"를 읽고 정리해 보았다. 결론만 말하자면 기초 분석은 어렵지 않지만, (내가) 실험하기는 어렵다..
1. 리눅스에서 바로 확인하기 for i in ./*.fastq.gz; do echo "${i}: $(echo "scale=0; $(zcat "${i}" | wc -l)/4" | bc)" ; done >>counts.txt 출력물 ↓ ./001AcCUSw_trim_1.fastq.gz: 58358 ./001AcCUSw_trim_2.fastq.gz: 58358 ./001AcLUSw_3_trim_1.fastq.gz: 57066 ./001AcLUSw_3_trim_2.fastq.gz: 57066 ./001AcLUSw_4_trim_1.fastq.gz: 59239 ./001AcLUSw_4_trim_2.fastq.gz: 59239 ./001AcRUSw_1_trim_1.fastq.gz: 61334 ./001AcRUSw_..
fasta 파일을 Biostrings 패키지를 사용해서 R의 data frame 형태로 바꾸어 보자 library("Biostrings") fastaFile= readDNAStringSet("..ASVs_rep.fastq.txt") seq_name = names(fastaFile) sequence = paste(fastaFile) df
- 링크 : https://microsud.github.io/Tools-Microbiome-Analysis/ Tools for microbiome anlaysis Microbiome data are challenging to analyse. Development of tools and resources for microbiome data science are ever increasing. This website is a resource for researchers to know about the available tools and resources. This is in no way a complete list an microsud.github.io 알파벳 순으로 정렬되어 있음 - 관련 연구실의 데이터베이..
| Core microbiome 이란? 샘플에서 가장 주요한 마이크로바이옴을 분석하는 방법으로 주로, 아래와 같은 그림으로 나타낸다. Core microbiome의 개념은 아직 정립되지 않았지만 주로 전체 샘플에서 많은 빈도로 나타내는 microbiome을 뜻한다. 자세한 정의는 Salonen et al. 2012를 참고하길 바란다. 그러나 Alexander et al. 2021을 보면 Core microbiome의 정의는 논문마다 매우 다르다. 먼저 occurrence를 기준으로 한 논문의 50%에서는 모든 샘플에서 보이는 taxa를 Core microbiome이라고 정의하였으며, relative abundance를 기준으로 한 논문의 대다수는 특정적인 cutoff가 없었지만 1% 이상을 Core mi..
작성 : 2023.06.21 | 목표 마이크로바이옴 데이터로 여러 종류의 상관관계 그림을 그려보자. 특히 Heatmap에 집중해서 관찰하자! | 예제 데이터 - qiime2 moving pictures Tutorial에 나오는 데이터로, 사람의 4 부위에 해당하는 마이크로바이옴 데이터를 담고 있다. - 이 데이터는 phyloseq 데이터로, biom형식으로 구성되어 있다. [참고] | 시각화의 종류 크게 Scatter plot과 Heatmap으로 나눌 수 있다. Scatter plot은 두 변수 간의 관계를 나타내고 싶을 때 사용한다. 이에 관한 글은 Regression plot에 정리해 두었다. Heatmap은 여러 변수 간의 상관관계를 보고 싶을 때 사용한다. | 시각화 0. 데이터 전처리 libra..
풀이 날짜 : 2023-06-19(R)/ 2023-07-05(python) | 문제 consensus 서열이란 여러 리드에서 제일 빈도수가 많은 염기가 표기된 서열이다. 이는 시퀀싱 단계에서 일어날 수 있는 에러를 보정하기 위한 방법으로, 가장 빈도수가 높은 염기를 그 자리의 consensus 서열로 지정한다. | 데이터와 결과 Sample Dataset >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCATT >Rosalind_7 ATGGCACT Sample Output ATGCAACT A: 5 1 0 0 5 5 0 0 C: 0 0 1 ..
- 작성 : 2023.05.08 primer를 잘라내는 프로그램은 여러 개가 개발되었다. 그중에서 대표적인 몇몇의 프로그램을 비교해 보자. 참고로 모두 큰 차이가 존재하진 않는다! 이 프로그램들의 목적은 primer를 제거하는 것임으로 그 이상의 의의를 두지 말자. | Cutadapt - 논문 : Cutadapt Removes Adapter Sequences From High-Throughput Sequencing Reads. 2011 - 인용수 20,605(2023.05.08 기준) Cutadapt란 NGS데이터 전반에서 사용되는 파이썬 기반의 도구이다. True seq, illuminz, SMART등의 여러 시퀀서의 아웃풋 결과물을 다룰 수 있다. Cutadapt 설치 및 사용해 보기 - Cutada..
진행 중인 공고 (주)클리노믹스 : 2023.03.15 ~ 자격요건 - 학력 : 대학원(석사)이상 (졸업예정자 가능) - 경력 : 경력2년↑ 우대사항 - 생명정보학 또는 이에 준하는 전공 우대 - 박사 학위자 - Linux 사용 경험자 - Python 및 R 등 프로그래밍 언어 사용 가능자 - 통계분석 가능자 - 머신러닝 경험자 (주)제놀루션 : 2023.04.13 ~ 2023.07.12 자격요건 - 학력 : 대졸이상 (사원 ~ 과장급) - 경력 : 경력 3년 이상 필요역량 - NGS 실험실 운영 및 관리 경험 - NGS 데이터 분석에 대한 이해도 - 유전체 관련 사업 동향에 대산 지식 우대사항 - 해당 분야 석사/박사 학위 소지자 - 바이오기업 실무 경험자 - Long read 시퀀싱 경험자 - 액체생..
| Error 🚨 base::stop("infinite or missing values in 'x'") 관련 글에서도 적었지만, 이 문제는 Github에 있는 문의글을 보니 아직 공식적으로 해결되지 못하고 있다. 일단 차선으로 결과를 얻을 수 있는 방법은 존재한다. | 해결법 1. 각 그룹의 샘플수가 많아야 한다. 모든 통계 방법이 그렇듯 샘플 수가 많아야 좋은 결과를 얻을 수 있다. 위의 에러 메시지는 보통 총 샘플수가 30, 40 이하이거나, 각 그룹 간의 샘플 수 차이가 많이 나거나, 한 그룹의 샘플 수가 10개 이하일 경우 나타났다. 2. bootstrap_fraction 값을 default값인 2/3보다 높게 잡아야 한다. 이는 bootstrap에서 반복할 샘플의 수를 전체 샘플에서 어느 정도를..
작성 : 2023-06-07 수정 : 2024-01-26 PICRUSt2 결과를 어떻게 보여줘야 보는 이로 하여금 이해가 수월할지 고민해 보았다. 마이크로바이옴 논문에서는 Erro bar를 사용하여 각 비교 그룹에서 얼마나 양적으로 차이 나는지 보여주거나, heatmap을 사용하는 것이 대다수였다. 혹은 분석 결과를 LDA score 등 를 통해서 보여주기도 한다. 전체 샘플에서 kegg pathway에 해당하는 분포를 보고 싶을 때에는 heatmap 이 가장 적합하다. heatmap은 다른 시각화 방법보다 raw data를 반영한다. 이를 고려하여, 전반적인 raw data를 보여주기 위해서 heatmap을 사용하고, 통계적으로 유의한 feature 간의 비교를 위해서는 Error bar/ LDA sc..
R에서 그림을 저장하는 방법은 여러 가지이다. 기본적으로 R base함수인 png(), pdf() 등이 있으며, ggplot2의 ggsave가 있다. 나는 ggsave가 편리해서 이 함수를 더 많이 사용하는 편이다. 그런데 taxonomy plot을 그리면 각 기둥에 선이 나타날 때가 있다. 아래 그림의 왼쪽에서 8번째 기둥을 보면 같은 색의 기둥에 여러 선들이 가 있다. 이는 Rstudio에서 볼 때는 나타나지 않다가 ggsave로 저장 시에만 나타난다. 이 원인에 대해서 chatgpt에게 물어봤지만 마땅한 답을 얻지 못했다. 그래서 ?ggsave를 입력해서 하나하나 변수를 보기 시작했다. ggsave( filename, # 원하는 파일 경로와 이름 plot = last_plot(), # 저장할 plo..
김해김씨99대손
'Bioinformatics' 카테고리의 글 목록 (7 Page)