분류 전체보기

작성 : 2023-06-07수정 : 2024-01-26   PICRUSt2 결과를 어떻게 보여줘야 보는 이로 하여금 이해가 수월할지 고민해 보았다. 마이크로바이옴 논문에서는 Erro bar를 사용하여 각 비교 그룹에서 얼마나 양적으로 차이 나는지 보여주거나, heatmap을 사용하는 것이 대다수였다. 혹은 분석 결과를 LDA score 등 를 통해서 보여주기도 한다.    전체 샘플에서 kegg pathway에 해당하는 분포를 보고 싶을 때에는 heatmap 이 가장 적합하다. heatmap은 다른 시각화 방법보다 raw data를  반영한다. 이를 고려하여, 전반적인 raw data를 보여주기 위해서 heatmap을 사용하고, 통계적으로 유의한 feature 간의 비교를 위해서는 Error bar/ L..
ggsave로 저장이 안 되길래 뭐지? 하고 찾아봤는데 Rbase의 이미지 저장함수인 png, pdf ..를 사용해야 한다. 원리는 잘 모르겠지만 외국인의 함수를 가져와 사용해 보자. library(pheatmap) test = matrix(rnorm(200), 20, 10) test[1:10, seq(1, 10, 2)] = test[1:10, seq(1, 10, 2)] + 3 test[11:20, seq(2, 10, 2)] = test[11:20, seq(2, 10, 2)] + 2 test[15:20, seq(2, 10, 2)] = test[15:20, seq(2, 10, 2)] + 4 colnames(test) = paste("Test", 1:10, sep = "") rownames(test) = p..
R에서 그림을 저장하는 방법은 여러 가지이다. 기본적으로 R base함수인 png(), pdf() 등이 있으며, ggplot2의 ggsave가 있다. 나는 ggsave가 편리해서 이 함수를 더 많이 사용하는 편이다. 그런데 taxonomy plot을 그리면 각 기둥에 선이 나타날 때가 있다. 아래 그림의 왼쪽에서 8번째 기둥을 보면 같은 색의 기둥에 여러 선들이 가 있다. 이는 Rstudio에서 볼 때는 나타나지 않다가 ggsave로 저장 시에만 나타난다. 이 원인에 대해서 chatgpt에게 물어봤지만 마땅한 답을 얻지 못했다. 그래서 ?ggsave를 입력해서 하나하나 변수를 보기 시작했다. ggsave( filename, # 원하는 파일 경로와 이름 plot = last_plot(), # 저장할 plo..
· 일상
아무도 없다. 오늘 오전에 공고를 올렸지만 정말 아무도 신청하지 않았다. 생각보다 조회수도 낮고 인기가 없어서 적잖이 당황했다. 그저 생물정보학에서 서로 정보를 공유하는 단톡방을 만들고 싶었는데, 이게 이렇게 인기가 없을 줄이야. 나도 예전에 내가 본 교수님들처럼, 나만 좋아하는 분야에 속해 있는 걸까? 교내에서 나만 덕질하는 분야인 걸까? 분명 대학원생들은 많은데 다들 바빠서 그런 걸까? 정말 많은 생각이 들었다. 이제야 사람들이 왜 학회를 가고 싶어 하는지 알겠다. 같은 관심분야인 사람을 한 트럭 만난다는 것은 매우 기쁜 일이라는 것을 몰랐다. 친구들에게 상담도 해보았다 내가 너무 많은 걸 요구한 것 같다. 글 수정이 가능하면 신천기 불가능만 적어놔야겠다. 돈을 걷는 건 나중에 취업 스터디정도는 되어..
작성 시작 : 2023-05-16 ~ 2023-05-17 Regression 은 주로 연속형 데이터의 예측에 사용된다. 아래는 Microbiome 분야에서 사용되는 regression plot의 종류를 알아보자 사실 원하는 두 데이터만 있으면 linear regression은 뭐든 그릴 수 있다. | 목표 마이크로바이옴 데이터로 여러 종류의 regression plot을 그리고 이를 함수를 만들어보자. | 예제 데이터 - qiime2 moving pictures Tutorial에 나오는 데이터로, 사람의 4 부위에 해당하는 마이크로바이옴 데이터를 담고 있다. - 이 데이터는 phyloseq 데이터로, biom형식으로 구성되어 있다. [참고] library(phyloseq) # 사용할 데이터를 다루는 패키..
여러 함수나 ggplot 사용 시 제목과 같은 메시지를 받게 된다. 이는 unexpected symbol, 즉 변수로 사용하지 못하는 변수 형식을 받았다는 뜻이다. 대부분 변수의 이름이 숫자로 시작되어서 인식하지 못하는 경우를 말한다. | 예시 ggplot(otu, aes_string("3c9c437f27aca05f8db167cd080ff1ec", "1d2e5f3444ca750c85302ceee2473331")) + geom_point() # Error in parse(text = paste_line(x)) : :1:2: unexpected symbol # 1: 3c9c437f27aca05f8db167cd080ff1ec # ^ | 수정 후 숫자로 시각하는 변수명은 ``안에 넣어준다. ggplot(otu,..
· 대학원
# 1. 모든 해야 할 일은 얼마나 완성되었는지, 이 일의 목적은 무엇인지, 마감기한이 있는지를 생각해야 한다. 이미 데이터가 있는 연구이며 논문 준비가 되어있으면 시급성 1순위로 두고 제일 먼저 마감할 것. 집중할 것에 집중하고, 나머지는 그 후에해도 늦지 않는다. # 2. 쓸데 없는 그림 그리기에 치중하지 말 것. 비교 분석은 각 방법의 차이를 보여주는 그림 한 장씩, 아니면 중요하다고 생각하는 plot만 보자. 세부적인 단계는 후순위다. 그 과정을 위해 시간과 노력을 쏟지 말고 다른 연구의 진도를 나가는 것이 좋다.
작성 : 2023.05.07.일 | system( )이란? Dada2의 ITS tutorial 중 리눅스에 설치된 R에서 Linux의 명령어를 실행하는 system2() 함수가 등장한다. 아래 코드는 Linux에 설치된 R에서 for 함수를 사용해 Cutadapt를 실행하는 그 예시이다. cutadapt
· Biology
진행생물의 rRNA는 오른쪽 이미지의 구조를 가진다. rRNA를 이루는 Subunits은 5S, 5.8S, 28S, 18S가 있다. Fungus에서는 Subunits들의 정보를 담고 있는 유전자를 사용해서 계통을 분류한다. 이 중 각 subunit을 암호화하는 유전자 사이의 구역(Internal Transcribed Spacer; ITS)이 대표적으로 사용된다. 5.8S와 18S사이 구역을 ITS1 region, 5.8S와 28S사이 구역을 ITS2라고 한다. 이 구간을 추출할 때, primer는 대표적으로 4가지가 사용된다. ITS 1 region을 위해서는 primer ITS1과 ITS2가 사용되며, ITS2 region을 위해서는 ITS3,4 primer가 사용된다. ITS1은 ITS1 region..
오류 수정  : 24-01-02- 오류 수정에 도움을 주신 분께 감사를 드립니다.    | Sankey plot이란? <p da..
수정 : 2024.01.10   | 개요Dada2란? R을 기반으로 qiime2(리눅스 기반)와 같이 미생물 분석에 사용되는 R 패키지이다. 튜토리얼 목표는?Dada2로 ITS의 기본 분석법 익혀보자!(이전 글 :  Dada2 설치,  Dada2를 사용한 amplicon분석 )  |  ITS서열 분석이 튜토리얼은 dada2 1.18 tutorial의 ITS 버전이다(현재 최신 버전인 1.26도 가능하다). input 파일을 demultiplexed단계를 거친 illumina 시퀀서의 paired-end fastq파일이며, output은 amplicon sequence variant(ASV) table이다. 추가적으로 각 ASV에 UNITE database를 이용한 계통수를 부여(Assign)할 것이다. ..
오늘 발견한 Microbiome 분석 사이트를 소개한다. 이는 파일만 업로드하면 원하는 분석 플랫폼(dada2, qiime2, muthur)으로 분석한 결과를 보내주는 사이트이다. NIH의 연구진이 개발하였다. 이 분석으로 논문 데이터를 분석하는 것도 가능하지만, 처음 분석에 접하는 사람들을 대상으로 교육할 때, 도움이 될 것 같아 글을 적어본다. | 주소 - https://nephele.niaid.nih.gov/index Nephele Explore Run additional analysis and visualizations nephele.niaid.nih.gov | 분석 방법 1. 회원 가입 2. 원하는 분석 선택하기 여기서 dada2_ITS를 선택해 보겠다. 이후 시퀀싱 된 서열의 형식을 선택해 준..
김해김씨99대손
'분류 전체보기' 카테고리의 글 목록 (14 Page)