분류 전체보기

작성 : 2023.05.07.일 | system( )이란? Dada2의 ITS tutorial 중 리눅스에 설치된 R에서 Linux의 명령어를 실행하는 system2() 함수가 등장한다. 아래 코드는 Linux에 설치된 R에서 for 함수를 사용해 Cutadapt를 실행하는 그 예시이다. cutadapt
· Biology
진행생물의 rRNA는 오른쪽 이미지의 구조를 가진다. rRNA를 이루는 Subunits은 5S, 5.8S, 28S, 18S가 있다. Fungus에서는 Subunits들의 정보를 담고 있는 유전자를 사용해서 계통을 분류한다. 이 중 각 subunit을 암호화하는 유전자 사이의 구역(Internal Transcribed Spacer; ITS)이 대표적으로 사용된다. 5.8S와 18S사이 구역을 ITS1 region, 5.8S와 28S사이 구역을 ITS2라고 한다. 이 구간을 추출할 때, primer는 대표적으로 4가지가 사용된다. ITS 1 region을 위해서는 primer ITS1과 ITS2가 사용되며, ITS2 region을 위해서는 ITS3,4 primer가 사용된다. ITS1은 ITS1 region..
오류 수정  : 24-01-02- 오류 수정에 도움을 주신 분께 감사를 드립니다.    | Sankey plot이란? <p da..
수정 : 2024.01.10   | 개요Dada2란? R을 기반으로 qiime2(리눅스 기반)와 같이 미생물 분석에 사용되는 R 패키지이다. 튜토리얼 목표는?Dada2로 ITS의 기본 분석법 익혀보자!(이전 글 :  Dada2 설치,  Dada2를 사용한 amplicon분석 )  |  ITS서열 분석이 튜토리얼은 dada2 1.18 tutorial의 ITS 버전이다(현재 최신 버전인 1.26도 가능하다). input 파일을 demultiplexed단계를 거친 illumina 시퀀서의 paired-end fastq파일이며, output은 amplicon sequence variant(ASV) table이다. 추가적으로 각 ASV에 UNITE database를 이용한 계통수를 부여(Assign)할 것이다. ..
오늘 발견한 Microbiome 분석 사이트를 소개한다. 이는 파일만 업로드하면 원하는 분석 플랫폼(dada2, qiime2, muthur)으로 분석한 결과를 보내주는 사이트이다. NIH의 연구진이 개발하였다. 이 분석으로 논문 데이터를 분석하는 것도 가능하지만, 처음 분석에 접하는 사람들을 대상으로 교육할 때, 도움이 될 것 같아 글을 적어본다. | 주소 - https://nephele.niaid.nih.gov/index Nephele Explore Run additional analysis and visualizations nephele.niaid.nih.gov | 분석 방법 1. 회원 가입 2. 원하는 분석 선택하기 여기서 dada2_ITS를 선택해 보겠다. 이후 시퀀싱 된 서열의 형식을 선택해 준..
Linux에 Shell이 있다면, Window에는 CMD가 있다. 둘 다 명령어를 실행해 주는 해석기이다. window에서 cutadapt를 사용하는 것은 이전 글(Window에서 Cutadapt사용하기)에서 확인할 수 있다. 많은 샘플의 adapter를 잘라낼 때 linux에서는 for문을 통해서 간편하게 해결할 수 있다. window로 FOR문을 이용해서 사용 가능하지만, 조금 제한적이다. 내가 찾아낸 최선의 방법은, 샘플들의 이름(_1.fastq.gz 와 _2.fastq.gz가 제외된 이름)만 저장된 name_list.txt를 만들고, 그 안에서 변수를 하나씩 꺼내어 쓰는 방식이다. | 예시 데이터 보기 만약 서열의 이름이 다음과 같을 때, 우리는 위 샘플의 이름만 담긴 txt파일을 만들어 보자. ..
대부분의 생물정보학 프로그램은 Linux를 기반으로 사용된다. Linux 상에서 프로그램의 배포 및 업데이트가 편하기 때문이다. 그러나 Linux가 어려운 사람들을 위해 Window기반의 프로그램들도 출시되고 있다. 일부는 마우스로 사용가능한 프로그램으로 출시되고, 일부는 Linux와 비슷하게 Window의 command line을 기반으로 사용 가능하다. 이 중에 Cutadapt의 window버전은 pip를 사용해서 설치 가능하며, python으로 구동된다. | 준비물 - Anaconda 혹은 Minoconda - Python 최근 버전(3.7) | Cutadapt 설치 pip를 사용한 설치 py -m pip install cutadapt 버전 확인 py -m cutadapt --version 가장 최..
| 준비물- 설치된 BLASTn (참고 : blast 설치)- fas/fasta파일fas/fasta파일은 서열과 서열의 아이디로 구성되어 있으며, 아이디는 > 다음에 오는 글자를 말한다.   | 자동화 함수 만들기1. 빈 문서 만들기vi blast_script.sh 2. 생성된 문서에 아래 내용 붙여 넣기- 만약 fasta서열이면, for file in *.fasta; do 로 바꾸기 #!/bin/bashmkdir ./results/output_dir="./results/"for file in *.fas; do output_file="${output_dir}${file%.*}.csv" output_file_sum="${output_dir}${file%.*}_sum.csv" blastn -db ~/R..
| 에러 ggtext의 element_markdown을 적용한 부분에서 위의 에러 문구를 출력하는 에러가 발견되었다. 아마 기존의 패키지를 업데이트하다가 생긴 충돌이라고 생각 든다 | 해결방법 기존의 R을 종료하고, ggtext를 삭제후 재설치 진행 install.packages("ggtext") # 혹은 아래 문구 (github에서 바로 다운로드) remotes::install_github("wilkelab/ggtext") 구글링 해도 해결방법이 명확하지 않았는데, 결론은 삭제 후 재설치였다.. 그래도 해결 완료!
| Error Error in check_rank_names(ps) : ranks of taxonimic profile must be one of Kingdom, Phylum, Class, Order, Family, Genus, Species | Error 해결 phyloseq::rank_names(your_ps) 위 문구로 현재 본인의 phyloseq개체가 어떤 tax rank를 가지고 있는지 판단하자. 단순히 여기서 Kingdom, Phylum, Class, Order, Family, Genus, Species외의 추가적인 rank가 있다면 삭제하면 된다. TAX% data.frame() tax_table(your_ps)
· 대학원
데이터의 특성을 파악하지 않고, ITS데이터에서 통계적인 유의성이 나오는 Alpha diversity plot을 그렸다. 그러나 이는 각 Site별로 다양성의 차이가 나는 변수를 무시한 채, 통계적인 유의성이 돋보이는 그럴듯한 결과물 제출했다. 나 또한 이 그림이 의미가 있다고는 생각하지 않았다. 그러나 그 이상의 생각을 하지는 않았던 것 같다. 분석한 데이터는 샘플의 수가 많지 않았으며, 샘플링 시기가 약을 처방하고 일정한 간격만큼 측정된 것이 아니기 때문에 많은 변수가 존재했다. 그러므로 교수님께서는 이 샘플의 연구의 목적은 이 약을 처방한 환자의 Fungus의 분포를 보는 것 그 이상의 결과물을 내기 어렵다고 하셨다. 대학원을 오기 전에 고려했던 것은 내가 연구라는 분야에 활약할 수 있는지였다. 이..
| 개요 1세대인 Sanger sequencing의 정확도는 매우 높지만, 한 번의 한 서열만 읽을 수 있다는 단점이 있다. 이를 극복한 것이 서열을 대량으로 읽어내리는 Massive parellel sequencing(MPS)이다. 이는  NGS sequencing 혹은 2세대 시퀀싱 기술이라고 불린다.  2세대 시퀀싱 기술은 크게 두 범주로 나뉜다.1. Sequencing by hybridization1980년대에 고안되었으며, 이미 알고 있는 서열과 알고자 하는 서열의 binding을 통해 기존의 서열과 일치 여부를 확인한다. 크게 두 방식으로 분류 가능한데, 하나는 알고자 하는 target sequence를 셀에 고정하고, 서열 조각을 binding 하여 binding efficiency의 차이로..
김해김씨99대손
'분류 전체보기' 카테고리의 글 목록 (13 Page)