Bioinformatics/└ 기타

| Error 🚨 base::stop("infinite or missing values in 'x'") 관련 글에서도 적었지만, 이 문제는 Github에 있는 문의글을 보니 아직 공식적으로 해결되지 못하고 있다. 일단 차선으로 결과를 얻을 수 있는 방법은 존재한다. | 해결법 1. 각 그룹의 샘플수가 많아야 한다. 모든 통계 방법이 그렇듯 샘플 수가 많아야 좋은 결과를 얻을 수 있다. 위의 에러 메시지는 보통 총 샘플수가 30, 40 이하이거나, 각 그룹 간의 샘플 수 차이가 많이 나거나, 한 그룹의 샘플 수가 10개 이하일 경우 나타났다. 2. bootstrap_fraction 값을 default값인 2/3보다 높게 잡아야 한다. 이는 bootstrap에서 반복할 샘플의 수를 전체 샘플에서 어느 정도를..
오늘 발견한 Microbiome 분석 사이트를 소개한다. 이는 파일만 업로드하면 원하는 분석 플랫폼(dada2, qiime2, muthur)으로 분석한 결과를 보내주는 사이트이다. NIH의 연구진이 개발하였다. 이 분석으로 논문 데이터를 분석하는 것도 가능하지만, 처음 분석에 접하는 사람들을 대상으로 교육할 때, 도움이 될 것 같아 글을 적어본다. | 주소 - https://nephele.niaid.nih.gov/index Nephele Explore Run additional analysis and visualizations nephele.niaid.nih.gov | 분석 방법 1. 회원 가입 2. 원하는 분석 선택하기 여기서 dada2_ITS를 선택해 보겠다. 이후 시퀀싱 된 서열의 형식을 선택해 준..
- 수정 2023.04.12 세 논문에 나오는 시약이나 air swab에서 얻어지는 오염 Genus를 표로 정리하였다. 꼭 아래에 나와있는 균을 오염으로 생각하여 제거할 필요는 없지만 어느 정도 참고의 기준으로 사용 가능하다. 추가적으로 본인이 사용하고 있는 Kit에서 오염으로 검출된 균도 찾아보면 도움 될 것이다. Table1. OTUs removed from sequencing data prior to biostatical analysis [1]PhylumList of constituent contaminant generaProteobacteriaAlpha-proteobacteria: Acidovoraxc, Brevundimonasc, Phyllobacterium , Rhizobium, Mesorhi..
- 작성 일시 : 2023-03-06 ~ 2023-03-21 🟦 1. 마이크로바이옴 데이터에서 기능 예측의 필요성 | Shotgun Metegenome vs. Amplicon - 금액적 차이 : 미생물 유전체의 전체를 조사하는 Shotgun metagenome 시퀀싱은 약 30$, 16S rRNA(Amplicon)의 시퀀싱 가격은 약 5$ 이하이다. - 분석 차이 : Shotgun 은 많은 컴퓨팅 파워를 필요로 하고, 샘플의 모든 유전체를 읽어옴으로 사람의 미토콘드리아 데이터가 많이 읽히는 단점이 있다. Amplicon은 일부 마커진을 이용한 계통 정보는 알 수 있지만, 해당 미생물의 전체적인 기능에 대한 정보는 얻을 수 없다. | 기능 예측 프로그램의 필요성 - 가격적인 면에서 Shotgun를 수행하지..
🟦 Analysis of metagenomic Data : Introdiction to PICRUSt - 이 강의는 PICRUSt 1에 대한 설명이다 - 강의 영상 : Canadian bioinformatics Workshops : MODULE3_PICRUSt (2016) - 강연자 : Morgan Langille | Qualitative inference of function from taxonomy taxa에서는 큰 차이가 보이지 않지만, 기능적으로는 많은 차이를 보인다. | PICRUSt : a method to predict functions from 16S | PICRUSt가 어떻게 작동하는가? 만들어진 Reference tree에 샘플의 16S를 위치시킨다. 우리 샘플이 위치한 계통수를 확대해..
🟦 PICRUSt and Predicting functions - 이 강의는 PICRUSt 1에 대한 설명이다 - 강의 영상 : 미네소타 대학교 Dan Knights교수님의 Microbiome Discovery 20: PICRUSt and predicting functions | 왜 기능적인 부분이 중요한가? taxa는 달라도 기능적인 부분은 동일할 수 있다. 즉 taxa로만 단순히 구별해서는 안된다. 그러나 amplicon data는 가격이 저렴(샘플당 20$) 하지만 기능도 볼 수 있는 shotgun(샘플당 300$) 은 가격이 매우 높다. 그래서 이러한 기능을 예측하는 도구를 개발했는데 이 도구가 PICRUSt이다. 이는 패키지는 사람의 장 미생물에서 metagenome분석과 비교하여 80~85%의..
수정 : 2023.04.17(시각화 패키지 정보 추가) PICRUSt 2 Q&A | PICRUSt2관련 정보를 얻는 곳 - PICRUSt : Doc - PICRUSt2 Github : FAQ - PICRUSt2 Github : Issues - Google Group : Downstream processing of q2-picrust2 outputs | PICRUSt 2 의 input 방법은? input 파일은 Read Count OTU table를 biom format으로 변환 후 picrust2 에 넣고 돌린다. biom convert -i otu_table.txt -o otu_table.biom --table-type="OTU table" --to-json | PICRUSt 2 의 Output 파일 ..
| ERROR picrust2_pipeline.py 를 돌릴 때 아래와 같은 에러 메세지를 만났다. picrust2_pipeline.py -s fasta.fas -i otu_table.biom -o picrust2_out -p 1 Error running this command: place_seqs.py ~~~ --min_align 0.8 Standard error of the above failed command: Stopping - all 13248 input sequences aligned poorly to reference sequences (--min_align option specified a minimum proportion of 0.8 aligning to reference sequence..
Q. metagenome에서 dark matter가 무엇인가? A. Dark matter in metagenomics refers to genetic material that cannot be classified into any known taxonomic groups. Metagenomics is the study of genetic material obtained directly from environmental samples, such as soil, water, and human microbiomes. In metagenomic sequencing, researchers can generate large amounts of DNA sequences from a sample, but not all ..
- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가 🟦 PICRUSt2란?  단백체 분석이나 RNA seq, Microbiome에서 분석하는 기본 데이터는 table이다. 각 샘플이 행으로 배치되어 있고, 각 열의 이름은 단백질 이름, RNA 이름, ASV 이름, taxa로 바꾸어 갈 뿐이지 형식은 거의 동일하다. 이때 우리는 행 값을 feature라고 부르겠다.  이를 통해서 우리는 각 샘플에 어떤 특정한 열에 해당하는 물질 또는 생물이 풍부하게 존재함을 알 수 있다. microbiome(Amplicon) 데이터에서 feature는 ASV 혹은 OTU이다. 이 feature을 사용해서 ..
⬛ 시계열 데이터 란? 시계열(時系列, time series)은 일정 시간 간격으로 배치된 데이터들의 수열을 말한다. 시계열 해석(time series analysis)라고 하는 것은 이런 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법을 연구하는 분야이다. 예컨대, 이런 시계열이 어떤 법칙에서 생성되어서 나오느냐는 기본적인 질문을 이해하는 것이 궁극적인 목표라고 할 수 있다. 시계열 예측(time series prediction)이라고 하는 것은 주어진 시계열을 보고 수학적인 모델을 만들어서 미래에 일어날 것들을 예측하는 것을 뜻하는 말이다. 일반적으로 이런 방법들은 공학이나 과학계산, 혹은 금융시장에서의 주가 예측 등에서 많이 쓰인다. ⬛ 일반적인 시계열 분석 예제 - 출처 : 날씨마루 ⬛ 마이..
- 주최 : Microbiome Insight - 강사 : Ruairi Robertson, PhD - 출처 : https://www.youtube.com/watch?v=SDbYFCAHX8s Microbiome Insight에서 이메일 왔길래 클릭해보니 아래 강의 영상을 보내줬다. 간단한 비교 영상이지만 도움이 될 것 같아 정리해본다. 🟦 16s rRNA Sequencing ◾ 16S rRNA gene 를 타깃으로 하며, output은 16s rRNA의 유전자의 read 조각들 이다 ◾ 여러 Pipeline(Qiimw, Muthur, Dada2)을 사용해 생물정보학 방법으로 분석 🟦 Shotgun Metagenomic Sequencing ◾ all genomic DNA 를 타깃으로 한다 ◾ 과정 1. ex..
김해김씨99대손
'Bioinformatics/└ 기타' 카테고리의 글 목록 (2 Page)