Pan-genomePan from the Greek word, meaning whole or everythingPangenome = Core + accessory geneCore genome = genes shared by all strains within a speciesAccessory genome = genes present only in a subset of strains, contributing to strain-specific traits Open pan-genome vs Closed pan-genomeOpen pangenome:New genes continue to appear as additional genomes are sequenced,indicating high strain-leve..
Bioinformatics
안녕하세요. 저는 RNA-seq 분석 세계에 막 발을 들인 뉴비입니다. 요즘 다 Single cell 하는데 누가 bulk 하냐고요? 저희 연구실은 아직 비싸서 못 합니다😅 그래서 bulk RNA-seq을 최대한 응용할 수 있는 분석 방법 들을 총 정리하였습니다. 단순히 volcano plot이나 GO/KEGG enrichment 결과만 보는 것을 넘어서 여러 방법이 있으니 다 같이 응용해 봅시다👊👊 1️⃣ 데이터 전처리 및 DEG 분석1. Raw data Quality Control (QC)서열의 시퀀싱 품질을 확인하고 다듬는 단계입니다.- 목적: adapter 제거, low quality read 제거, poly-A trimming- 서열 품질 확인 : FastQC & MultiQ..
작성날짜: 26-02-09 저는 네트워크 분석할 때 주로 Netcomi를 쓰는데요. 이유는 쓰기 편하기 때문입니다. 근데 최근 ggClusterNet2등을 포함한 여러 분석 도구가 많이 출시되었습니다. 또한 GUI(R Shiny) 기반으로 SpeSpeNet(2025), CMiNet(2026) 같은 시각화 도구도 출시되었고요. 점점 코딩이 필요 없어지는 트렌드네요. 네, 제 일자리도 없어지고 있습니다🤯.. 일단 소개해보겠습니다. ➰Network 분석 단계일단 Netcomi 패키지를 기준으로 network 분석의 단계를 알아볼까요? 1. Data preparation (데이터 변환) 1) 분석하기 위한 ASV table을 준비합니다. 2) 희소한 데이터를 필터링합니다 (prevalen..
🟦 개요 근래 Microbiome 저널에 가상의 데이터를 기반으로 한 benchmark 논문이 우수수 출판되고 있다. 대표적으로는 Avershina, E et al의 Challenges in capturing the mycobiome from shotgun metagenome data: lack of software and databases. Microbiome (2025)만 봐도 ART read simulator v2.5.8을 통해서 생산된 가상의 데이터를 사용하였다. ART 말고도 InSilicoSeq도 많이 사용되는 추세이다. 장점은 실제 시퀀싱을 하지 않아도 되고, 사람 손에 따른 bias 가 생산되지 않으며, 또한 비교할 만한 답안지가 있어서 비교가 쉽다는 것에 있다. 🟦 생산 도..
What is the best identity (%) cutoff value?99%Amplicon 서열은 종 분화 정도랑 다르게 봐야함. 걍 서열의 조각일 뿐. 우리는 Denoising을 사용하여 군집화 -> 이때 기준이 99%이나 blast결과도 99%를 기준으로 삼아야 한다 ㅇㅇ Stackebrandt E., Goebel B.M. Taxonomic note: a place for DNA-DNA reassociation and 16S rRNA sequence analysis in the present species definition in bacteriology. Int J Syst Bact. 1994;44:846–849.98.7%종 분화 정도 반영Stackebrandt E., Ebers J. Taxo..
작성날짜: 2025-10-10, 업데이트 2026-03-13 🚨 야매 튜토리얼 🚨 저는 RNA-seq 분석 전문가는 아니지만, 분석 방법을 공유하기 위해 글을 작성하였습니다!하지만 그대로 따라 한다면 분석 결과를 얻을 수 있습니다! 1. 개요 석사 내내 Microbiome amplicon 데이터만 다루다가, 박사과정에 들어오니 Shotgun 데이터도 다루고 Bulk RNA-seq 분석도 맡게 되었다. 면역학 교수님께서 맡겨주셨는데, 분석해보고 싶던 터라 재미있게 다루고 있다. 지금은 두 번째 bulk RNA-seq 프로젝트를 분석하고 있으며, 이미 분석된 데이터의 후처리 정도를 담당하고 있다. 첫 번째 프로젝트에서 이미 시각화해 본 PCA, Volcano, GSEA 결과 말고 다른 분석 ..
r220 사용하기 오픈 소스를 꾸준히 업데이트해 주는 것만큼 세상에 고마운 일은 없지만, 새로운 프로그램을 설치할 때마다 오류도 증가한다. 아마 현재 사용하고 있는 CentS 7.9 서버의 버전 문제로 생각된다. 그래서 QIIME도 2024.2 버전에 머물러 있다. GTDB tk도 2.2.0 버전을 사용하고 있는데, 업데이트된 r220 DB를 쓰려면 적어도 2.4.0 버전 이상의 GTDB-tk를 설치하여야 한다. 하지만 잘 알아보지 않고 2.2.0에서 바로 r220을 사용하는 바람애, FASTANI 오류로 이틀을 썼다.. GTDB-tk 2.4.0 버전 설치하기 그나마 찾은 안정적인 방법은 2.4.0 버전을 사용하는 것이다. r220을 지원하는 가장 낮은 버전이기도 하다. 근데 그냥 깔면 다음과 같..
HMP 프로젝트 데이터를 접근하려고 했는데, 공식홈페이지가 아예 구글에서 사라졌다. 아래 링크 둘 다 안 들어가진다. 1. 공식: http://hmpdacc.org/HMASM/ 2. 포털 (데이터 다운로드): https://portal.hmpdacc.org/ 공식 홈피를 클릭하면 아래와 같이 연구자의 홈페이지로 이동된다. Reddit의 bioinformatics 커뮤니티bioinformatics 커뮤니티에서 이 게시물을 비롯한 다양한 콘텐츠를 살펴보세요www.reddit.com 레딧에서도 누가 질문 글을 올렸던데, 명확한 답은 별로 없다. 물론 아래와 같이 NIH의 NIVID 그룹에서 통합한 목록에는 있다. 클릭하면 아래 홈페이지로 이동된다. NIAID Data Discovery Po..
BioProject와 BioSample 등록을 완료한 이후 진행되며, 제출 과정에서 입력한 정보는 저장되어 있으므로 언제든 중단 후 재개가 가능합니다. 저 역시 이번에 1년 6개월 이전에 저장해 두었던 초안을 기반으로 제출을 완료할 수 있었습니다. 아직 진행하지 않으신 분들은 서둘러 준비하시길 권장드립니다! 🟦 이전 글 아래 글을 참고해서 BioProject와 BioSample에 데이터를 먼저 등록하시길 바랍니다. [NCBI] 마이크로바이옴 (Amplicon, Shotgun) 서열을 NCBI에 업로드 해보자 01: BioProject에 정보 등록하기[NCBI] 마이크로바이옴 (Amplicon, Shotgun) 서열을 NCBI에 업로드 해보자 02: BioSample에 정보 등록하기 🟦 SRA에 N..
이전 글 [NCBI] 마이크로바이옴 (Amplicon, Shotgun) 서열을 NCBI에 업로드 해보자 01: BioProject에 정보 등록하기작성: 2025/08/01 들어가며 현대 과학 연구에서 데이터 공유는 FAIR 원칙에 따라 이루어져야 합니다. FAIR는 Findable(찾을 수 있는), Accessible(접근 가능한), Interoperable(상호 운용 가능한), Reusable(재사용bio-kcs.tistory.com BioSamples에서 샘플 Metadata 작성하기1. https://submit.ncbi.nlm.nih.gov/subs/biosample/ 접속 ◾ BioSample 종류와 다운 가능한 배치 제출 양식은 링크 참고: https://submit.ncbi.nlm..
작성: 2025/08/01 들어가며 현대 과학 연구에서 데이터 공유는 FAIR 원칙에 따라 이루어져야 합니다. FAIR는 Findable(찾을 수 있는), Accessible(접근 가능한), Interoperable(상호 운용 가능한), Reusable(재사용 가능한) 데이터를 의미합니다.F - Findable (찾을 수 있는)고유 식별자: 각 데이터셋이 영구적이고 고유한 식별자(accession number) 보유 풍부한 메타데이터: 검색 가능한 상세한 설명과 키워드 검색 엔진 최적화: 글로벌 검색 시스템에서 쉽게 발견 가능A - Accessible (접근 가능한)표준 프로토콜: HTTP, FTP 등 표준화된 접근 방법 인증 투명성: 접근 권한과 제한 사항 명확히 공개 장기 보존: 데이터 영구 보존과 ..