이전 글에서 생명정보학을 시작하며 알아야 할 기본 원칙들(Agile, FAIR)에 대해 이야기했습니다. 이번에는 "실제 프로젝트를 어떻게 정리하고 관리해야 할까?"라는 주제로 작성해 보았습니다. 특히, 대학원에 와서 컴퓨터 언어를 처음 배우는 생명과학 전공자들에게 프로젝트 진행에 필요한 코드 리뷰와 문서화, 폴더 구조 등에 대한 기준과 실제 예시 등을 제시해 보았습니다. 이 파트는 논문 Implementing code review in the scientific workflow: Insights from ecology and evolutionary biology에서 많은 부분을 발췌하였습니다. 1. 왜 정리가 필요할까? - 코드 리뷰의 필요성1) 코드리뷰란?"코드 리뷰"라는 말은 뭔가 엄청 귀찮을 일..
🙋♀️안녕하세요. 김해김 씨 99대손입니다.오늘은 생명정보학을 공부하는 분들, 특히 컴퓨터를 대학원에 와서 익히게 된 생명과학 전공자들에게 꼭 들려주고 싶은 이야기를 정리해 보았습니다. 1. 생명정보학자들이 왜 소프트웨어 개발 원칙을 이해해야 하는가?10년 차 생명정보학 재직자의 레딧 글이 단 시간에 500개의 upvote를 받았습니다. 글의 내용은 왜 아직도 생명 정보학은 다른 분야에 비해 초기에 머물러 있는지를 논의하고 있습니다. (https://www.reddit.com/r/bioinformatics/comments/1l3t6b7/bioinformatics_is_still_in_its_infancy/) "생물정보학은 아직 초기 단계입니다." 왜 생물정보학은 아직 초기 단계일까? 작..
# 🚨 문제 for문으로 수동으로 돌리면 되는데 function안에서 subset_samples쓰면 오류 발생 phy_sub phy_sub # 문제 원인 함수 내부에서는 비표준평가(NSE)가 실행되는데, 이때 함수 내부에서 다시 지정해 주지 않으면 전역변수에서 변수를 검색하게 된다. 그래서 찾지 못한다. # 해결 방식grp # 안전한 코드 작성하기 1. 패키지 명시 filter() # ❌ stats::filter()가 호출될 수 있음dplyr::filter() # ✅ 명시적, 안전2. rlang 패키지를 사용해 SE 방식으로 코드 작성- e.g. !!rlang::sym(변수) 로 받기 (나는 주로 이 방식을 사용한다)my_summary % dplyr::summarise(mean..
1️⃣ 이전 글 [PICRUSt2] 미생물 기능 예측 도구 PICRUSt2 설치 및 튜토리얼 (ver 2.5.1)- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가[🚩소식] 2025년도 1월 10일에 PICRUST2에 GTDB 가 추가되었다는 소식이 올라왔습니다. 아bio-kcs.tistory.com 2️⃣ PICRUSt-MPGA (PICRUSt2.6) 업데이트 사항1. 논문(preprint): https://www.biorxiv.org/content/10.1101/2025.01.27.635123v12. 업데이트 사항 요약확장된 데이터베이스PICRUSt2-MPGA는 GTDB를 통합하여 ..
현재 연구실 서버는 CentOS 7.9 버전을 쓰고 있다. 안정하다는 장점이 있는데, 갈수록 호환성 문제가 대두되고 있다. 일단 가장큰 문제는 QIIME2 2024.5 버전을 사용하지 못한다는 것이다. DADA2를 R 로 돌리면 되긴 하지만, 최근 연구실 튜토리얼을 모두 QIIME2로 제작해 버리는 바람에.. 사용은 불가피하다. 최근 SILVA 데이터베이스가 138.2가 업데이트 되었다. 138.1과 다른 점은 계통이름을 최신 버전으로 반영했다는 차이이다.이를 RESCRIPt를 통해서 필터링하려면 QIIME2 2024.5 버전이 필요하다. 그러나 설치 과정에서 아래와 같은 에러메세지를 받았다. LibMambaUnsatisfiableError: Encountered problems while solvin..
개요현재 분석에서 SILVA 138.1, RDP 19, Greengenes2, GTDB를 쓰고 있습니다. 문제는 계통 이름이 업데이트되는 과정에서 일부 DB는 적용되지 않았습니다. 그래서 database를 비교할 때 수동으로 변경해주어야 하는 번거로움이 생깁니다. SILVA 138.1 버전은 는 Phylum에서 Actinobacteriota, Firmicutes, Bacteroidota, Chloroflexi, Cyanobacteria, Pseudomonadota 등으로 변경 전후 이름이 혼합되어 있습니다. 심지어 Actinobacteriota는 Actinobacteria 가 변경을 거치면서 나타난 중간 버전(Actinobacteria -> Actinobacteriota -> Actinomycet..
鈍筆勝聰Indoor and allergic rhinitis microbiomeTang, H., Du, S., Niu, Z. et al. Nasal, dermal, oral and indoor dust microbe and their interrelationship in children with allergic rhinitis. BMC Microbiol 24, 505 (2024). https://doi.org/10.1186/s12866-024-03668-9 Nasal, dermal, oral and indoor dust microbe and their interrelationship in children with allergic rhinitis - BMC MicrobiologyBackground Aller..
작성: 2024/12/01 1. UNITE + INSD란?UNITE+INSD'는 UNITE 데이터베이스와 International Nucleotide Sequence Database Collaboration(INSDC)의 데이터를 통합한 데이터베이스이다. INSDC는 GenBank, EMBL, DDBJ와 같은 주요 시퀀스 데이터베이스를 포함하고 있다. 2. QIIME의 classifier제작에 필요한 데이터 QIIME2에 사용되는 분류기는 총 두 개의 파일을 각각 종합하여 사용한다. 그러나 unite +insd 서열을 아래와 같은 구조를 따르지 않는다. 먼저 qiime에 사용되는 형식 두 가지를 알아보자. 1. fasta 서열>서열이름 AGGGCTCATCGCATGTCAGCAGTCAGTCAGTCAG..
1. 원하는 서열 다운로드하기 1-1. 홈페이지에서 다운로드하기(1) 홈페이지 접속 https://www.ncbi.nlm.nih.gov/datasets/genome/ GenomeDownload a genome data package including genome, transcript and protein sequence, annotation and a data reportwww.ncbi.nlm.nih.gov (2) 원하는 종을 검색 후 다운로드 - 보통 fasta파일을 다운로드합니다. 1-2. NCBI datasets command line사용하기 - ref: https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/ (1) -1 직접 다운..
출처: https://www.pacb.com/blog/sbb-sequencing/ Sequencing 101: SBB sequencing - PacBioGet Q40+ accuracy, uncover rare variants, and explore the benefits for liquid biopsy and gene editing applications with SBB sequencing.www.pacb.com 위 글을 대표적인 시퀀싱 방법인 sequencing by synthesis(SBS, e.g. illumina Miseq )의 발전 버전인 sequencing by binding(SBB)을 소개하고 있습니다. SBB는 short read를 대상으로 하며, 시퀀싱 판독 오류를 줄여주며 평균적으로..
강의 자료 (무료)- Lectures of Prof Wishart : https://youtube.com/playlist?list=PLE20foNk9J6IGPVSFkfn6U7lmUzFvWPYQ&si=mziqTi-zeoPJJxIe Metabolomics lecture series by Prof David Wishart www.youtube.com - 2022 summer school on Non-Targeted Metabolomics: https://youtube.com/playlist?list=PL0JAF-4UFc8Nujp1ET-TwNdOGrBGsuZ7J&si=98QlnVc0KrBBEO1j 2022 Summer School on Non-Targeted Metabolomics www.youtube.com-..
옛날 버전 코드만 보고, "-o"을 설정하는 바람에 결과가 계속 안 나왔었다. 알고 보니 MetaPhlAn4에서 샘플 작성 방법이 일부 수정된 듯...내 시간 😭😭 metaphlan \--nproc 32 \--input_type fastq \--bowtie2out metaphlan4.out/MockATCC_1.bowtie2.bz2 \./host_removal/host_removed.1.fastq.gz,./host_removal/host_removed.2.fastq.gz \metaphlan4.out/host_removed_profile.txt Reference- https://protocols.hostmicrobe.org/software/list-of-software-and-uses/metaphlan..