글 작성 (2024-05-24 ~ 2024-05-28)좀 더 읽기 쉬운 글로 수정하였습니다 (2024-11-19) 모든 생물학도가 사용한다고 해도 과언이 아닌 BLAST, 잘 알고 계시나요?생물정보학에서 서열정렬(Sequence Alignment)은 필수적인 기술로, 유전학, 단백질 연구, 진화생물학 등 다양한 분야에서 사용되고 있습니다. 이 글에서는 쉽게 이해할 수 있도록 서열 정렬의 역사, 기본 개념, 그리고 대표적인 도구인 BLAST까지 알아볼까요? 1. 서열 정렬(Sequence alignment) 이란?서열 정렬은 DNA, RNA 또는 단백질의 서열을 배열하여 서열 간의 기능적, 구조적 또는 진화적 연관성을 모두 파악하여 유사성을 확인하는 것이다. 또한 유사성을 통해 우리가 알아..
1. blast 다운로드하기 1) https://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/ 접속 2) 최신 버전인 ` ncbi-blast-#.#.#+-win64.exe`를 다운로드 3) 설치 "I Agree" 클릭 "Next" 클릭 위치는 기본적으로 C 드라이브에 "Program Files"에 위치하게 됩니다. 설치가 완료되었습니다. 설치 위치를 가보면 파일들을 확인할 수 있습니다. 3) 설치 확인(1) Win+R 에서 "cmd"검색(2) cmd 창에서 아래 스크립트 입력cd C:\Program Files\NCBI\blast-2.15.0+\bin #이건 본인 설치 위치에 따라 다름blastx -h # 실행 확인하기 잘 실행되는 것을 확인했다. ..
이전 글 레딧발 ML 계통수 제작 도구 추천검색을 하다가 여러 카테고리를 가진 해외 커뮤니티를 발견하였다. 레딧은 여러 주제별로 다양한 이야기를 토론하는 사이트인듯하다. 여기 bioinfomatics 레딧에 유용한 정보가 많이 올라오니 구독bio-kcs.tistory.com Linux기반에서 수행될 때를 기준으로 작성되었습니다. 먼저 cd ~ 위치에 도구들을 위한 tools 폴더를 만들어 봅시다. cd ~mkdir tools/ 1. Raxml 설치 - github: https://github.com/stamatak/standard-RAxML 서버에 파일 다운로드하기cd tools/wget https://github.com/stamatak/standard-RAxML/archive/master.zi..
검색을 하다가 여러 카테고리를 가진 해외 커뮤니티를 발견하였다. 레딧은 여러 주제별로 다양한 이야기를 토론하는 사이트인듯하다. 여기 bioinfomatics 레딧에 유용한 정보가 많이 올라오니 구독을 추천한다. 현재 Fungi의 분석 pipeline을 구축 중인데, 계통수에 관한 글을 가져왔다. 1. https://www.reddit.com/r/bioinformatics/comments/13w13ra/building_phylogenetic_trees/ 2. https://www.reddit.com/r/bioinformatics/comments/1bvg5cz/what_softwares_to_use_to_make_phylogenetic_trees/ | 정리하자면..- dataset이 작다면 DECI..
결론만 말하지만, unclutured와 unidentified는 reference에 등록이 되었으며, 분류기로 분류가 되었다.그러나 이 생물이 실제로 배양 까다로워서 배양 결과가 없거나, Genus까지는 일치하는데 species level에서 판단이 안 되는 서열을 말한다. unassigned = unclassified = NA는 같은 뜻이며, 분류기가 분류하지 못한 서열이라는 뜻이다. 우리는 대게 QIIME2에서 fit-classifier-sklearn를 사용하여 완성된 ASV와 가장 유사한 계통정보를 매칭시킨다. 예를 들어, 곰팡이 연구에서 많이 사용되는 UNITE database(for QIIME2)의 taxonomy정보를 보면, 데이터베이스 자체에서 unidentified, sp로 분류된 ..
위 에러는 sequence에 taxonomy정보를 매칭하는 assignment단계에서 발생합니다. 이는 기존에 생성한 qiime classifier가 최신버전이기 때문에 생기는 문제입니다..ㅠㅠㅠqiime feature-classifier classify-sklearn \ --i-classifier ~/Reference/ITS/QIIME2/THFv1.6.1_classifier.qza \ --i-reads ./2.output/rep-seqs-dada2.qza \ --o-classification ./2.output/taxonomy_THF.qza 위 에러는 sequence에 taxonomy정보를 매칭하는 assignment단계에서 발생합니다. 이는 기존에 생성한 qiime classi..
Fungi database에는 UNITE가 가장 대표적으로 사용됩니다. 그러나 Targeted Host-associated Fungi ITS Database(THF)도 유명한 데이터베이스 중 하나입니다. 이를 dada2 버전으로 바꾼 다음에 사용해 봅시다. 1. 파일 다운로드 가장 최신 버전인 1.6.1을 다운로드하여 보겠습니다. - THFv1.6.1- FASTA sequencesv1.6.1 위 파일은 QIIME2에 사용하기 좋은 형식으로 나누어져 있습니다. 즉 taxonomy annotation정보와 sequence정보가 따로 저장되어 있습니다. 이때 Accession 번호를 통해서, 각 서열에 매치된 데이터베이스의 정보를 파악할 수 있습니다. 2. Taxonomy 형식 바꾸기 그러나 QI..
ReferenceLemon KP. Human nasal microbiota. Curr Biol. 2020 Oct 5;30(19):R1118-R1119. doi: 10.1016/j.cub.2020.08.010. PMID: 33022252. 사람의 비강에는 어떤 미생물이 서식하고 있고, 왜 이것이 중요한가? 인간의 비강(nasal passage)은 콧구멍(nostil)에서 목구멍의 윗부분을 말하며, 독특한 미생물 군이 자리 잡고 있다. 인간의 비강 미생물 군은 공중보건과 개인 건강에 매우 중요하다. 공생균(commensal)과 상리공생균(mutualist) 외에도 병원균을 포함하는 경우가 많다. 비강에 존재하는 병원균은 중이염부터 심각한 혈류 및 심장판박질환을 유발할 수 있다. 또한 병원체는 코에 군..
Fungi database에는 UNITE가 가장 대표적으로 사용됩니다. 그러나 Targeted Host-associated Fungi ITS Database(THF)도 유명한 데이터베이스 중 하나입니다. 이를 dada2 버전으로 바꾼 다음에 사용해 봅시다. 1. 파일 다운로드 가장 최신 버전인 1.6.1을 다운로드하여보겠습니다. - THFv1.6.1- FASTA sequencesv1.6.1 위 파일은 QIIME2에 사용하기 좋은 형식으로 나누어져 있습니다. 즉 taxonomy annotation정보와 sequence정보가 따로 저장되어 있습니다. 이때 Accession 번호를 통해서, 각 서열에 매치된 데이터베이스의 정보를 파악할 수 있습니다.그러나 DADA2 의 database의 형식은 아래와..
이전 편 📗인코렌탈(생물정보 분석): 언제 어디서나 클라우드를 이용한 NGS분석 01 1. 서버 접속 이후 서버 접속이 완료되었다면, 아래와 같은 화면이 정상적으로 보입니다. 왼쪽에는 CLC Genomics Workbench 가 있으며, 우측 상단에는 리눅스 OS의 폴더와, 아래는 파일을 주고받기 위한 commend line 창이 띄워져 있습니다. 제가 사용한 파일은 엠플리콘 마이크로바이옴 예제 데이터입니다. Miseq으로 수행되었으며, 16S rRNA의 V4를 forward와 reverse방향에서 읽어낸 파일입니다(paired-end). 위 샘플은 DADA2의 예제 파일로서, 38개의 데이터로 구성되어 있습니다. 2. 지원하는 분석단계 1) 개별 도구 CLC의 왼쪽 아래 Tool box를 보면, 위 솔..
1. 서론 생물정보학 분야는 코딩이 결코 빠질 수 없는 분야일까요? 제 주변에 생물정보학에 대해 물어보는 많은 분들이 코딩을 배우는 것에 대한 허들을 많이 느끼곤 합니다. 오히려 코딩이 생물정보학에 대한 접근성을 낮추는 셈입니다. 사실 모두가 공감하실 겁니다. 코드를 입력하는 시간보다 업데이트나 설치가 더 어렵다는 것을…🙉 그러나 QIIME 같은 도구를 사용하면 시각적으로 결과를 보여주는 Qiime View를 제공하기도 하며, 결과를 간단하게 확인할 수 있게 하고, 여러 편리한 도구들이 많이 출시되었습니다. 여러 오픈 소스들의 장점은 무료이면서, 모두가 사용 가능하지만, 반대로 말하면 누구나 만들 수 있고, 이에 대한 검증은 어렵다는 것입니다. 반대로 많은 전문 프로그램들도 GUI(Graphical Us..
2024.03.13. 수 개요박테리아 엠플리콘 분석에서 마커 유전자로 16S rRNA의 V3 V4 영역이 가장 많이 사용된다. 대략적인 길이는 약 ~465 bp이다. 엠플리콘 데이터는 DADA2의 denoising과정을 통해 퀄리티를 필터링하고 paired-end 서열을 합쳐준다. 이때 merge를 위해서는 적어도 12(최적 20nt) nt 이상 겹치는 영역이 존재해야 한다. 그러므로 V3-V4 서열을 필터링할 때, 너무 짧지도 혹은 길게 자르지 않도록 주의해야 한다. 그러면 어떤 길이로 잘라야 최적의 퀄리티를 얻을 수 있을까? 이에 대한 실행 코드를 소개한다. (참고: "Many loss in V3-V4 filterAndTrim", https://github.com/benjjneb/dada2/iss..