Linux에 Shell이 있다면, Window에는 CMD가 있다. 둘 다 명령어를 실행해 주는 해석기이다. window에서 cutadapt를 사용하는 것은 이전 글(Window에서 Cutadapt사용하기)에서 확인할 수 있다. 많은 샘플의 adapter를 잘라낼 때 linux에서는 for문을 통해서 간편하게 해결할 수 있다. window로 FOR문을 이용해서 사용 가능하지만, 조금 제한적이다. 내가 찾아낸 최선의 방법은, 샘플들의 이름(_1.fastq.gz 와 _2.fastq.gz가 제외된 이름)만 저장된 name_list.txt를 만들고, 그 안에서 변수를 하나씩 꺼내어 쓰는 방식이다. | 예시 데이터 보기 만약 서열의 이름이 다음과 같을 때, 우리는 위 샘플의 이름만 담긴 txt파일을 만들어 보자. ..
대부분의 생물정보학 프로그램은 Linux를 기반으로 사용된다. Linux 상에서 프로그램의 배포 및 업데이트가 편하기 때문이다. 그러나 Linux가 어려운 사람들을 위해 Window기반의 프로그램들도 출시되고 있다. 일부는 마우스로 사용가능한 프로그램으로 출시되고, 일부는 Linux와 비슷하게 Window의 command line을 기반으로 사용 가능하다. 이 중에 Cutadapt의 window버전은 pip를 사용해서 설치 가능하며, python으로 구동된다. | 준비물 - Anaconda 혹은 Minoconda - Python 최근 버전(3.7) | Cutadapt 설치 pip를 사용한 설치 py -m pip install cutadapt 버전 확인 py -m cutadapt --version 가장 최..
| 준비물- 설치된 BLASTn (참고 : blast 설치)- fas/fasta파일fas/fasta파일은 서열과 서열의 아이디로 구성되어 있으며, 아이디는 > 다음에 오는 글자를 말한다. | 자동화 함수 만들기1. 빈 문서 만들기vi blast_script.sh 2. 생성된 문서에 아래 내용 붙여 넣기- 만약 fasta서열이면, for file in *.fasta; do 로 바꾸기 #!/bin/bashmkdir ./results/output_dir="./results/"for file in *.fas; do output_file="${output_dir}${file%.*}.csv" output_file_sum="${output_dir}${file%.*}_sum.csv" blastn -db ~/R..
| 에러 ggtext의 element_markdown을 적용한 부분에서 위의 에러 문구를 출력하는 에러가 발견되었다. 아마 기존의 패키지를 업데이트하다가 생긴 충돌이라고 생각 든다 | 해결방법 기존의 R을 종료하고, ggtext를 삭제후 재설치 진행 install.packages("ggtext") # 혹은 아래 문구 (github에서 바로 다운로드) remotes::install_github("wilkelab/ggtext") 구글링 해도 해결방법이 명확하지 않았는데, 결론은 삭제 후 재설치였다.. 그래도 해결 완료!
| Error Error in check_rank_names(ps) : ranks of taxonimic profile must be one of Kingdom, Phylum, Class, Order, Family, Genus, Species | Error 해결 phyloseq::rank_names(your_ps) 위 문구로 현재 본인의 phyloseq개체가 어떤 tax rank를 가지고 있는지 판단하자. 단순히 여기서 Kingdom, Phylum, Class, Order, Family, Genus, Species외의 추가적인 rank가 있다면 삭제하면 된다. TAX% data.frame() tax_table(your_ps)
데이터의 특성을 파악하지 않고, ITS데이터에서 통계적인 유의성이 나오는 Alpha diversity plot을 그렸다. 그러나 이는 각 Site별로 다양성의 차이가 나는 변수를 무시한 채, 통계적인 유의성이 돋보이는 그럴듯한 결과물 제출했다. 나 또한 이 그림이 의미가 있다고는 생각하지 않았다. 그러나 그 이상의 생각을 하지는 않았던 것 같다. 분석한 데이터는 샘플의 수가 많지 않았으며, 샘플링 시기가 약을 처방하고 일정한 간격만큼 측정된 것이 아니기 때문에 많은 변수가 존재했다. 그러므로 교수님께서는 이 샘플의 연구의 목적은 이 약을 처방한 환자의 Fungus의 분포를 보는 것 그 이상의 결과물을 내기 어렵다고 하셨다. 대학원을 오기 전에 고려했던 것은 내가 연구라는 분야에 활약할 수 있는지였다. 이..
| 개요 1세대인 Sanger sequencing의 정확도는 매우 높지만, 한 번의 한 서열만 읽을 수 있다는 단점이 있다. 이를 극복한 것이 서열을 대량으로 읽어내리는 Massive parellel sequencing(MPS)이다. 이는 NGS sequencing 혹은 2세대 시퀀싱 기술이라고 불린다. 2세대 시퀀싱 기술은 크게 두 범주로 나뉜다.1. Sequencing by hybridization1980년대에 고안되었으며, 이미 알고 있는 서열과 알고자 하는 서열의 binding을 통해 기존의 서열과 일치 여부를 확인한다. 크게 두 방식으로 분류 가능한데, 하나는 알고자 하는 target sequence를 셀에 고정하고, 서열 조각을 binding 하여 binding efficiency의 차이로..
| 개요 Sanger sequencing이란 Fredric Sanger(1928~2013)이 만든 시퀀싱 방법을 말한다. Fredric Sanger는 단백질 분자의 시퀀싱 방법과 DNA분자의 시퀀싱 방법으로 총 두개의 노벨화학상을 수상하였다. DNA는 항상 5’-to-3’ 방향으로 합성된다. 합성 시에는 3’-OH와 5’-phosphate와 반응하여 phosphodiester결합이 형성되며 5’에 붙어있던 인산이 떨어져 나간다. DNA가 합성되는 과정에서 순서대로 사용된 염기를 알 수 있다면, 서열을 분석할 수 있다. Fredric Sanger는 염기가 합성되는 단계를 멈추고, 멈추기 직전에 합성에 사용된 염기를 알아낸다면, 서열을 읽을 수 있다는 것에 아이디어를 얻었다. 이후 3’-OH가 존재하지 ..
작성: 2023-04-24수정: 2024-08-19, 2024-12-06 (NB의 한계 추가) 🟦 개요생물학에서 가장 많이 사용되는 유전자 검색 알고리즘은 BLAST(BLASTn, BLASTp, BLASTx)입니다. 그러나 QIIME2의 classifier는 naive bayes(Wang Q et al., Appl Environ Microbiol, 2007/ Bokulich NA et al., Microbiome , 2018) 알고리즘을 사용합니다.왜 우리는 BLAST를 사용하지 않고 classifier를 사용할까요? 이유는 대용량 데이터를 처리하기 위해서 빠른 속도와 정확성을 제공하기 때문입니다.먼저 naive bayes를 왜 쓰게 되었는지 알아봅시다. 🟦 베이즈 정리란 무엇인가?베이..
저는 기존에 ADsP 를 공부하였지만, 결제 일자를 까먹어 시험을 놓치는 바람에 빅분기 시험을 치게 되었습니다. 제 공부 방법은 제목처럼 돈을 들이지 않고 인터넷의 힘을 모아서 합격하는 방법입니다.교재를 사지 않은 이유는 지금까지 진행된 회차가 적어 문제은행이 만들어지지 않았고, 교재마다 차이가 크기 때문입니다. 가장 결정적인 이유는 아무래도 기출문제만 풀고 합격했다는 후기 때문일겁니다.사실 일주일 전부터 공부를 시작했기 때문에 그 방법이 가장 효율이 좋다고 생각해서, 문제풀이 사이트를 찾기 시작했습니다. 찾은 문제 풀이 사이트는 아래와 같습니다. 저는 위 예제 사이트의 문제를 모두 풀고, 틀린 부분을 오답하면서 지식을 채워갔습니다. 영진 예비 모의고사https://cbt.youngjin.com..
https://yihui.r-universe.dev/xfun 홈페이지에서 R버전에 맞는 패키지 파일 다운로드 1. xfun_0.39.1.zip 파일 다운 받은 경로를 직접 입력하여서 설치 install.packages("~/xfun_0.39.1.zip", repos = NULL, type = "sorce") 2. 혹은 패키지가 설치된 위치에서 압출풀기 하기 본인의 경우 위치는 C:\Users\~\AppData\Local\R\win-library\4.2 이다.
- 2023.04.19 랩미팅 피드백 - 분석을 할 줄 아는 것보다. 이 분석이 어떤 방법을 사용하며, 분석의 결과가 무슨 의미를 가지는지가 더 중요하다. - 샘플의 경향성만 간단히 보고싶다면 taxonomy를 보는 것처럼, 분석의 목적과, 그 샘플에서 최종적으로 보고자 하는 것을 생각하다. - 그림을 그리는건 한 달만 배우면 할 수 있다. 그러나 실험을 디자인하고, 샘플을 선정하고, 그 샘플의 퀄리티를 측정하고, - 샘플의 결과가 맞는지 판단하는 것은 간단히 할 수 없다. 그것이 자신의 전공 분야여야 한다. 각 단계를 이해하고, 이 후에 어떤 분석을 할 것인지 생각해야 한다. - 여러 논문보다 현재 연구 주제에 맞는 논문을 봐라. 논문 쓸 때 어차피 50-60개는 몰아서 본다. - 시각화 - 진균과 박..