빅분기 실기지난주 6월 22일 (토)에 시행된 빅분기 실기시험의 공부방법과 시험 후기를 공유해보고자 합니다. - 시험 장소: 대전 대전광역시 중구 중앙로 137번 길 36 세잔 IT직업전문학교- 시험 시간: 10:00~13:00 (9:30까지 입실)- 시험 정보 - 제1 유형 데이터 처리/ 30점 (3문제) - 제2 유형 데이터 모델링/ 40점 (1문제) - 제3 유형 통계/ 30점 (2문제, 각 문제당 3문제, 5점씩) 8회 공부[백그라운드] - 컴공 X, 대학원에서 코딩 O - 통계는 기초 정도, 머신러닝을 다루기도 하지만 이론 잘 모릅니다.- 주 언어는 R이며, dplyr 사용에 능숙합니다. - 이전에 ADsP를 취득한 경험이 있습니다. [공부 시간 및 공부방법] - 공부 소요시간..
인기 글
1. 네트워크 관리사 2급 - 공식 홈페이지: https://www.icqa.or.kr/cn/page/network - 협회: 한국정보통신자격협회 - 시험: 필기, 실기 - 검정 기준: 네트워크 관련 업무 수행을 위한 일반적인 운용지식과 구축기술 NOS운영, Packet분석, Monitoring, 인터넷기술, Protocol 등 기초 이론과 실무능력 검정 - 국가 공인 인증 자격증(1급은 아님) 2. 네트워크 관리사 2급 필기시험 - 일정: 2023-11-05(일) - 장소: 대전 서구 계룡로 637 아이티스쿨 정보보호교육원 (성심당 근처다ㅎㅎ) - 시험시간: 09:20까지 입실, 09:30~10:20 시험(50분, 10분 뒤 퇴실 가능) - 결과 발표: 2023-11-07(화) - 지참: 신분등, 볼펜..
작성 : 2022-10-24수정 : 2023-06-04 (microbial 패키지 추가) 🟦 목표1. Microbiome의 marker 미생물을 찾는데 많이 사용되는 LefSe 분석에 대해 알아보고2. R을 이용하여 분석을 후 시각화해 보자 🟦 LefSe 분석이란?LDA (linear discriminant analysis)란이는 차원축소 방법 중 하나로, 간단히 말해 기존의 데이터의 class들을 잘 나눌 수 있는 선을 찾고 새로운 데이터가 나타났을 때 사전에 찾은 선을 기준으로 어떤 class인지 분류해 주는 알고리즘이다(출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=ysd2876&logNo=221212453..
작성 : 2023.04.13~2023-04-17수정: 2024-02-05picrust2 visualization 들어가기에 앞서오늘은 올해 따끈따끈하게 출시된(무려 2023년 4월 8일) ggpicrust2 패키지를 소개합니다. ggpicrust2는 마이크바이옴의 기능 예측 도구인 picrust2의 결과물을 통계적으로 분석하고 시각화하는 데에 사용합니다. > 분석 환경 - biom과 picrust 설치 필요. - 추가적으로 분석은 R환경 (최신 버전) > 예제 데이터: QIIME2 예제인 moving-picture - 이는 사람의 혀, 장, 양 손바닥의 마이크로바이옴 데이터를 담고 있다. 이 중에서 혀와 장의 마이크로바이옴에 해당하는 기능예측 유전자를 비교해 본다. ggpicrust2- ..
2024-05-24 ~ 2024-05-28 1. History of search sequence 1) Needleman-Wunsch의 global alignment algorithm (1970) - 그러나 전체적인 유사도보다는 보다는 지역적인 유사도가 보다 생물학적인 의미를 지니고 있기 때문에 local alignment 도구 필요 2) Smith-Waterman의 local alignment algorithm (1981)- dynamic programming 사용 - 최적의 비용을 가지는 정렬을 찾아주지만 계산 시간이 오래 걸림 3) FASTA(1988), BLAST(1990)- word based and heuristic algorithhms(모든 서열을 다 조사하는 것이 아님) 2...
- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가 🟦 PICRUSt2란? 단백체 분석이나 RNA seq, Microbiome에서 분석하는 기본 데이터는 table이다. 각 샘플이 행으로 배치되어 있고, 각 열의 이름은 단백질 이름, RNA 이름, ASV 이름, taxa로 바꾸어 갈 뿐이지 형식은 거의 동일하다. 이때 우리는 행 값을 feature라고 부르겠다. 이를 통해서 우리는 각 샘플에 어떤 특정한 열에 해당하는 물질 또는 생물이 풍부하게 존재함을 알 수 있다. microbiome(Amplicon) 데이터에서 feature는 ASV 혹은 OTU이다. 이 feature을 사용해서 ..
2024.04.18.업데이트 마이크로바이옴을 공부하면 아마 가장 먼저 배우게 되는 것이 이 QIIME2의 사용법입니다. Moving pictures tutorial을 참고하여 각 단계별로 세세하게 알아봅시다.🙉 분석 데이터 관찰하기- QIIME tutorial 홈페이지: https://docs.qiime2.org/2024.2/tutorials/moving-pictures/- 관련 영상: https://www.youtube.com/watch?v=RcdTZE8VbJg&list=PLOCEVoX6zu2Ii8RD7i9Oi7Pbot_5WF08n QIIME2의 moving-picture tutorial에서 사용된 데이터는 사람의 마이크로바이옴 데이터입니다. 이 데이터는 항생제 사용에 관하여 두 명의 대..
지난 36회 시험을 등록만 해놓고 입금을 까먹어서 놓쳐버린 일을 후회하며 37회를 준비했습니다. 공부 시간 투자는 목요일 3시간, 금요일 오후 6시~ 토요일 오전 8시로 시험 전까지 총 3일 정도 걸렸습니다. 저는 비 전공자는 아니지만, 빅데이터 분석에 발을 담고 있는 반 전공자로서, 이론을 이해하는 데에 조금 수월하였습니다.저는 지난번 시험을 준비한 경험이 있음으로, 초반에 이론부터 공부하는 것이 아니라 바로 기출로 들어갔습니다. 이번 시험을 준비하면서, 지난번 공부하던 내용이 머리에 남아있을 것이라는 자만으로 36회를 풀었지만, 생각보다 점수는 잘 나오지 않았습니다.(30~40점) 이후 문제만 푸는 것이 아닌 이론도 같이 학습해야겠다고 생각했으며, 이후 1과목을 간략하게 복습한 후, 35회를 풀었..
- 작성 : 2022.12.01 🟦 알파폴드2 - 지난 2020년 11월, 알파고를 개발한 것으로 잘 알려진 인공지능 회사 구글 딥마인드가 ‘알파폴드2(AlphaFold2)’를 발표했다. 단백질 구조 예측 인공지능인 알파폴드2는 작년 12월에 있었던 단백질 구조 예측 능력 평가 대회(CASP)에서 92.4점으로 1위를 기록 - 이 프로그램은 먼저 그동안 축적된 단백질 구조 데이터와 아미노산 배열을 학습. 그다음 이를 토대로 하여 새로운 아미노산 서열로부터 구조를 예측. 이전 방식이 분석하는 데 몇 주에서 몇 달까지 소요하던 것에 비해, 딥러닝과 텐션 알고리즘을 결합한 알파폴드2는 고작 하루 이틀 만에 결과를 내놓 - 2021년 7월 15일 딥마인드측은 알파폴드2의 개발 과정이 담긴 논문과 소스코드를 공개..
최신글
Likert plot이란?Likert plot은 흔히 설문조사라고 불리는 리커트 척도(likert scale) 조사에 사용되는 시각화 방법입니다. 리커트 척도는 문장을 제시하고, 그에 대한 동의/비동의를 평가하는 방식을 뜻한다. 주로 3~5가지의 문항을 사용한다고 합니다. R의 likert plot은 원데이터를 분포로 바꾸지 않아도, 자동적으로 요약 및 시각화를 해주는 도구입니다. 항생제 내성결과 또한 분포에 따라 데이터를 정렬하는 것으로, likert plot을 사용하기 좋은 데이터입니다. 항생제 내성 결과항생제 내성은 3가지로 나눌 수 있습니다.R (Resistant): high likelihood of therapeutic failure.S (Susceptible) high likeliho..
내용추가: 24/10/10 지난 6월, 네이처에 게재된 마이크로바이옴 관련 논문이 철회되었습니다. 해당 논문은 암 연구를 위해 활용된 WGS 데이터(TCGA)에서 박테리아 유전체를 추출하여 32가지 암을 구분하는 머신러닝 모델을 개발한 연구입니다. 이 연구는 Human Microbiome Project를 이끄셨던 Rob Knight 교수님의 연구실에서 수행되었습니다. 최근 레딧을 통해 이 소식을 접하게 되었습니다. 비록 이 주제가 매우 뜨거운 이슈임에도 불구하고 국내에서는 충분한 보도가 이루어지지 않았습니다. 이에 관련된 자세한 상황을 시간 순으로 정리하였으니 관심 있으신 분들은 참고하시기 바랍니다. 📅 Timeline Cancer microbiome 저자 연구실은 🟣 , 반박의견은 🟢으로 표시 1️⃣ ..
Obviously, there is no general sequence-clustering threshold across species and there will always be a trade-off between over-splitting and lumping of species (Kauserud, H, Fungal Ecology, 2023). "Lumpers and splitters"의 splitters는 더 작은 단위로 나누고 싶어 하는 연구자를 말하며 (공통점 강조), Lumpers는 좀 더 큰 단위로 할당하고 싶어 하는 연구자를 말한다(차이점 강조). 이 표현은 찰스 다윈이 처음 사용했다고 알려져 있다. 현재, 연구실에서는 진균의 유전체를 다루고 있다. 박테리아만 다루다가 진균을 분석해 ..
https://ftp.ncbi.nih.gov/pub/taxonomy/Major_taxonomic_updates_2023.txthttps://ncbiinsights.ncbi.nlm.nih.gov/2022/11/14/prokaryotic-phylum-name-changes/https://ncbiinsights.ncbi.nlm.nih.gov/2024/08/29/ncbi-taxonomy-updates-to-yeasts/#more-13805
QIIME전용 데이터의 특징은 taxonomy와 fasta가 나누어져 있음.이때 원하는 taxa를 taxonomy 데이터에서 추출한 후, 그 아이디에 맞추어서 fasta파일을 추출해야 한다. # 원하는 taxa 추출grep "Fungi" taxonomy.tsv > taxonomy_fungi.tsvcut -f 1 taxonomy_fungi.tsv > Fungi_id# fasta 파일에서 추출 awk 'NR==FNR {ids[$1]; next} /^>/ {flag=0} {seq=$0; sub(/^>/, "", seq); if (seq in ids) {flag=1; print ">" seq; next}} flag' Fungi_id ITS.fasta > ITS_fungi.fasta# 추출 확인 grep "^>..
작성: 2024.08.22 연구하다가 궁금한 주제들은 대부분 누군가가 질문을 해 보 았을 것이다.우리는 이러한 글에 많은 도움을 받는다. 그러나 일부 의견은 전문가의 의견이 아님으로 주의해야 한다.내가 추천하는 방식은 전문가의 이름을 기억하고, 이들의 답변을 중심으로 찾아보는 것이다. # 추천 답변자 들 (리더 및 중재자)중재자 들이란 포럼 내 전문가를 말하며, 보통 도구의 개발진이나 분야의 전문가가 이를 담당합니다. 특히 가장 큰 forum인 QIIME의 중재자를 대표적으로 소개해봅니다. - Nicholas Bokulich: Professor of Food Systems Biotechnology at ETH Zürich - Greg Caporaso: Professor of Northern Ari..
# 패키지 불러오기 library(tidyverse)library(phyloseq)library(RColorBrewer)library(ggplot2)taxa_plot % sort(decreasing = TRUE) # Top N 추출 Names % unique() # Top n 에 속하는 Phylum와 Taxa 를 data frame으로 정리하기 p_tax_table % .[!duplicated(.[ , taxa]),] # Top N 을 제외한 taxa는 모두 Other 로 치환 processed_data % .[,"Phylum" ]%>% unique processed_data[,"Phylum"] % ..
library(glue)seq_to_fas ", fas$ID) Xfasta[c(FALSE, TRUE)]
🟦 BLAST 옵션의 단점 Local BLAST의 결과에서 우리가 확인할 수 있는 정보는 Tax id와 Phylum, Species이름 정보 등이다. 그러나 전체 계통 정보를 얻는 옵션은 기본적으로 추가되어있지 않다. 나는 기본적으로 blast 수행 시 아래와 같은 output format옵션을 선택한다. -outfmt "7 delim=, qacc sacc evalue bitscore qcovus pident sscinames"결과는 아래와 같이 "query/ 접근번호/E-value/bitscore/query coverage/ identity/ 종속명"을 나타냅니다. 더보기>> outfmt의 옵션 전체 보기 약어내용qseqidQuery Seq-id (쿼리 시퀀스 ID)qgiQuery GI (쿼리 ..
저는 연구실 거의 1기 대학원생 이기 때문에 같은 분야의 선배가 존재하지 않습니다.막막한 대학원생을 위해 발표 참고 자료를 공유합니다. 저희 학교의 경우 졸업논문 심사 및 발표를 총 두 번 수행하게 됩니다. 각 심사는 예비 발표와 공개 발표로 구성되어 있습니다. 예비 발표에서는 수정할 점을 많이 말씀해 주셨는데, 최종적으로는 개선되었다는 교수님들의 말씀을 들을 수 있었습니다.. # 참고 영상https://www.youtube.com/watch?v=RMKcvTWQ8ZE&t=4shttps://www.youtube.com/watch?v=a-oWa2CS8jg&t=4203s # 참고 피피티- thesis defense/ 키워드로 검색연세대 시계열 - https://www.slideshare.net/slidesh..
# 이전글 [ggpicrust2] picrust2 결과물을 시각화 하는 ggpicrust2 튜토리얼작성 : 2023.04.13~2023-04-17수정: 2024-02-05picrust2 visualization 들어가기에 앞서오늘은 올해 따끈따끈하게 출시된(무려 2023년 4월 8일) ggpicrust2 패키지를 소개합니다. ggpicrust2는 마이크바이옴의 기능 예측bio-kcs.tistory.com [web crawling] KEGG PATHWAY level에 따른 표를 가져와보자 Structured Tables from KEGG Pathway Data🟦 목적 ggpicrust2 도구 사용 시, Kegg number에 따라 annotation 할 때, kegg 서버에 문제가 생기는 일이 매우 잦았..
Nextflow란?Nextflow는 최근 떠오르는 생물정보학의 workflow management sysyem 중 하나이다.보편적으로는 SnakeMake가 사용되지만, 레딧에서는 bio 쪽에서는 Nextflow가 community가 더 큰 편이라고 한다. 16S 같은 경우에는 QIIME으로 돌리면 그만인데 필요가 있나? 싶지만 일의 시간을 획기적으로 줄여준다고 한다. 어떻게 배우는가?Metagenome분야에서 대표적인 3가지 Nextflow참고하기1. https://nf-co.re/ampliseq/2.7.1 - 초록색이 기본값이고, 흰색은 사용가능한 도구를 뜻한다. - 2020에 논문 게재 이후 16S에서 가장 많이 사용되며, 인용수는 160 이상- Straub, D., Blackwell, ..
- 목표: 올해 안 까지 Whole genome분석 환경 세팅하기 > QIIME2 shotgun에서 지원가능한지 알아보기 > Nextflow에서 사용가능한지 알아보기 1. MAGs으로 할 수 있는 연구- 전반적 기능 예측 - Antibiotic resistance genes (ARGs) - Antimicrobial peptides (AMPs) - Pan-genome - 유전자 변이 감지 (Metagenotyping) - 미생물 대사 시뮬레이션 Fig. 2: Comparison of 16S rRNA sequencing and whole-metagenome sequencing (WMS) in microbiome analysis. 2. 사용 도구 - QC: fastqc로 확인 후 Trimmomatic,..
1. 서버 R접속이 안되어서 에러 확인 $ less /var/log/messages -> Unable to initialize the JIT라는 에러 발생 $ sudo journalctl -u rstudio-server 이걸로도 재 확인 2. "Unable to initialize the JIT" 검색 -> https://support.posit.co/hc/en-us/articles/17423794149143-Unable-to-initialize-the-JIT 1) http://:/home 에 접속이 된다면?그렇다면 session을 종료 후 재 시작 해보자 2) 되지 않는다면, R session시작에 문제가 있는 것이다. $ less /etc/rstudio/rserver.conf문서를 확인해 보..
🟦 The Sequence Read Archive(SRA)란?NIH 주관 International Nucleotide Sequence Database Collaboration (INSDC)의 산하 저장소는 the European Bioinformatics Institute (EBI), and the DNA Database of Japan (DDBJ) 등이 있다. 이 중 SRA는 high-throughput sequencing 데이터의 저장소중 하나입니다.(https://www.ncbi.nlm.nih.gov/sra/docs/) SRA의 접근 번호 SRA에 업로드된 샘플에서 여러 가지 접근 번호가 있습니다. 이에 대한 포함 관계설명드리겠습니다.접근 번호설명SRP (Sequence Read Archive P..
EUKARYOME (ver 1.8)- 논문 게재: 2024.05.23- Metazoans, protists, fungi와 plants를 모두 포함하는 all eukaryotes에 대한 데이터 베이스 - https://eukaryome.org/ - General FASTA (for DADA2), QIIME, Mothur, BLAST 전용 DB 제공 - 18S의 Long, SSU, LSU, ITS 총 네 가지 데이터 제공 기존 데이터 베이스의 한계특정 영역만 다룬다 & 업데이트가 느림(PR2, SILVA/ 2020) - UNITE: ITS - PR2 database: SSU - SILVA: SSU & LSU => SSU, LSU, ITS를 모두 담은 DB는 없을까? 제작방법- Amplicon(SI..
하... 합격이오!!!!!!!!!!!!!!! 필기시험 2주 후에 사전점수가 발표됩니다. 사전점수는 문제에 큰 오류가 없다면 확정점수와 동일합니다.2024년도 8회 실기시험은 7월 5일 (금)에 발표되었습니다. 저는 6회 필기를 보고 1년 뒤에 실기 시험을 봤습니다. 8회 실기 때는 6회, 7회의 실기문제를 보고 준비했기 때문에, 예제문제가 쌓이고 난 이후에 보길 잘했다는 생각이 듭니다. 예상대로 1 유형 만점, 3 유형은 반타작에, 2 유형이 운 좋게 30점이 나와서 합격을 거머쥘 수 있었습니다.그러나 3 유형은 답을 적지 않은 것은 모두 틀렸네요.. 난이도는 생각보다 쉬웠지만, 기초 통계에 대한 공부가 부족한 상태로 시험을 봐서 3 유형 점수가 반타작이었습니다. 물론 자격증은 커트라인을 넘는 것..
만약 샘플이 다르다면, 형성된 ASV를 기준으로 합치는 것은 매우 어렵습니다. 그러나 해상도가 조금 떨어지더라고 Species 기준으로는 두 샘플을 합칠 수 있습니다. 예제데이터를 사용하여 두 개의 phyloseq을 임의로 두 개로 나눈 다음에 다시 합쳐보겠습니다! 먼저 Phyloseq을 합치기 위한 조건이 있습니다. 1. 동일한 Metadata 속성을 가질 것 - 즉 sample_data()로 나오는 데이터의 colnames가 동일해야 합니다.2. 전체 데이터를 Species-level로 합친 다음에, tax_table의 rownames이 Species여야 합니다. 3. count가 아닌 relative abundance에서만 합치는 것이 그나마.. pivot_wider를 이용해서 Phylos..
일단 다른 연구에 도움이 되고자, 기존 HMP 데이터 베이스를 재분석하는 일을 하였다. 교수님이 짬 날 때만 하라고 하셨지만, 짬이 많이 나서 빠르게 해치웠다. 위 프로젝트의 목표는 기존 데이터셋에 나타나지 않은 A라는 균이 우리 연구실 샘플에서 많이 나타나는데, HMP 데이터에서 이 A가 과소평가된 게 아닐까? 하는 의구심으로 시작되었다. 아니나 다를까 역시 맞았다. 동정된 지 별로 오래되지 않은 균이기 때문에, 기존 HMP 데이터셋에 나타나지 않았던 것이다. 분석된 데이터셋은 16S rRNA의 V1 V3, V3V4사 사용되었으며, 현재 V3V4는 분석 중이다. 기존 HMP 16S데이터가 QIIME1기반의 OTU가 사용되었기 때문에, DADA2 결과와는 상이한 부분이 많다. 패키지는 아래 논문처..
기존 조건1. Git-hub가입2. Git 설치3. Rstudio와 R 설치 새로운 R project를 만들면서 동시에 연동하는 방법- 출처) https://www.youtube.com/watch?v=KdpNijR0RPk- 참고) https://happygitwithr.com/ 1. Git hub에서도 "Myproject" 이름으로 생성2. [New project] -[Version Control] -"Myproject"라는 이름에 Gut저장소의 SSH 주소 붙여 넣기=> 연동되었다면 Git tab생성됨3. Git에서 생성자 등록 # 여러 사람이 사용 시 사용자 표시가 필요함으로 등록 ㅇㅇ - Git열기 - 아래 스크립트 입력$ git config --global user.name "So-Yeon K..
출처: https://scv.bu.edu/examples/r/tutorials/BuildingPackages/ Building your own R PackageBuilding R Packages Bootcamp Materials.scv.bu.eduhttps://happygitwithr.com/ Let’s Git started | Happy Git and GitHub for the useRUsing Git and GitHub with R, Rstudio, and R Markdownhappygitwithr.com Package Loadlibrary(devtools)library(roxygen2) 1. 패키지를 담을 project 생성devtools::create("Rpackage") # Rpackage라는..