👍 추천 글
📈 인기 글
작성 : 2023.04.13~2023-04-17수정: 2024-02-05picrust2 visualization 들어가기에 앞서오늘은 올해 따끈따끈하게 출시된(무려 2023년 4월 8일) ggpicrust2 패키지를 소개합니다. ggpicrust2는 마이크바이옴의 기능 예측 도구인 picrust2의 결과물을 통계적으로 분석하고 시각화하는 데에 사용합니다.  > 분석 환경  - biom과 picrust 설치 필요.   - 추가적으로 분석은 R환경 (최신 버전) > 예제 데이터: QIIME2 예제인 moving-picture   -  이는 사람의 혀, 장, 양 손바닥의 마이크로바이옴 데이터를 담고 있다. 이 중에서 혀와 장의 마이크로바이옴에 해당하는 기능예측 유전자를 비교해 본다.  ggpicrust2- ..
작성: 2023-08-25 Metacoder란? - 공식 튜토리얼 : https://grunwaldlab.github.io/metacoder_documentation/workshop--05--plotting.html - 논문 : Foster, Z. S., Sharpton, T. J., & Grünwald, N. J. (2017). Metacoder: An R package for visualization and manipulation of community taxonomic diversity data. PLoS computational biology, 13(2), e1005404. https://doi.org/10.1371/journal.pcbi.1005404 - 인용수: 498(2023.08.25 기준..
· 자기소개
🎉안녕하세요 저는 생명과학 전공자로 석사과정(현재는 박사 중)에서 컴퓨터 분야에 첫 발을 내디뎠습니다. 현재는 바이오인포메틱 전반과 마이크로 바이옴 데이터 분석에 대해 공부하고 있습니다.메인 언어는 R이며, 간단한 마이크로바이옴 분석 및 시각화 패키지를 제작하고 있습니다. 이 과정에서 데이터의 시각화와 R을 이용한 웹 앱 개발에도 관심을 가지고 있습니다. 저의 최종적인 목표는 데이터 분석도 잘하고 개발도 잘하는 bio data engineer& developer입니다.(사실 연구보다 개발이 더 재밌습니다...) 📚이 블로그는제가 공부하면서 기록해야 할 것들과, 영어 때문에 검색이 어려웠던 여러 사람들을 위해 코딩 질문과 답을 번역해서 돌리거나, 분석 가이드를 작성합니다. 또한 어떻게 공부를 시작해야 ..
· 대학원
이 프로젝트는 내가 들어오기 전에 교수님이 맡으셨던 프로젝트이다. 교수님이 바쁘신 나머지, 내가 추가 분석을 담당하게 되었다. 분석은 내가 대학원들 들어오고 나서부터 오늘까지 약 1년간 지속되었다. 사실 기초 분석은 모두 끝낸 상태라, 처음 공부하면서 이미 완성된 결과를 다시 한번 확인하고, 그 후에 새로운 분석들을 추가해서 살을 붙였다. 정말 지겹고 속이 울렁거릴 정도로 수정했던 것 같다. 분석도 분석이지만, 이미지 퀄리티부터, 색, 샘플 정렬, taxa정렬, 글씨체 등등 여러 세세한 부분이 더 많은 비율을 차지했던 것 같다. 기억을 더듬어 보자면 아래와 같다. 1. 샘플의 메타데이터를 관찰한다. ✨이 단계가 매우 중요하다. 사실 이 전에 실험 계획이 더더욱 중요하다. - 메타데이터에 오류가 없는지 꼼..
글 작성: 24.01.03. 내용추가: 24.01.02. 1. Network analysis | 마이크로바이옴 연구에서 네트워크 연구란? - microbiome은 복잡한 미생물 군집을 말한다. 여러 생물들의 상호작용은 전체 미생물의 구조를 안정적이며 견고하게 만든다. - 네트워크 plot은 미생물의 scale과 다양성을 모두 나타낼 수 있으며, 단편적인 관계보다 보편적인 시스템을 보여준다. | Network의 구성성분 - node: 하나의 샘플이나 OTU/ASV를 뜻한다 - edge: 각 단위 간의 관계를 말한다 | network plot에서 알 수 있는 정보들 - node의 정보: 색, 모양, 크기, 라벨에 정보를 표시할 수 있다. - e.g. 색에는 그룹 데이터를, 크기는 relative abunda..
작성 2023.09.04수정 2023.09.26   🟩 Vegan- biplot이란 하나의 그림에 두 개의 데이터를 보여주는 plot이다. - Vegan 패키지는 환경데이터를 처리 및 분석에 사용된다. 마이크로바이옴 데이터와 환경데이터는 샘플이름이 열에, 환경 또는 미생물의 이름이 행에 위치(혹은 그 반대)하는 feature table을 분석에 이용하기 때문에, 많은 분석 방법을 공유한다.- 이 중에서 vegan의 envfit 함수를 이용한 biplot을 phyloseq object를 사용해 그려보자.- 위처럼 샘플을 point로 나타내고, 관련 메타데이터를 arrow로 그리거나, feature(ASV)를 arrow로 표시하는 경우가 있다.  🟩 Example data- QIIME2 tutorial ..
· Programming
1. 네트워크 관리사 2급 - 공식 홈페이지: https://www.icqa.or.kr/cn/page/network - 협회: 한국정보통신자격협회 - 시험: 필기, 실기 - 검정 기준: 네트워크 관련 업무 수행을 위한 일반적인 운용지식과 구축기술 NOS운영, Packet분석, Monitoring, 인터넷기술, Protocol 등 기초 이론과 실무능력 검정 - 국가 공인 인증 자격증(1급은 아님) 2. 네트워크 관리사 2급 필기시험 - 일정: 2023-11-05(일) - 장소: 대전 서구 계룡로 637 아이티스쿨 정보보호교육원 (성심당 근처다ㅎㅎ) - 시험시간: 09:20까지 입실, 09:30~10:20 시험(50분, 10분 뒤 퇴실 가능) - 결과 발표: 2023-11-07(화) - 지참: 신분등, 볼펜..
작성 : 2023-06-07수정 : 2024-01-26   PICRUSt2 결과를 어떻게 보여줘야 보는 이로 하여금 이해가 수월할지 고민해 보았다. 마이크로바이옴 논문에서는 Erro bar를 사용하여 각 비교 그룹에서 얼마나 양적으로 차이 나는지 보여주거나, heatmap을 사용하는 것이 대다수였다. 혹은 분석 결과를 LDA score 등 를 통해서 보여주기도 한다.    전체 샘플에서 kegg pathway에 해당하는 분포를 보고 싶을 때에는 heatmap 이 가장 적합하다. heatmap은 다른 시각화 방법보다 raw data를  반영한다. 이를 고려하여, 전반적인 raw data를 보여주기 위해서 heatmap을 사용하고, 통계적으로 유의한 feature 간의 비교를 위해서는 Error bar/ L..
· └ 기타
- 수정 2023.06.05 시각화 방법, 시각화 예시자료 추가 - 수정 2024.01.16 NSTI 부가 설명- 수정 2024.01.19 contribution 추가 📌 [소식] PICRUST2의 refrence가 GTDB 를 기반으로 확장되었다는 소식이 올라왔습니다. Reference 서열과 기능 유전체 데이터베이스가 업데이트 되었기 때문에, 기능 예측의 정확도가 향상될 것으로 기대됩니다 (25.01.10)  - 관련링크 🔗https://github.com/picrust/picrust2/wiki/PICRUSt2-GTDB-database HomeCode, unit tests, and tutorials for running PICRUSt2 - picrust/picrust2github.com📌 [후기..
🆕 최신글
· 기타
🟦 개요 근래 Microbiome 저널에 가상의 데이터를 기반으로 한 benchmark 논문이 우수수 출판되고 있다. 대표적으로는 Avershina, E et al의 Challenges in capturing the mycobiome from shotgun metagenome data: lack of software and databases. Microbiome (2025)만 봐도 ART read simulator v2.5.8을 통해서 생산된 가상의 데이터를 사용하였다. ART 말고도 InSilicoSeq도 많이 사용되는 추세이다. 장점은 실제 시퀀싱을 하지 않아도 되고, 사람 손에 따른 bias 가 생산되지 않으며, 또한 비교할 만한 답안지가 있어서 비교가 쉽다는 것에 있다. 🟦 생산 도..
· Database
안녕하세요.약 1년 만에 이 시리즈를 업데이트하게 되었습니다. 피하고 싶었는데.. 결국 다시 마주하게 되었네요. 세 번째 시리즈, 엑셀을 통한 대시보드 제작기입니다. 왜 다시 돌고 돌아서 DB를 만들어야 한다고 하는가?지난 1년 동안 많은 일이 있었지만, 시간이 갈수록 데이터베이스의 관리 필요성,아니 처음부터 제대로 디자인된 데이터베이스의 필요성을 뼈저리게 느끼게 되었습니다😅😅😅. 그래서 새로운 프로젝트가 시작될 때마다, 제가 참여하든 참여하지 않든 상관없이엑셀 기반의 데이터베이스 시트를 직접 디자인하고 있습니다. 실제로 1년 동안 사용해 본 구글시트 기반 데이터베이스 후기 아래는 1년 동안 제가 설계한 데이터베이스를 기반으로 만든 구글 시트입니다. 3개의 부서가 동시에 데이터를 입력하기..
· 대학원
1. 논문 두 편 세 편 가자! 이상 가자! 게재하기- 하나는 임상분야, 하나는 informatic 분야 목표 2. Multi-Omic 공부하기- Bulk RNA-seq 분석 파이프라인 구축 -> Nextflow로 - Single cell 데이터 활용법 학습하기 3. Open dataset 활용 하기 or Meta analysis 수행 및 논문 작성 4. NextFlow를 활용한 Shotgun 분석 파이프라인 구축 5. 연구실 데이터베이스 구축 - 웹플랫폼 구축이 최종 목표! 6. 자격증 - 리눅스마스터- SQLD- 정보처리기사 ---회사에서 날 볼때 논문 그 다음은 자격증이라는 말이 기억난다. 특히 연구가 아닌 행정직으로 취직을 생각한다면, 나를 증명할 길이 자격증 뿐이다.부지런하게 따 놓자.
· 일상
지금 사용하는 노트북은 레노버 ideapad로 한 3년 즈음 친오빠가 사용하던 노트북을 받아서 쓰기 시작했다. 산지는 7~6년 정도 되었으며, 엄마가 쓰다가 나에게 넘어온 것이라 아주 많은 프로그램(..)과 버벅거림이 심한 상태였다. 또한 배터리 용량도 초기에 비해 절반 정도에 그쳤다. 사실 지금은 데스크톱이 필요한 상황이지만 예상외로 출장(외부 교육, 학회, 세미나) 일정이 잦아서 노트북 또한 고민 중이었다. 그 외에 주말에서는 카페에서 여유롭게 공부하고 싶어서 소음이 적은 노트북을 막 찾아보다 씽크패드를 알게 되었다. 노트북의 사용용도 순위를 매기자연 아래와 같다. 1. 글쓰기 2. 발표자료 만들기3. 간단한 코드 돌리기 4. 간단한 분석 (은 사실 크게 고려하지 않음) 분석의 비중은 크지 않지..
· 대학원
아무나 하는게 아닌 것 같다.나는 할 깜냥이 안되는 것 같다.
· 기타
이곳에 들어오는 자는 모두 희망을 버려라 by 단테 내가 이 코드를 적을 때 신과 나만이 알고 있었지만, 이제는 신만이 안다..
· 기타
What is the best identity (%) cutoff value?99%Amplicon 서열은 종 분화 정도랑 다르게 봐야함. 걍 서열의 조각일 뿐. 우리는 Denoising을 사용하여 군집화 -> 이때 기준이 99%이나 blast결과도 99%를 기준으로 삼아야 한다 ㅇㅇ Stackebrandt E., Goebel B.M. Taxonomic note: a place for DNA-DNA reassociation and 16S rRNA sequence analysis in the present species definition in bacteriology. Int J Syst Bact. 1994;44:846–849.98.7%종 분화 정도 반영Stackebrandt E., Ebers J. Taxo..
· 기타
작성날짜: 2025-10-10 🚨 야매 튜토리얼 🚨 저는 RNA-seq 분석 전문가는 아니지만, 분석 방법을 공유하기 위해 글을 작성하였습니다!하지만 그대로 따라 한다면 분석 결과를 얻을 수 있습니다! 1. 개요 석사 내내 Microbiome amplicon 데이터만 다루다가, 박사과정에 들어오니 Shotgun 데이터도 다루고 Bulk RNA-seq 분석도 맡게 되었다. 면역학 교수님께서 맡겨주셨는데, 분석해보고 싶던 터라 재미있게 다루고 있다. 지금은 두 번째 bulk RNA-seq 프로젝트를 분석하고 있으며, 이미 분석된 데이터의 후처리 정도를 담당하고 있다. 첫 번째 프로젝트에서 이미 시각화해 본 PCA, Volcano, GSEA 결과 말고 다른 분석 방법이 없는지 찾아보고 있던 와중..
· Metagenome
r220 사용하기 오픈 소스를 꾸준히 업데이트해 주는 것만큼 세상에 고마운 일은 없지만, 새로운 프로그램을 설치할 때마다 오류도 증가한다. 아마 현재 사용하고 있는 CentS 7.9 서버의 버전 문제로 생각된다. 그래서 QIIME도 2024.2 버전에 머물러 있다. GTDB tk도 2.2.0 버전을 사용하고 있는데, 업데이트된 r220 DB를 쓰려면 적어도 2.4.0 버전 이상의 GTDB-tk를 설치하여야 한다. 하지만 잘 알아보지 않고 2.2.0에서 바로 r220을 사용하는 바람애, FASTANI 오류로 이틀을 썼다.. GTDB-tk 2.4.0 버전 설치하기 그나마 찾은 안정적인 방법은 2.4.0 버전을 사용하는 것이다. r220을 지원하는 가장 낮은 버전이기도 하다. 근데 그냥 깔면 다음과 같..
· 기타
HMP 프로젝트 데이터를 접근하려고 했는데, 공식홈페이지가 아예 구글에서 사라졌다. 아래 링크 둘 다 안 들어가진다. 1. 공식: http://hmpdacc.org/HMASM/ 2. 포털 (데이터 다운로드): https://portal.hmpdacc.org/ 공식 홈피를 클릭하면 아래와 같이 연구자의 홈페이지로 이동된다. Reddit의 bioinformatics 커뮤니티bioinformatics 커뮤니티에서 이 게시물을 비롯한 다양한 콘텐츠를 살펴보세요www.reddit.com 레딧에서도 누가 질문 글을 올렸던데, 명확한 답은 별로 없다. 물론 아래와 같이 NIH의 NIVID 그룹에서 통합한 목록에는 있다. 클릭하면 아래 홈페이지로 이동된다. NIAID Data Discovery Po..
· 대학원
보고서에 적었는데...피피티에 다 적었는데...아는건 해봤는데...다 찾아봤는데....없는 결과를 만들어 낼 수는 없는 건데...
· 기타
BioProject와 BioSample 등록을 완료한 이후 진행되며, 제출 과정에서 입력한 정보는 저장되어 있으므로 언제든 중단 후 재개가 가능합니다. 저 역시 이번에 1년 6개월 이전에 저장해 두었던 초안을 기반으로 제출을 완료할 수 있었습니다. 아직 진행하지 않으신 분들은 서둘러 준비하시길 권장드립니다! 🟦 이전 글 아래 글을 참고해서 BioProject와 BioSample에 데이터를 먼저 등록하시길 바랍니다. [NCBI] 마이크로바이옴 (Amplicon, Shotgun) 서열을 NCBI에 업로드 해보자 01: BioProject에 정보 등록하기[NCBI] 마이크로바이옴 (Amplicon, Shotgun) 서열을 NCBI에 업로드 해보자 02: BioSample에 정보 등록하기 🟦 SRA에 N..
· 기타
이전 글 [NCBI] 마이크로바이옴 (Amplicon, Shotgun) 서열을 NCBI에 업로드 해보자 01: BioProject에 정보 등록하기작성: 2025/08/01 들어가며 현대 과학 연구에서 데이터 공유는 FAIR 원칙에 따라 이루어져야 합니다. FAIR는 Findable(찾을 수 있는), Accessible(접근 가능한), Interoperable(상호 운용 가능한), Reusable(재사용bio-kcs.tistory.com BioSamples에서 샘플 Metadata 작성하기1. https://submit.ncbi.nlm.nih.gov/subs/biosample/ 접속 ◾ BioSample 종류와 다운 가능한 배치 제출 양식은 링크 참고: https://submit.ncbi.nlm..
· 기타
작성: 2025/08/01 들어가며 현대 과학 연구에서 데이터 공유는 FAIR 원칙에 따라 이루어져야 합니다. FAIR는 Findable(찾을 수 있는), Accessible(접근 가능한), Interoperable(상호 운용 가능한), Reusable(재사용 가능한) 데이터를 의미합니다.F - Findable (찾을 수 있는)고유 식별자: 각 데이터셋이 영구적이고 고유한 식별자(accession number) 보유 풍부한 메타데이터: 검색 가능한 상세한 설명과 키워드 검색 엔진 최적화: 글로벌 검색 시스템에서 쉽게 발견 가능A - Accessible (접근 가능한)표준 프로토콜: HTTP, FTP 등 표준화된 접근 방법 인증 투명성: 접근 권한과 제한 사항 명확히 공개 장기 보존: 데이터 영구 보존과 ..
· 기타
1. https://open.spotify.com/show/1kzU8sMoSoIwqDD3XQsHTc The Geonomics PodcastPodcast · Dr Alex Dickinson · Facts matter in healthcare. Now more than ever. On Apple and Spotify Follow me on LinkedIn https://www.linkedin.com/in/alexgdickinson/open.spotify.com 2. https://www.youtube.com/@OMGenomics OMGenomicsBioinformatics conversations, opinions, and tutorials. Hosted by Maria Nattestad and Rober..
· 일상
구매 버전 - 모델: 키크론 K15 MAX 저소음 축 구매 (엘리스베열)- 용도: 매인 키보드 (연구실 용) 문제 원인 및 해결일단 MAC 버전과 window 버전 충돌로 의심됩니다. 왜냐하면, 키보드가 윈도 모드로 설정되어 있음에도 불구하고 fn + s로 강제로 윈도우 모드로 전환 시 동일한 문제가 발생하지 않습니다. 10개월 사용 후기 대학 내내 노트북을 사용으로 인해 멤브레인 키보드 방식이 가장 손에 익었다. 그다음에 사용하게 된 것은 독거미 f87을 1~2년 정도 사용하였다. 그 경험을 기반으로 k15 MAX는 나에게 잘 맞지 않는 키보드인 것 같다. 일단 키보드 자체 문제가 있다. shift 키는 잘 인식이 안되고 (여러 번 눌러야 함), caps lock은 너무 잘 눌린다. 물론 엘..
· R
Rstudio에서 devtools를 통해 패키지를 다운로드할 때에나 git hub에 연동 시 토큰을 필요로 합니다. 초기 세팅화 수정 방법에 대해서 알아봅시다. 토큰이 귀찮을 수 있지만, Github의 보안 강화를 위해 생겨난 제도로 이해하시면 될 것 같습니다. 1. Github 가입- 당연히 github 계정이 먼저 필요합니다. 2. 토큰 생성1) https://github.com/settings/tokens 접속 2) Generate new token 클릭 -> classic 선택3) 토큰 이름, 유효기간 지정 + repo, user, workflow, gist 권한 선태 4) 생성 후 토큰 번호 복사 ✨✨✨✨✨(이후 확인 불가능!!!) 3. Rstudio에서 설정1) install...
· 기타
이전 글에서 생명정보학을 시작하며 알아야 할 기본 원칙들(Agile, FAIR)에 대해 이야기했습니다. 이번에는 "실제 프로젝트를 어떻게 정리하고 관리해야 할까?"라는 주제로 작성해 보았습니다. 특히, 대학원에 와서 컴퓨터 언어를 처음 배우는 생명과학 전공자들에게 프로젝트 진행에 필요한 코드 리뷰와 문서화, 폴더 구조 등에 대한 기준과 실제 예시 등을 제시해 보았습니다. 이 파트는 논문 Implementing code review in the scientific workflow: Insights from ecology and evolutionary biology에서 많은 부분을 발췌하였습니다. 1. 왜 정리가 필요할까? - 코드 리뷰의 필요성1) 코드리뷰란?"코드 리뷰"라는 말은 뭔가 엄청 귀찮을 일..
· 기타
🙋‍♀️안녕하세요. 김해김 씨 99대손입니다.오늘은 생명정보학을 공부하는 분들, 특히 컴퓨터를 대학원에 와서 익히게 된 생명과학 전공자들에게 꼭 들려주고 싶은 이야기를 정리해 보았습니다. 1. 생명정보학자들이 왜 소프트웨어 개발 원칙을 이해해야 하는가?10년 차 생명정보학 재직자의 레딧 글이 단 시간에 500개의 upvote를 받았습니다. 글의 내용은 왜 아직도 생명 정보학은 다른 분야에 비해 초기에 머물러 있는지를 논의하고 있습니다. (https://www.reddit.com/r/bioinformatics/comments/1l3t6b7/bioinformatics_is_still_in_its_infancy/) "생물정보학은 아직 초기 단계입니다." 왜 생물정보학은 아직 초기 단계일까? 작..
· Programming
안녕하세요. 이번에는 네트워크 관리사 2급 필기에 이어서 실기 시험을 보게 되었습니다.필기를 본 지 거의 1년 반 이상이 지났네요. 78점의 점수로 실기를 합격했습니다!!! 높은 점수는 아니지만 60점 커트라인이 아니어서 뿌듯합니다 ㅎㅎ 지난 필기 합격 글 [자격증] 2023년 11월 네트워크 관리사 2급 필기 합격 후기 (4회) (인강 X)1. 네트워크 관리사 2급 - 공식 홈페이지: https://www.icqa.or.kr/cn/page/network - 협회: 한국정보통신자격협회 - 시험: 필기, 실기 - 검정 기준: 네트워크 관련 업무 수행을 위한 일반적인 운용지식과 구축bio-kcs.tistory.com필기는 두 번 보았고, 개인적으로 비전공자 입장에서 매우 어렵다고 느꼈습니다. 필기는 ..
· └ 기타
# 🚨 문제 for문으로 수동으로 돌리면 되는데 function안에서 subset_samples쓰면 오류 발생 phy_sub phy_sub # 문제 원인 함수 내부에서는 비표준평가(NSE)가 실행되는데, 이때 함수 내부에서 다시 지정해 주지 않으면 전역변수에서 변수를 검색하게 된다. 그래서 찾지 못한다. # 해결 방식grp # 안전한 코드 작성하기 1. 패키지 명시 filter() # ❌ stats::filter()가 호출될 수 있음dplyr::filter() # ✅ 명시적, 안전2. rlang 패키지를 사용해 SE 방식으로 코드 작성- e.g. !!rlang::sym(변수) 로 받기 (나는 주로 이 방식을 사용한다)my_summary % dplyr::summarise(mean..
김해김씨99대손
Bioinfo_newbie