분류 전체보기

biopython 프로젝트란 파이썬 언어 기반의 분자생물학적 데이터를 분석하는 도구를 만든 전 세계의 개발자 연합을 말한다. biopython 은 bioinformatics에 사용되는 다양한 파일의 형식(BLAST, Clustalw, FASTQ, Genebank,..)에 대한 다양한 도구를 지원한다.  - 공식 홈페이지 : https://biopython.org/- 튜토리얼 및 cookbook : http://biopython.org/DIST/docs/tutorial/Tutorial.html- Github의 README : https://github.com/biopython/biopython/blob/master/README.rst  Conda 확인하기 혹시모를 에러를 방지하기 위해 conda를 업데이트..
· 대학원
- 일시 : 2023.02.08(수) - 장소 : 서울대학교 자연과학관 26동 B102호 - 수강 강의 : Human Microbiome Studies with Bioinformatics Approaches (이선재 교수님/GIST) ⬛ 등록 Type Annual Membership Fee Early Registration (~Feb.03) On-Site Registration (Feb.06~ Feb.08) Member Student ₩ 40,000 ₩ 120,000 ₩ 170,000 Ac/Gov/Non-Profit ₩ 80,000 ₩ 150,000 ₩ 200,000 Industry ₩ 50,000 ₩ 200,000 ₩ 250,000 Non-member Student - ₩ 180,000 ₩ 230,00..
샘플의 이름은 각 기관마다 다르지만, 분석할 때는 인덱싱 하기 쉽게 단순화하여 사용한다. 예를 들어 01번째 환자의 cheek 부위의 샘플이라면, "001ch"처럼 약자를 이용해 이름을 짓는다. 또한 마이크로바이옴 기초 데이터의 시퀀싱 결과를 파악하기 위해서 각 샘플마다 read 수를 확인해야 한다. 이때 sampling depth로 rarefy의 수를 정하기도 하고, 시퀀싱이 잘 되었는지 확인한다. 나는 이를 한눈에 보기 위해 R을 이용하여 아래와 같은 테이블을 만들고자 하였다. HV01 HV02 HV03 HV04 Total Read So Df Ac Ne 하지만 여기엔 조건이 있다. 1. 이름에 각 환자의 순번과 부위가 존재해야 한다. ex) 001VH, 003JF, CD001 등등 일정 형식이 존재해..
🟦 샘플 필터링은 왜 필요한가? ◼ 마이크로 바이옴 분석에서 데이터는 보통 대용량 데이터이다. ◼ 분석 시 컴퓨터의 과부하를 줄이기 위하여 일부 데이터만 추출하여 비교하기도 한다. - ex) major한 taxa에서 differencfial abundance test를 위해 read수가 많은 순으로 10%만 골라낸다 ◼ 일정 depth를 충족하지 못한 샘플은 왜곡이 많을 것이라고 가정해 제거하고 분석을 수행한다. 🟦 Phyloseq 데이터를 이용한 필터링 해보기 library(phyloseq) data(GlobalPatterns) GlobalPatterns # hyloseq-class experiment-level object # otu_table() OTU Table: [ 19216 taxa and 2..
원문 : https://m.ibric.org/miniboard/read.php?Board=isori&id=135722&FindText=%EC%83%9D%EB%AA%85%EC%A0%95%EB%B3%B4%ED%95%99%20bioinformatics%20python 안녕하세요. 요즘 대기업이나 중소기업 벤처기업 등 모든 규모의 기업에서 bioinfo 채용하는 곳이 엄청 많습니다. 저희도 많이 채용하고 싶지만 국내에 졸업생 풀이 너무 작아서 쉽지 않더군요. 그런 분들이 기업체로 진로를 정했으면 자신을 잘 표현하는게 중요한데, 지극히 개인적인 의견으로 기억나는 인상적인 경우들을 적어봅니다. 1. bioinfo.는 기본적으로 컴퓨터 사용이 능숙하면 큰 점수를 줍니다. 어쩌면 기업체에서는 연구 성과보다도 컴퓨터 사..
2023.06.07 R풀이 추가 더보기 Wascally Wabbits 1202년, 피보나치로 알려진 피사의 레오나르도가 Liber Abaci책을 출간하면서 번식에 대한 문제를 담았다. 토끼 번식에 대한 가정은 아래와 같다. 인구는 1월 1일 한 쌍의 신생아 토끼에서 시작한다. 한 달이 지나면 생식 연령에 도달한다. 특정 달에는 모든 토끼는 생식 연령의 다른 토끼와 짝을 이룬다. 정확히 두 토끼의 짝짓기 한달 후, 암컷과 수컷 토끼 총 한 쌍을 낳는다. 토끼는 죽거나 번식을 멈추지 않는다. Fn은 각 달에 총 토끼 짝의 수라고 했을 때, F3 = F2 + F1 = 2 + 1 = 3이다 Fibonacci's exercise은 1년이 지난 후 몇 쌍의 토끼가 남는지에 대한 계산을 했다. 1년 후 개체수는 14..
더보기 The Need for Averages 평균은 어디에나 있다. 스포츠에서, 우리는 팀이 승리할 것이라고 예상되는 수를 예측하려고 한다. 도박에서는, 우리는 블랙잭을 게임하면서 평균 실점을 예측하려고 한다. 비즈니스에서, 회사는 다음 분기의 평균 매출을 계산하려고 한다. 분자 생물학에서도 평균은 필요하다. 연구자는 평균적인 항생제 저항 병원균의 수를 예측하며, motif에 일치할 것이라고 예측되는 위치의 수를 추정하고, 인구 전체에 대한 대립 유전자 분포에 대한 평균을 연구한다. 이 문제에 대해서, 우리는 마지막 대립유전자 분포에 대해 논의해야 한다. 문제 1과 n사이의 정수값을 가지는 X 확률변수(random variable)에서, X의 기댓값(expected value )은 아래 그림과 같다. ..
🟦 1. 서론 일단 데이터 분석의 자동화가 가능한가? 이는 데이터마다 다르다. 데이터 별로 각 EDA분석 이후 데이터의 품질을 보고 그 이후 분석 방법을 설계해야 한다. 그러나 마이크로바이옴 데이터의 경우 OTU table이라는 정형화된 데이터 형식이 있으며, 각 퀄리티가 떨어지는 데이터를 제외하고 분석하는 경우가 많아 이러한 변수의 영향을 덜 받는다고 말할 수 있다. 그러므로, 각 분석의 반복적 작업 단계를 자동화하는 것이 목표이며, 이에 대한 방법을 고민하고 있다. Taxonomy 함수를 그릴 때 기본적인 R base의 색으로 표현해도 문제는 없지만, 외부 발표용 자료는 어느 정도 보는 사람이 잘 이해하도록 만들어야 한다. 하지만 수동적으로 색을 부과하는 작업은 시간이 낭비된다. 그래서 입력한 숫자에..
· 대학원
코딩의 가장 좋은 점은 반복 작업을 자동화 하는 것이다. 또한 돌려놓고 다른 일을 함으로서 효율적으로 일을 할 수 있다는 장점도 있다. 마이크로바이옴 분석을 위해 현재 일부 분석 스크립트를 자동화 하였다. 종류는 아래와 같다. - Bera diversity에서 index별로 PCoA를 만드는 함수 - DA 분석을 위해 Volcano plot을 자동으로 반환하는 함수 - Taxonomy plot에서 Top n개를 뽑으면 Phylum별로 색을 자동으로 배분해 주어서 그려주는 함수(Rcolorbrewer사용) 간단해 보이지만 생각보다 함수를 만드는 것에는 여러 제약 조건이 있었다. 각 함수마다 원하는 변수의 종류가 ""가 붙었는지 안붙었는지에 따라 결과도 다르고(dplyr::arrange ↔ dplyr::ar..
⬛ ggplot2 R의 시각화의 시야를 넓혀준 확장성 좋은 패키지 ggplot은 같이 사용되는 여러 패키지가 많다. 물로 ggplot하나로도 모든걸 할 수있지만, 좀더 짧고 편리한 코드를 위해 추가되는 패키지들을 알아보자 ⬛ 1. ggpurb - 논문을 위한 시각화 통계 계산 패키지 - 실제 시각화에서는 많이 쓴다 아니 매일쓴다 - 장) 그만큼 깔끔하고 간편하고 예술적이다 - 단) 없다 install.packages("ggpubr") library("ggpubr") data("ToothGrowth") ToothGrowth p1
for 문을 이용해 여러 이름을 가진 변수에 내용을 할당하고 싶었다. chatgpt로 물어보니 아주 명확하게 답해준다. | 질문 I want to Create multiple variables using the for function. show me example R code. | 답 Sure, here's an example code in R that uses the for loop to create multiple variables: # Create a vector of numbers numbers
- 작성 시작 : 2023-01-17 - 작성 완료 : 2023-02-28 논문에서는 독창성이 가장 가치가 높은 가치로 꼽히지만, 그러한 내용을 설명하는 그림자료도에도 신경을 써야 한다. 마이크로바이옴 분야에서 흔하게 사용되는 figure는 alpha diversity, beta divertsity, Taxonomy composition이 있다. 그 중 Taxonomy composition은 각 샘플에서 어떤 taxa가 상대적인 분포를 갖는지 보여주는 그림이다. 이 글에서는 phyloseq 예제 데이터인 GlobalPatterns을 사용해서 시각화 방법 3가지를 소개한다. 🟦 1. 수동으로 RColorBrewer색 지정 - Phyloseq 객채 : GlobalPatterns - 내가 기존에 사용하던 방법..
김해김씨99대손
'분류 전체보기' 카테고리의 글 목록 (18 Page)