Problem Given: fasta 형식으로 이루어진 대략 1000 길이의 DNA 서열과, 서열의 intron 서열 Return: S의 exon부분이 전사 된 단백질 서열 Sample Dataset >Rosalind_10 ATGGTCTACATAGCTGACAAACAGCACGTAGCAATCGGTCGAATCTCGAGAGGCATATGGTCACATGATCGGTCGAGCGTGTTTCAAAGTTTGCGCCTAG >Rosalind_12 ATCGGTCGAA >Rosalind_15 ATCGGTCGAGCGTGT Sample Output MVYIADKQHVASREAYGHMFKVCA 예제 데이터 풀이 1. RNA서열에서 Intron 서열을 제외한다. 2. 남은 Exon서열을 protein으로 번역한다. 풀이 ## 1. 파일 ..
Bioinformatics/Rosalind
Rearrangements Power Large-Scale Genomic Changes 개놈의 재배열은 이후 표현형에 치명적이거나 심각한 손상을 입힌다. 특히 유사한 DNA구간(한 염색체 내) 간의 재배열을 많이 볼 수 있다. 이때 각 유전체 블록들이 재배열 될 수 있는 경우를 구하기 위해 순열을 이용할 수 있다. Problem Given : 7 이하의 양의 정수 output : n 길이를 가진 순열(순서는 중요하지 않음) 예제 데이터와 결과 Sample Dataset 3 Samplpe output 6 # 순열의 개수 : n 1 2 3 # 순열 예시 (순서는 상관없음) 1 3 2 2 1 3 2 3 1 3 1 2 3 2 1 - 3*2*1 = 6 - 만약 n = 7이라면, length는 7*6*5*4*3*2..
풀이 날짜 : 2023-08-09(Python) 더보기 Pitfalls of Reversing Translation 연구자가 새로운 단백질을 발견할 때, 그들은 단백질에서 번역되어진 mRNA 서열을 추론한다. 이는 게놈에서 이 단백질과 관련된 위치한 유전자를 알아낼 수 있기 때문이다. 불행하게도, 어떠한 RNA 서열은 특별한 단백질 서열로 번역될 수 있지만, 그 반대 과정을 알아내려면 많은 그럼직한 RNA 서열을 유추해야 한다. 이는 하나의 단백질을 코딩하는데에 있어서 여러 RNA codon이 사용되기 때문이다. 일부 파이썬 버전에서는 int의 범위가 크지 않아서, 숫자를 저장하지 않고 조작하는 시스템을 고안해야 한다. | Problem 모듈러 함수란? 8시에서 4시간이 지나면 2시로 표현하듯이, 각 값..
풀이 날짜 : 2023-06-19(R)/ 2023-07-05(python) | 문제 consensus 서열이란 여러 리드에서 제일 빈도수가 많은 염기가 표기된 서열이다. 이는 시퀀싱 단계에서 일어날 수 있는 에러를 보정하기 위한 방법으로, 가장 빈도수가 높은 염기를 그 자리의 consensus 서열로 지정한다. | 데이터와 결과 Sample Dataset >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCATT >Rosalind_7 ATGGCACT Sample Output ATGCAACT A: 5 1 0 0 5 5 0 0 C: 0 0 1 ..
2023.06.07 R풀이 추가 더보기 Wascally Wabbits 1202년, 피보나치로 알려진 피사의 레오나르도가 Liber Abaci책을 출간하면서 번식에 대한 문제를 담았다. 토끼 번식에 대한 가정은 아래와 같다. 인구는 1월 1일 한 쌍의 신생아 토끼에서 시작한다. 한 달이 지나면 생식 연령에 도달한다. 특정 달에는 모든 토끼는 생식 연령의 다른 토끼와 짝을 이룬다. 정확히 두 토끼의 짝짓기 한달 후, 암컷과 수컷 토끼 총 한 쌍을 낳는다. 토끼는 죽거나 번식을 멈추지 않는다. Fn은 각 달에 총 토끼 짝의 수라고 했을 때, F3 = F2 + F1 = 2 + 1 = 3이다 Fibonacci's exercise은 1년이 지난 후 몇 쌍의 토끼가 남는지에 대한 계산을 했다. 1년 후 개체수는 14..
더보기 The Need for Averages 평균은 어디에나 있다. 스포츠에서, 우리는 팀이 승리할 것이라고 예상되는 수를 예측하려고 한다. 도박에서는, 우리는 블랙잭을 게임하면서 평균 실점을 예측하려고 한다. 비즈니스에서, 회사는 다음 분기의 평균 매출을 계산하려고 한다. 분자 생물학에서도 평균은 필요하다. 연구자는 평균적인 항생제 저항 병원균의 수를 예측하며, motif에 일치할 것이라고 예측되는 위치의 수를 추정하고, 인구 전체에 대한 대립 유전자 분포에 대한 평균을 연구한다. 이 문제에 대해서, 우리는 마지막 대립유전자 분포에 대해 논의해야 한다. 문제 1과 n사이의 정수값을 가지는 X 확률변수(random variable)에서, X의 기댓값(expected value )은 아래 그림과 같다. ..
우열의 법칙 : 제1대 잡종에서 대립형질중에 우성형질만 나타난다. 문제 멘델의 법칙이란 다들 알고 있으니 설명은 건너뛰고 문제 풀이부터 가겠다 일단 문제는 BB, Bb가 몇의 확률로 나타날 수 있다는 것이다 Sample Dataset 주어지는 sample데이터는 아래와 같다 2 2 2 Sample Output 0.78333 Input data의 첫 자리는 k, 가운데는 m, 마지막은 n 형의 개체군의 각 수를 뜻하는데, k는 homozygous dominant(BB), m은 heterozygous(Bb), n은 homozygous recessive(bb)를 말한다 즉 2 2 2 는 k, m, n의 유전자형을 가진 개체가 2 마리씩 존재한다. 이 개체군에서 dominant allele(BB, Bb) 즉 우..
이전 문제 : Translating RNA into Protein 단백질 질량 측정에 관하여 amino acid(이하 'aa')는 peptide결합으로 인해 H2O를 잃어버린다. H2O를 잃어버리면서 결합되어있는 상태의 aa를 단백질의 residue(잔기)라고 부른다. 각각의 원자의 무게를 더하여 잔기의 무게를 제는 방법은 두 가지의 표준 방식이 있다. 1) 당일 동위원소(monoisotopic) mass 단순한 평균 질량이 아니라 동위원소(Isotope) 중에 가장 많은 비율을 차지하는 동위원소의 무게를 말함. 아래 그림처럼 무게를 측정했을때 가장 큰 피크를 그린 동위원소의 무게를 사용 2) average mass : 동위원소들의 평균 질량을 말한다 원소의 무게를 구하기 위해 가장 많이 사용하는 것은 ..
Problem DNA서열 "AGCTATAG"의 GC비율을 37.5%= 3/8*100 가장 높은 GC-콘텐츠를 가진 문자열의 ID와 그 문자열의 GC-콘텐츠를 반환합니다 Sample Dataset >Rosalind_6404 nCCTGCGGAAGATCGGCACTAGAATAGCCAGAACCGTTTCTCTGAGGCTTCCGGCCTTCCCTCCCACTAATAATTCTGAGG >Rosalind_5959 CCATCGGTAGCGCATCCTTAGTCCAATTAAGTCCCTATCCAGGCGCTCCGCCGAAGGTCTATATCCATTTGTCAGCAGACACG >Rosalind_0808 CCACCCTCGTGGTATGGCTAGGCATTCAGGAACCGGAGAACGCTTCAGACCAGCCCGGACTGGGAACCTGCGGGCAGT..
Problem The 20 commonly occurring amino acids are abbreviated by using 20 letters from the English alphabet (all letters except for B, J, O, U, X, and Z). Protein strings are constructed from these 20 symbols. Henceforth, the term genetic string will incorporate protein strings along with DNA strings and RNA strings. The RNA codon table dictates the details regarding the encoding of specific cod..
2023.06.07 R풀이 추가 | Problem 두 개의 서열을 준다 나머지 서열 하나가 그보다 더 긴 서열에 매치가 되면, 그 매치된 자리의 위치를 출력하다(순서는 왼 -> 오) | 예제데이터와 결과 Sample Dataset GATATATGCATATACTT ATAT Sample Output 2 4 10 | Python with open('rosalind_subs.txt', 'r') as f : s = f.readline() t = f.readline() t_num = len(t) tt = t[0:t_num-1] # '\n' 제거 for i in range(len(s)) : if s[i:i+t_num-1] == tt : print(i+1,end=" ") 추천수 많이 받은 답 by Leandro Lim..
2023.06.07 R 풀이 추가 https://rosalind.info/problems/hamm/ (이 전의 문제를 풀어야만 풀이가 가능합니다) | Problem 같은 길이의 두 DNA 서열이 주어질때 각기 서로 다른서열의 자릿수는 어떠한가? | 예제 데이터와 결과 Sample Dataset GAGCCTACTAACGGGAT CATCGTAATGACGGCCT Samplpe output 7 | Python 내 풀이 with open('rosalind_hamm.txt', 'r') as f : s = f.readline() t = f.readline() count = 0 for i in range(len(s)) : if s[i] != t[i] : count += 1 print(count) 추천 많이 받은 풀이 ..