Bioinformatics

Depth 하나의 뉴클래오티드 위치에 어떤 염기가 시퀀싱되어 나타나는 횟수를 말함 Coverage sequence read와 reference간의 얼마나 align되는지 말한다 위의 이미지처럼 6개의 read(총 188nt)가 달라 붙었을때 => coverage를 따질때 3가지 관점에서 볼 수 있다 1) whole genome관점 : 전체 112nt 중에서 188nt가 붙었으니 → 188/112 → 1.68 번 접혔다 2) mapping된 46nt 관점에서 : 188/46 → 4.09 fold () +) 추가적으로 6개의 read들이 CTGTGCAATTGCTGA를 공유하니 15/46 → 32.6%의 coverage at 6x depth라고 적을 수 있다 3) 한 염기 관점에서(G) : G가 6개의read..
Sequence Alignment 시퀀싱된 서열을 공통 부분을 찾아 정렬한것, 즉 더 긴 서열을 만들기 위해 조각조각 이어 붙인것이다 이래와 같이 총 3가지 방법이 있다 (a) 는 전체서열에 맞추어 alignment (c) 는 더 유사한 부분(좁은 부분)을 위주로 alignment한다 alignment software로는 ClustalW2와 BLAST등이 있다 Assignment taxanomy 우리가 가진 sequence와 reference database가 가진sequence과 각각의 taxanomy정보를 이용하여 내가가진 서열이 어떤 속, 종에 속하는지 동정하는것 Reference - https://en.wikipedia.org/wiki/Sequence_alignment - Ahmed, N., Lé..
Problem DNA서열 "AGCTATAG"의 GC비율을 37.5%= 3/8*100 가장 높은 GC-콘텐츠를 가진 문자열의 ID와 그 문자열의 GC-콘텐츠를 반환합니다 Sample Dataset >Rosalind_6404 nCCTGCGGAAGATCGGCACTAGAATAGCCAGAACCGTTTCTCTGAGGCTTCCGGCCTTCCCTCCCACTAATAATTCTGAGG >Rosalind_5959 CCATCGGTAGCGCATCCTTAGTCCAATTAAGTCCCTATCCAGGCGCTCCGCCGAAGGTCTATATCCATTTGTCAGCAGACACG >Rosalind_0808 CCACCCTCGTGGTATGGCTAGGCATTCAGGAACCGGAGAACGCTTCAGACCAGCCCGGACTGGGAACCTGCGGGCAGT..
수정: 2024.01.26 Merge란? - 일루미나 시퀀서의 결과물은 하나의 서열을 앞, 뒤로 읽어 paired-end 결과물을 생산한다. 이 서열을 중복되는 영역으로 합쳐서 온전한 하나의 서열을 만들어내는 과정을 merge라고 한다. - merge되지 전 read들을 forward, reverse read라고 하며, merge된 수의 서열도 read혹은 sequence라고 부른다. - long read 시퀀서를 사용할때는 위의 과정이 필요하지 않다. Assembly란? - Assembly는 merge된 혹은 merge되지 않은 하나의 read를 긴 서열로 병합해 과는 과정이다. - 1차적으로, read를 바탕으로 assembly를 진행 후 만들어진 더 긴 서열을 Contig 라고 한다. - 2차적으로..
23.04.25 수정 | WSL을 이용한 qiime2설치 영상 일단 위 유튜브를 기본으로 따라 했다그래도 오류가 나서 4번의 시도끝에 깔렸다 심지어 설치후 창을 껐다가 다시 키니까 conda명령어가 수행이 안됐다결국 우당탕탕 여차저차 설치완료 | 1. 준비윈도우 설정 바꾸기 1) Win+R -> "OptionalFeatures" 입력 및  확인2) Linux용 Windows 하위 시스템 , 가상머신 -> 체크박스 선택   우분투 다운로드 1) 마이크로소프트 앱스토어에서 WSL버전 ubuntu(22.04) 다운로드2) 설치 기다린 후 username, pw 입력3) ubuntu 업그레이드 sudo apt-get updatesudo apt-get upgrade  | 2. Miniconda 설치  Minico..
Problem The 20 commonly occurring amino acids are abbreviated by using 20 letters from the English alphabet (all letters except for B, J, O, U, X, and Z). Protein strings are constructed from these 20 symbols. Henceforth, the term genetic string will incorporate protein strings along with DNA strings and RNA strings. The RNA codon table dictates the details regarding the encoding of specific cod..
2023.06.07 R풀이 추가 | Problem 두 개의 서열을 준다 나머지 서열 하나가 그보다 더 긴 서열에 매치가 되면, 그 매치된 자리의 위치를 출력하다(순서는 왼 -> 오) | 예제데이터와 결과 Sample Dataset GATATATGCATATACTT ATAT Sample Output 2 4 10 | Python with open('rosalind_subs.txt', 'r') as f : s = f.readline() t = f.readline() t_num = len(t) tt = t[0:t_num-1] # '\n' 제거 for i in range(len(s)) : if s[i:i+t_num-1] == tt : print(i+1,end=" ") 추천수 많이 받은 답 by Leandro Lim..
2023.06.07 R 풀이 추가 https://rosalind.info/problems/hamm/ (이 전의 문제를 풀어야만 풀이가 가능합니다) | Problem 같은 길이의 두 DNA 서열이 주어질때 각기 서로 다른서열의 자릿수는 어떠한가? | 예제 데이터와 결과 Sample Dataset GAGCCTACTAACGGGAT CATCGTAATGACGGCCT Samplpe output 7 | Python 내 풀이 with open('rosalind_hamm.txt', 'r') as f : s = f.readline() t = f.readline() count = 0 for i in range(len(s)) : if s[i] != t[i] : count += 1 print(count) 추천 많이 받은 풀이 ..
2023.06.07 R풀이 추가 | Problem 약 1000여 개의 염기를 가진 DNA를 역상보 서열로 출력하여라 | 데이터와 결과 Sample datasets AAAACCCGGT Sample output ACCGGGTTTT | Python 내풀이 complement = {'A':'T', 'T':'A', 'G':'C', 'C':'G'} r_com = [] with open('rosalind_revc.txt', 'r') as f : sequence = f.readline().rstrip("\n") #dataset 파일의 마지막에 '\n' 이 있어서 실행오류가 남, 그것을 제거 for i in sequence[::-1] : r_com.append(complement[i]) print(''.join(r_co..
2023.06.07 : R풀이 추가 | Problem 약 1000여개의 염기를 가진 DNA서열에서 T를 U로 바꾼 후 출력 하여라 | 데이터와 결과 Sample datasets GATGGAACTTGACTACGTAAATT Sample output GAUGGAACUUGACUACGUAAAUU | Python 내 풀이 with open('rosalind_rna.txt','r') as f : DNA = f.readline() print(DNA.replace('T','U')) 추천수 높은것도 이러한 간단한 풀이여서 다른 풀이를 들고 옴 기발한 풀이 by Johnny673 with open('rosalind_rna.txt') as file: print "U".join(file.read().split("T")) | R..
2023.06.07 : R풀이 추가 | Problem 한 줄로 주어진 DNA서열에서 'A', 'C', 'G', 'T' 순으로 4개의 염기 숫자 세기 | 데이터와 결과 - Sample Dataset 'AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC' - Sample Output 20 12 17 21 | Python 내 풀이 element = ['A','C','G','T'] with open('rosalind_dna.txt','r') as f : DNA = f.readline() for i in element : print(DNA.count(i), end=' ') # end=' '가 자동 줄바꿈은 없에면서 출력시 띄어쓰기 가능하게..
- Problem : 약 10000에 달하는 글자의 배열 string 이 주어진다 -> string안에 space로 구분되는 각 단어의 수를 구하라. 각 단어는 대소문자가 구분되어 있음. - Sample Dataset We tried list and we tried dicts also we tried Zen - Sample Output and 1 We 1 tried 3 dicts 1 list 1 we 2 also 1 Zen 1 - 내 풀이 1_.count 사용 a = input() #띄어쓰기 단위로 잘라서 list로 저장 al = a.split(' ') #dictionary에 각 단어와 count를 추가 d = {} for i in al : d[i] = al.count(i) #마지막으로 출력 for i ..
김해김씨99대손
'Bioinformatics' 카테고리의 글 목록 (17 Page)