유전자 서열을 볼 때 가끔 ACTGU를 제외한 글자가 등장하곤 한다. 이 서열들은 어떤 의미를 가지고 있을까?
| IUPAC 명명법
IUPAC란 국제 순수-응용화학 연합(International Union of Pure and Applied Chemistry)에서 지정한 화학물 명명법으로, 단백질 서열이나 유전자 서열도 위 명명법을 따른다.
| IUPAC protein
- 우리가 단백질을 알파벳으로 줄여 부르는 것도 이 IUPAC 명명법을 따른 표기이다
IUPAC amino acid code | Three letter code | Amino acid |
A | Ala | Alanine |
C | Cys | Cysteine |
D | Asp | Aspartic Acid |
E | Glu | Glutamic Acid |
F | Phe | Phenylalanine |
G | Gly | Glycine |
H | His | Histidine |
I | Ile | Isoleucine |
K | Lys | Lysine |
L | Leu | Leucine |
M | Met | Methionine |
N | Asn | Asparagine |
P | Pro | Proline |
Q | Gln | Glutamine |
R | Arg | Arginine |
S | Ser | Serine |
T | Thr | Threonine |
V | Val | Valine |
W | Trp | Tryptophan |
Y | Tyr | Tyrosine |
| IUPAC nucleotide 보기
IUPAC nucleotide code | Base |
A | Adenine |
C | Cytosine |
G | Guanine |
T (or U) | Thymine (or Uracil) |
R | A or G |
Y | C or T |
S | G or C |
W | A or T |
K | G or T |
M | A or C |
B | C or G or T |
D | A or G or T |
H | A or C or T |
V | A or C or G |
N | any base |
. or - | gap |
예를 들어 IUPAC명명법을 사용하여 시퀀싱 된 서열의 어뎁터를 잘라낼 때 사용되는 명령어는 아래와 같다.
qiime cutadapt trim-paired \
--i-demultiplexed-sequences 01.data/paired-end-demux.qza \
--p-front-f ^CTGAGCCAGGATCAAACTCT \
--p-front-r ^ACTYAAANGAATTGACGG \
--p-discard-untrimmed \
--o-trimmed-sequences 02.cutadapt/demux-trimmed.qza
여기서 --p-front-r을 보면 ACTYAAANGAATTGACGG에서 Y와 N을 볼 수 있다.
이는 시퀀싱의 오류를 감안하여 각 자리의 염기가 다른 염기로 바뀌는 것을 고려하여 설정한 값임을 알 수 있다.
- 출처 : https://www.bioinformatics.org/sms/iupac.html
반응형