◼ 출처
- 2006 한국 생물 정보학 백서, 부록9 생물 정보학 관련 용어 및 정의 (생물학연구정보센터)
◼ 지필
- 생물학연구정보센터 소 장 : 김상욱
- 생물학연구정보센터 부소장 : 정동수
- 생물학연구정보센터 연구원 : 김수정, 박지민, 유숙희, 이강수 장영옥, 조점희, 최용주, 한건영
◼ 링크 : https://ibric.org/myboard/read.php?id=2337&Board=report
- 2006년 판이라 용어가 조금 다르거나, 오래된 프로그램 혹은 변동된 내용이 존재함. 그러나 매우 유익하다.
- 2006년 이후 최근판의 백서가 출간된적은 없다
- 출간되지 15년이 지났음으로, 새로운 판을 내주셨으면 간절히 바라는 중ㅠㅠ
- A -
Accession number (GenBank) – GenBank에 데이터를 등록했을 때 전체 염기서열 데이터에 정해지는 유일한 구분자. 일반적으로 하나의 문자와 5개의 숫자로 구성(혹은 2개의문자와 6개의 숫자) 되어 있다. 제출자가 요구하지 않는 한 번호는 바뀌지 않는다. 반면에 Version, GI, or ProteinID 와 같은 서열 구분자는 단지 서열 데이터에 할당된 구분번호이다. The accession number is the unique identifier assigned to the entire sequence record when the record is submitted to GenBank. The GenBank accession number is a combination of letters and numbers that are usually in the format of one letter followed by five digits (e.g., M12345) or two letters followed by six digits (e.g., AC123456). The accession number for a particular record will not change even if the author submits a request to change some of the information in the record. Take note that an accession number is a unique identifier for a complete sequence record, while a Sequence Identifier, such as a Version, GI, or ProteinID, is an identification number assigned just to the sequence data. The NCBI Entrez System is searchable by accession number using the Accession [ACCN] search field.
Accession number (RefSeq) – 완전한 RefSeq 서열 데이터에 대한 독특한 구분자이다. 구성은 2개의 문자, _, 6개의 문자로 구성된다. 앞의 두 문자는 아래에 있는 것처럼 서열의 종류를 나타낸다.(NT-genomic contigs, NM-m RNA, NP-단백질, NC-크로모좀). This accession number is the unique identification number for a complete RefSeq sequence record. RefSeq accession numbers are written in the following format: two letters followed by an underscore and six digits (e.g., NT_123456). The first two letters of the RefSeq accession number indicate the type of sequence included in the record as described below :
- NT_123456 constructed genomic contigs
- NM_123456 mRNAs (actually the cDNA sequences constructed from mRNA)
- NP_123456 proteins
- NC_123456 chromosomes
Algorithm – 컴퓨터에서 문제를 해결하기 위해 정해진 일련의 절차. BLAST는 NCBI에서 질의 서열의 optimal local alignments를 통해 염기서열을 검색하는데 사용하는 염기서열 비교 알고리듬이다. a fixed procedure embodied in a computer program. The Basic Local Alignment Search Tool or BLAST is a sequence comparison algorithm that NCBI uses to search sequence databases for optimal local alignments with a query sequence. FASTA is another type of algorithm used for database similarity searching.
Allele – 크로모좀 상에 똑같은 위치에 있는 유전자의 다른 형태, Different forms of a gene which occupy the same position on the chromosome.
Alpha helix – 단백질 2차 구조의 2가지 타입중의 하나. 알파 헬릭스는 아미노산의 카르복실기와 다음 아미노산의 아미노기 사이의 수소결합으로 만들어진 것으로 매우 단단한 헬릭스이다. one of two types of protein secondary structure. An alpha helix is a tight helix that results from the hydrogen bonding of the carboxyl (CO) group of one amino acid to the amino (NH) group of another amino acid.
Amino acid – 일반적인 형태, H3N-CHR-COO- 의 아미노카르복실 산. 단백질이나 펩타이드를 만드는데 사용되는 것으로 알파-탄소에 붙는 R그룹에 의해 20가지로 나누어진다. An a-amino carboxylic acid of the general form H3N-CHR-COO- . There are 20 common amino acids, defined by the R group on the alpha-carbon (A listing of common amino acids is available), that are used to build proteins and peptides.
Amplification - 동일한 DNA 조각을 반복적으로 만들어내는 과정. The process of repeatedly making copies of the same piece of DNA.
Annotation – 염기서열 데이터베이스에 포함된 바이오 염기서열에 관한 정보의 서지영역, Text fields of information about a biosequence which are added to a sequence databases. Annotation (the elucidation and description of biologically relevant features in the sequence) consists of the description of the following items:
- 단백질의 기능, Function(s) of the protein.
- 번역 후 수식, 예를 들면 당의 결합, 인산화, 아세틸화등 Post-translational modification(s). For example carbohydrates, phosphorylation, acetylation, GPI-anchor, etc.
- 도메인과 위치, 예를 들면 칼슘의 결합부위, ATP 결합부위, zinc fingers, homeobox, kringle 등이다. , Domains and sites. For example calcium binding regions, ATP-binding sites, zinc fingers, homeobox, kringle, etc.
- 2차 구조, Secondary structure.
- 4차 구조, Quaternary structure. For example homodimer, heterotrimer, etc.
- 다른 단백질들과의 유사성, Similarities to other proteins.
- 단백질의 결손과 관련된 질병, Disease(s) associated with deficiencie(s) in the protein.
- 염기서열 불일치, 변화등, Sequence conflicts, variants, etc.
Assembly – 크로모좀 내에 정확한 위치에 염기서열이 밝혀진 DNA 단편을 놓는 과정. The process of placing fragments of DNA that have been sequenced into their correct position within the chromosome.
Autoradiography – 목적으로 하는 분자내에 방사선 동위원소 라벨을 이용하여, 분자나 분자 단편을 찾아내는 방 법, 라벨 혹은 태그의 위치는 X-레이 필름을 사용하여 확인된다. The method of detecting molecules or molecular fragments which uses a radioactive label within the molecule of interest. The location of the radiolabel or "tag" is detected with X-ray film.
Autosomal – 성을 결정하는 크로모좀을 제외한 나머지 크로모좀의 위치. A position on any chromosome other than a sex determining chromosome. <-> sex chromosome ( = allosome, heterotypical chromosome, gonosome, heterochromosome)
- B -
Bacterial artificial chromosome (BAC) – 다른 종으로부터 100kb(혹은 이상) DNA 단편을 스플라이싱 하여 만들어진 긴 염기서열분석 벡터, 외래 DNA가 기주 박테리아에 클론 되면, 많은 새로운 크로모좀 복제물이 만들어 질 수 있다. A long sequencing vector which is created from a bacterial chromosome by splicing a DNA fragment of 100kb (or more) from another species. Once the foreign DNA has been cloned into the host bacteria, many copies of the new chromosome can be made.
Base – 그림1의 뉴우클레오타이드를 만들기 위해 당과 인산에 따라 결합해 있는 5개의 분자 중에 하나. DNA는 A, G, C, T로, RNA는 A, G, C, U로 만들어진다. One of five molecules which are assembled, along with a ribose and a phosphate, to form nucleotides (Figure 1). Adenine (A), guanine (G), cytosine (C), and thymine (T) are found in DNA while RNA is made from adenine (A), guanine (G), cytosine (C), and uracil (U).
Base pair (BP) – 수소 결합으로 가까이 짝지어진 DNA 반대편 가닥의 상보적인 염기. 이들 염기의 원자구조는 A 는 T, G는 C와 짝을 짓도록 이미 결정되어 있다. The complementary bases on opposite strands of DNA which are held together by hydrogen bonding. The atomic structure of these bases preselect the pairing of adenine with thymine and the pairing of guanine with cytosine (or uracil in RNA).
BEAUTY (BLAST Enhanced Alignment Utility) – 몇 가지의 이용자 데이터베이스를 검색하기 위해 BLAST 를 사용하고, 패밀리 정보, 보존 도메인 위치 그리고 BLAST query 결과와 직접적으로 관련된 도메인이나 주석된 위 치에 관한 정보를 추가한 것으로 Baylor College of Medicine에서 개발된 도구. A tool developed at Baylor College of Medicine (Worley et al. 1995) which uses BLAST to search several custom databases and incorporates sequence family information, location of conserved domains, and information about any annotated sites or domains directly into the BLAST query results.
Bioinformatics – 생물정보학에 관한 절대적인 정의는 없다. 그렇지만 첫번째 단계는 생물학적 염기서열의 수집, 구성, 인덱싱, 저장, 그리고 분석을 위한 방법의 디자인이나 활용이라고 정의할 수 있다. 생물정보학의 다음 단계는 이들 유전자나 단백질의 대사, 기능, 상호작용에 관한 정보의 개발이다. 생물정보학은 전산생물학이라고 언급되기도 한다. An absolute definition of bioinformatics has not been agreed upon. The first level, however, can be defined as the design and application of methods for the collection, organization, indexing, storage, and analysis of biological sequences (both nucleic acids [DNA and RNA] and proteins). The next stage of bioinformatics is the derivation of knowledge concerning the pathways, functions, and interactions of these genes (functional genomics) and proteins (proteomics). Bioinformatics is also referred to as computational biology.
BLAST - NCBI에서 개발된 바이오 염기서열 데이터베이스 검색을 위한 프로그램이다. BLAST의 다양한 버전이 있 다. 단백질 데이터베이스 검색을 위한 BLASTP, 뉴우클레오타이드 데이터베이스 검색을 위한 BLASTN, 단백질 염기 서열을 핵산 데이터베이스에서 모든 6가지의 번역프레임으로 번역하여 검색하는 TBLASTN, 그리고 모든 6가지 rea ding frames, gapped-BLAST, 그리고 psi-BLAST를 사용하여 질의 뉴우클레오타이드를 번역함으로써 단백질 데이 터베이스와 검색할 수 있는 BLASTX가 있다. BLAST는 갭을 사용한 Basic Local Alignment Search Tool. A program for searching biosequence databases best overall alignment를 계산하는 것이 아니라 전체적으로 유사한 부분을 찾아낸다. 이 프로그램은 염기서열 매칭을 +, -, 그리고 0 값을 주기 위해 scoring matrix를 사용한다. 만약 에 시작한 매칭스코어가 높으면 랭킹스코어가 떨어질 때 까지 검색이 양쪽 방향으로 확장된다. W hich was developed and is maintained by a group at the National Center for Biotechnology Information (NCBI). There are several versions of BLAST: BLASTP which searches a protein database, BLASTN to search a nucleotide database, TBLASTN which searches for a protein sequence in a nucleotide database by translating nucleotide sequences in all 6 reading frames, BLASTX which can search for a nucleotide sequence against a protein database by translating the query via all 6 reading frames, gapped-BLAST, and psi-BLAST. BLAST locates patches of regional similarity instead of calculating the best overall alignment using gaps. The program then uses a scoring matrix to rank these matches as positive, negative or zero. If the initial match is scored highly, the search is expanded in both directions until the ranking score falls off.
BLITZ – MP search algorithm를 사용한 EBI의 가장 빠른 단백질 데이터베이스 검색. EBI's ultra-fast protein database search which uses the MPsearch algorithm.
BLOCKS -단백질/펩타이드 패밀리의 ungapped multiple alignments의 데이터베이스. A database of ungapped multiple alignments for protein/peptide families in PROSITE.
Blotting (Blots) – 전기영동으로 분획한 후 분자교잡을 하기 위해 nitrocellulose paper와 같은 지지체에 핵산이 나 단백질을 전달하는 과정. Blot은 분석되어지는 물질에 따라 이름이 붙혀지는데, Southern Blot은 라벨된 DNA를 탐침으로 DNA를 분석하는 것을 말하고, Northern Blot은 라벨된 RNA나 DNA를 탐침으로 사용하여 RNA를 분석하 는 것이고, Western Blots은 라벨된 항체를 탐침으로 해당 항원(단백질)을 분석하는 것을 말한다. The process of transferring DNA, RNA, or proteins to a solid support (usually a sheet of nitrocellulose paper) for hybridization after it has been separated by electrophoresis. Blots are named according to the material that is analyzed. A Southern Blot examines DNA which has been cut with restriction enzymes and probed with radioactive DNA. The Northern Blot analyzes RNA which is probed with radioactive DNA or RNA. Western Blots examine proteins which are probed with radioactive or enzymatically-tagged antibodies.
- C -
Cell – 살아있는 가장 작은 기능구조체 단위, 세포는 핵막의 유무에 따라 진핵생물과 원핵생물로 구분된다. The smallest functional structural unit of living matter. Cells are classed as either procaryotic and eucaryotic. CentiMorgan (cM) – 유전형질 지도상에 거리와 재조합빈도의 측정단위. 공식적으로, 유전자들의 재조합이 1% 일어날 수 있는 가능성을 가진 길이(염기의 수). 사람의 경우, cM의 평균길이는 백만 베이스 페어이다. The unit of measurement for distance and recombinate frequency on a genetic map. Formally, the length (number of bases) that have a 1% probability of participating in mixing of genes. For humans, the average length of a cM is one million base pairs (or 1 megabase, Mb). cDNA (complementary DNA) – 역전사 효소를 사용하여, mRNA주형으로 합성되어진 인위적인 DNA 조각. 외 가닥 cDNA는 지놈의 물리적지도를 준비하는 과정에서 탐침으로 사용된다. cDNA는 인트론은 번역과정에서 제거되기 때문에 염기서열 분석에 주로 사용된다. An artificial piece of DNA that is synthesized from an mRNA (messenger RNA) template and is created using reverse transcriptase. The single stranded form of cDNA is frequently used as a probe in the preparation of a physical map of a genome. cDNA is preferred for sequence analysis because the introns found in DNA are removed in translation from DNA ----> mRNA ---- > cDNA.
CDS – 실질적으로 아미노산을 코드하는 3개의 염기(triplet codon)로 구성된 코딩 되어지는 염기서열 혹은 뉴우클 레오타이드 서열. The coding sequence or the portion of a nucleotide sequence that makes up the triplet codons that actually code for amino acids.
Chromosome – 지놈을 구성하는 DNA와 단백질의 집합체. 사람마다 23쌍의 크로모좀을 가지고 있고, 22개는 오 토좀이고 한 개가 성을 결정하는 크로모좀이다. 23쌍의 인간 크로모좀은 30억 염기결합으로 만들어져 있으며, 대략 35,000~45,000개의 유전자로 만들어져 있다. 진핵의 크로모좀은 DNA와 단백질의 복합체 세트이지만 원핵생물은 하나의 크로모좀이 둥근 모양을 하고 있다. A collection of DNA and protein which organizes the human genome. Each human cell contains 23 sets of chromosomes; 22 pairs of autosomes (non sex determining chromosomes) and one pair of sex determining chromosomes. The human genome within the 23 sets of chromosomes is made of approximately 35,000 to 45,000 genes which are built from over 3 billion base pairs. While eukaryotic chromosomes are complex sets of proteins and DNA, prokaryotic chromosomal DNA is circular with the entire genome on a single chromosome.
Cloning – DNA 조각의 복제품을 만들기 위해 사용되는 기술. 흥미있는 유전자를 가진 DNA 조각은 복제가 가능한 바이러스 지놈이나 플라스미드에 삽입되게 된다. The technique used to produce copies of a piece of DNA. A DNA fragment that contains a gene of interest is inserted into the genome of a virus or plasmid which is then allowed to replicate.
Cloning vector – 자가 복제가 가능하고, 외래유전자를 전달할 수 있는 DNA 단편. DNA가 발현하는 단백질이나 새로운 DNA를 대량으로 만들기 위해 외래 유전자를 전달하는데 사용되어진다. Vectors are used to introduce foreign DNA into host cells for the purpose of manufacturing large quantities of the new DNA or the protein that the DNA expresses.
CLUSTAL W - Thompson 에 의해 개발된 것으로 단백질이나 DNA의 다중정렬을 위한 프로그램. A general purpose program for multiple alignments of DNA and protein sequences developed by Thompson, et. al. in 1994.
Coding region – 순차적으로 단백질로 코드되기 위해 RNA로 전사되어지는 지놈의 부분. The portion of a genome that is transcripted to RNA which in turn codes protein (exon).
Codon – 단백질이 합성되는 동안 아미노산을 결정하는 3개의 뉴클레오타이드. 단백질 합성을 위해 3개의 뉴클레오 타이드의 가능한 조합은 64 가지가 가능하다. 각각의 아미노산은 최고 6개의 다른 triplet codes에 의해 만들어 질 수 있다. 3개의 triplet codes(UAA, UAG, UGA)는 단백질 합성의 종결을 의미한다. 아래 그림 2는 3개의 코돈을 보여주고 있다. The set of three nucleotides along a strand of mRNA that determine (or code) the amino acid placement during protein synthesis. The number of possible arrangements of these three nucleotides (or triplet codes) available for protein synthesis is (4 bases)3 = 64. Thus, each amino acid can be coded by up to 6 different triplet codes. Three triplet codes (UAA, UAG, UGA) specify the end of the protein. In the example below, three codons are shown.
Complementarity (상보성) – 2개 혹은 그 이상의 분자들이 함께 결합할 때 일어나는 서열 특이 혹은 구조 특이 인식. DNA는 두 가닥 나선형을 만드는데 이것은 각 가닥의 상보적인 방향성이 가닥을 서로 잡도록 수소결합의 형성을 촉진 시킨다. The sequence-specific or shape-specific recognition that occurs when two or more molecules bind together. DNA forms double stranded helixes because the complementary orientation of the bases in each strand facilitate the formation of the hydrogen bonds which hold the strands together.
Consensus sequence – 단백질이나 폴리뉴우클레오타이드의 정렬에서 가장 일반적으로 일어나는 아미노산이나 뉴우클레오타이드. The most commonly occurring amino acid or nucleotide at each position of an aligned series of proteins or polynucleotides.
Consensus map - 다중 정렬된 단백질이나 폴리뉴우클레오타이드에서 모두 일치되는 위치. The location of all consensus sequences in a series of multiply aligned proteins or polynucleotides.
Conservation (보존) – 아미노산의 치환이 일어나서나 원래의 물리화학적인 특성이 유지되었을 때. 예를 들면, 소수성 아 미노산 부위가 또 다른 소수성 아미노산으로 대체 되었을 때. When the substitution of one amino for another preserves the physico-chemistry properties of the original residue. For example, when a hydrophobic amino acid residue is replaced by another hydrophobic residue.
Conserved sequence – 종에 따라 일치되는 단백질이나 DNA 염기서열 혹은 진화기간동안 종 내부에서 변하지 않고 유지되어진 서열. A sequence within DNA or protein that is consistent across species or has remained unchanged within the species over its evolutionary period.
Contig maps – 클론중에 중복된 관계를 중심으로 하여 지놈(contigs)의 인접한 지역의 구조 표시. The representation of the structure of contiguous regions of the genome (contigs) by specifying overlap relationships among a set of clones.
Contigs – 인접한 지역의 염기서열을 겹쳐서 순서대로 정렬시킨 클로닝 벡터의 연속. 결과는 연속적인 모음이 지놈 의 인접부분을 제공한다. A series of cloning vectors which are ordered in such a way as to have each sequence overlap that of its neighbors. The result is that the assembly of the series provides a contiguous part of a genome.
CORBA - 객체 지향 기술의 표준화 및 보급 단체인 미국의 객체 관리 그룹(OMG)이 객체 서비스의 표준화를 추진 하고 있는데, 표준화가 완료된 객체 서비스 규격에 대해 공표하는 이름.
Cosmid – 대장균 내에서 자가복제 할 수 있도록 만든 클로닝 벡터. An artificial cloning vector (40-50kb of DNA) that can be replicated inside E. coli bacteria. Crossing over – 유사한 크로모좀 의 2개의 단편에서 상호 교환. The interchange of two pieces of homologous chromosomes.
- D -
Deoxyribose – DNAffm 만드는데 사용되는 되는 2번째 탄소에 하이드록실기가 없는 5탄당. A five carbon sugar lacking a hydroxyl group on position 2 (beta-d-2-deoxyribose) which is used in the construction of DNA
Diploid – 크로모좀 2개의 셋을 가진 세포. A cell containing two sets of chromosomes.
Display Options - 시각화 옵션 The following graphics of the small protein hen egg-white lysozyme illustrate the different display options available for viewing molecular structures in Protein Explorer. The cartoons, ribbons, and strands display options are useful for viewing protein secondary structure (alpha helices and beta pleated sheets).
Distance matrix - optimal pairwise alignment score의 결과를 나타내기 위해 사용되는 행렬. The method used to present the results of the calculation of an optimal pairwise alignment score. The matrix field (i,j) is the score assigned to the optimal alignment between two residues (up to a total of i by j residues) from the input sequences. Each entry is calculated from the top-left neighboring entries by way of a recursive equation.
Distance measure – 서열 사이의 거리가 짧으면 짧을수록 유사성이 크다. 예를 들면 루이신과 알라닌은 거리가 짧고 루이신과 아르기닌은 거리가 멀다. A function that associates a non-negative numeric value with a pair of biosequences. The shorter distance between the sequences (i.e., the lower the number), the greater the similarity. For example, the distance between leu and ala is small while the distance between leu and arg is large.
DNA (deoxyribonucleic acid) – Nucleotide가 모여서 이루어진 이중 나선형의 분자로서 유전정보의 본질인 물 질. 디옥시리보핵산(그림 4). DNA는 염기의 조합으로 생물마다 유전적 코드를 가지고 있다. 두 가닥의 DNA는 서로 반대 방향으로 염기 사이의 수소결합으로 만들어진다. A double stranded molecule made of a linear assembly of nucleotides (See Figure 4). DNA holds the genetic code for an organism in the arrangement of the bases. The double strand of DNA results from the hydrogen bonds formed between bases when two polynucleotide chains, identical, but running in opposite directions, associate
DNA polymerase – 외가닥의 DNA에 상보적인 염기를 넣어 이중 가닥의 DNA로 만들어주는 효소. 연결은 3’ hy droxyl에 인산의 hydroxyl의 뉴우클레오타이드를 제공함으로써 형성되어진다. The enzyme which assembles DNA into a double helix by adding complementary bases to a single strand of DNA. Linkages are formed by adding nucleotides at the 5' hydroxyl group to the phosphate group located on the 3' hydroxyl.
Domain – 기능을 가지고 독립적으로 접힐 수 있을 것이라 추정되는 단백질 부위. A discrete portion of a protein assumed to fold independently of the rest of the protein and possessing its own function
- E -
EBI – 유럽 생물정보학연구소는 EMBL 의 산하 조직이다 . The European Bioinformatics Institute (http://www.ebi.ac.uk) is a part of the EMBL.
Electrophoresis 전기영동 – 핵산이나 단백질(혹은 펩타이드)을 혼합물을 분리하는데 사용되는 일차적인 방법. 장비는 전 장이 걸리게 되는 아가로즈나 아크릴아마이드 젤로 채워진 플레이트로 구성된다. 용매가 플레이트에 따라 유입됨으 로써 혼합물 조성물이 크기에 따라 분리된다. 게다가, 플레이트에 따라 걸린 전기적인 charge는 구성물의 전체 char ge에 따라 핵산이나 단백질의 이동을 유발 시킨다. The primary method used to separate the mixture of nucleotide or peptide fragments generated from DNA or protein cleavage experiments. The apparatus consists of a plate, coated with either agarose or acrylamide gels, which is placed in an electric field. As the solvent is allowed to infuse up the length of the plate, the components of the mixture are separated by size. In addition, the electrical charge along the side of the plate forces migration of the DNA or protein fragments according to the net charge of the residues.
EMBL – 독일의 하이덴베르그에 위치한 유럽분자생물학연구소. The European Molecular Biology Laboratory (http://www.embl-heidelberg.de) which is located in Heidelberg Germany.
EMBL Nucleotide Sequence Database – 유럽의 일차염기서열 자원. DNA 나 RNA의 대부분의 소스는 개인 연구자, 지놈분석 프로젝트 그리고 특허제출자들에 의해 직접 제출 받은 것이다. 데이터베이스는 Genbank와 DDBJ 와 협력으로 만들어졌다. 3개의 그룹 각각은 전세계에서 발표된 모든 데이터를 모았으며, 그리고 모든 새로운 데이터 나 보충된 데이터 데이터베이스는 매일 서로 교환하고 있다. Europe's primary nucleotide sequence resource. Main sources for DNA and RNA sequences are direct submissions from individual researchers, genome sequencing projects and patent applications. The database is produced in collaboration with GenBank and the DNA Database of Japan (DDBJ). Each of the three groups collects a portion of the total sequence data reported worldwide, and all new and updated database entries are exchanged between the groups on a daily basis.
Endonuclease – 염기서열의 내부에 특정 위치를 자르는 효소. 효소가 작용하는 위치는 일반적으로 8개의 염기에 서 일어난다. 대장균의 경우, restriction endonuclease를 처리하면 70여 개의 조각이 만들어 지며, 사람의 경우 약 5만개의 단편이 만들어진다. An enzyme that cleaves at internal locations within a nucleotide sequence. The enzyme's site of action is generally a sequence of 8 bases. For E. coli, treatment with a restriction endonuclease will lead to around 70 fragments. Cleavage of human DNA leads to around 50,000 fragments.
Enzyme – 반응의 특성이나 방향은 영향을 주지않으며, 생화학반응을 촉매하는 단백질. A protein which catalyzes (or speeds the rate of reaction for) biochemical processes, but which does not alter the nature or direction of the reaction. Entrez – NIH 산하 NCBI에서 개발된 웹베이스 데이터베이스 검색 프로그램. A WWW-based database retrieval program created by the National Center for Biotechnology Information (NCBI), a division of the NIH.
EST (Expressed Sequence Tag) – 유전자의 위치를 결정하는데 사용되는 cDNA 단편. A partial sequence of a cDNA clone that can be used to identify sites in a gene.
Eukaryote – genomic DNA가 핵막으로 둘러싸여 있는 생명체.
E value - BLAST결과에서 E 값은 질의 서열을 가지고 데이터베이스를 검색할 때 우연히 나타날 수 있을 것으로 기대할 수 있는 히트 수를 나타내는 상수다. Expectation value로 불려지기도 한다. The Expect value (E) is a parameter that describes the number of hits one can "expect" to see just by chance when searching a database of a particular size. Also referred to as the expectation value.
Exon – 단백질을 코드하는 DNA 영역. 이들 영역은 일반적으로 DNA가닥에 흩어져 있으며, 전사하는 과정에서 분 리되어진 엑손이 연속적인 코딩영역을 만들기 위해 연결된다. The region of DNA which encodes proteins. These regions are usually found scattered throughout a given strand of DNA. During transcription of DNA to RNA, the separate exons are joined to form a continuous coding region.
Exonuclease – 선상의 DNA 말단에서 시작해서 뉴우클레오타이드를 제거하는 효소. An enzyme which cleaves nucleotides sequentially starting at the free end of the linear chain of DNA. (~clease 제거효소)
Expressed sequence tag or EST - 유전자의 위치를 결정하는데 사용되는 cDNA 단편. A partial sequence of a cDNA clone that can be used to identify sites in a gene.
- F -
FASTA – 1988년 Pearson과 Lipman에 의해 만들어진 단백질 서열 정렬프로그램. 이 프로그램은 염기서열 비교의 처리속도를 높이기 위해 개발된 많은 heuristic algorithms 중에 하나다. 기본적인 아이디어는 fast prescreen step 이 추가되었고, Smith-Waterman를 사용하여 local alignments로 확대 하였다. An alignment program for protein sequences created by Pearson and Lipman in 1988. The program is one of the many heuristic algorithms proposed to speed up sequence comparison. The basic idea is to add a fast prescreen step to locate the highly matching segments between two sequences, and then extend these matching segments to local alignments using more rigorous algorithms such as Smith-Waterman.
FASTA format - BLAST 혹은 clustal W와 같은 생물정보학 툴을 사용할 때 질의 데이터의 형식으로 사용된다. 첫번째 칼럼의 “>” 표시에 의해 서열 데이터가 구분된다. 모든 텍스트 라인은 80 characters보다 짧은 것이 좋으 며, 중간의 여백은 인정되지않는다. 예를 들면 다음과 같다. This format can be used as query input when searching bioinformatic tools such as BLAST or clustal W. The description line is distinguished from the sequence data by a greater-than (">") symbol in the first column. It is recommended that all lines of text be shorter than 80 characters in length. Blank lines are not allowed in the middle of FASTA input. An example of a protein sequence in FASTA format is:
>GI|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDT……………………………….
Fingerprinting – DNA 단편에서 겹쳐진 부위를 확인하는 과정. The process of identifying overlapping regions at the ends of DNA fragments.
FISH - In situ hybridization에서 형광. 크로모좀 상에 DNA 서열의 위치를 정확하게 알아내기위해 사용하는 방법 . Fluorescence in situ hybridization. A method used to pinpoint the location of a DNA sequence on a chromosome.
Frameshift – mRNA의 번역과정에서 뉴우클레오타이드의 삽입이나 결손으로 coding 되는 부위가 돌연변이가 일어나는 부위에서부터 reading frame이 이동을 말한다.
Functional genomics - Structural genomics에 의해 제공되어진 정보를 사용하여 유전자 기능을 밝혀내기 위한 실험적인 접근을 위한 개발 및 활용. The development and application of experimental approaches to assess gene function by making use of the information and reagents provided by structural genomics.
Gamete – 성적인 재생산을 위해 사용되어지는 특이한 세포(난자나 정자). The specialized cell (from either an egg or sperm) that is used for sexual reproduction.
- G -
Gap – 공간(Blank)이 다른 염기서열에 비해 삽입이나 결손을 보정하기 위해 이용된다. A space introduced into an alignment to compensate for insertions or deletions in one sequence relative to another
GenBank – NIH의 염기서열 데이터베이스. http://www.ncbi.nlm.nih.gov. The NIH genetic sequence database. An annotated collection of all publicly available DNA sequences which is located at http://www.ncbi.nlm.nih.gov. GenBank is part of the International Nucleotide Sequence Database Collaboration, which is comprised of the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis.
Gene – 유전형질을 결정하는 인자. 멘델의 법칙에서 기본개념으로 각 유전형질(단위형질)에 대응하여 상정되며, W .L.Johannsen이 멘델인자를 나타내는 단어로써 gene을 제안함 Gene expression – 유전자 DNA(DNA 상의 염기배열에서 기능을 가진 RNA로 전사되는 혹은 RNA에서 전사후에 아미노산으로 번역되는 부분)가 전사 혹은 전사, 번역되는 것.
Gene locus (pl. loci) – 크로모좀이나 크로모좀 마커상에서 유전자 위치: locus의 사용은 때때로 발현되는 DNA 영역으로 나타내는 것으로 한정되기도 한다. Gene's position on a chromosome or other chromosome marker; also, the DNA at that position. The use of locus is sometimes restricted to mean expressed DNA regions.
Gene name – 유전자를 정의하는 공식적인 이름 . HUGO Gene Nomenclature Committee에서 개발한 Guidelines for Human Gene Nomenclature에 따라 간결해야 하고, 유전자의 기능을 나타내어야 한다. Official name assigned to a gene. According to the Guidelines for Human Gene Nomenclature developed by the HUGO Gene Nomenclature Committee, it should be brief and describe the function of the gene.
Gene Ontology - Gene Ontology Consortium에 의해 개발된 것으로 분자기능, 대사, 혹은 세포내 성분(생물 전반)에 관한 용어에 대해 정의한 어휘. 연구자들이 세포내 단백질이나 유전자의기능을 설명할 때 일관된 용어를 사용할 수 있도록 해준다. A controlled vocabulary of terms relating to molecular function, biological process, or cellular components developed by the Gene Ontology Consortium. A controlled vocabulary allows scientists to use consistent terminology when describing the roles of genes and proteins in cells.
Genetic map (Linkage Map) – 크로모좀 상의 유전자들의 일련의 순서. 이것은 감수분열하는 동안 tagged ge netic segments (STSs)의 재조합을 관찰 함으로써 만들어진다. 지도는 서로서로 상대적으로 알려진 유전자나 마커의 위치를 알려주지만 크로모좀 상의 정확한 물리적인 위치를 보여주지는 못한다. 즉 유전자들간의 상대적인 위치 지도. The linear order of genes on a chromosome of a species. Genetic maps are created by observing the recombination of tagged genetic segments (STSs) during meiosis. The map shows the position of known genes and markers relative to each other, but does not show the specific physical points on the chromosomes.
Gene symbol – Gene ID, 인간유전자에 대한 심블은 유전자를 발견한 연구자에 의해 일반적으로 명명되어진다. 심블은 HU GO Gene Nomenclature Committee에서 개발한 Guidelines for Human Gene Nomenclature에 따라 만들어진 다. 유전자 심블들은 6개 이하의 앞쪽 글자나 앞쪽의 글자와 아라비아 숫자를 조합한 것으로 구성된다. Gene symb ol은 유전자 이름의 첫 문자를 가지고 시작해야 한다. 예를 들면 insulin은 INS이다. Gene symbol은 반드시 HUGO 에 제출해야 한다. Symbols for human genes are usually designated by scientists who discover the genes. The symbols are created using the Guidelines for Human Gene Nomenclature developed by the HUGO Gene Nomenclature Committee. Gene symbols usually consist of no more than six upper case letters or combination of uppercase letters and Arabic numbers. Gene symbols should start with the first letters of the gene name. For example, the gene symbol for insulin is "INS." A gene symbol must be submitted to HUGO for approval before it can be considered an official gene symbol.
Genetic mutation – 유전자의 구조, 기능, 서열의 변화를 초래하는 DNA 혹은 RNA 상의 변화. An inheritable alteration in DNA or RNA which results in a change in the structure, sequence, or function of a gene. Genetic polymorphism – 동일한 생물집단 내에 포함되는 정상적인 개체간에 불연속적인 유전적인 변이가 존재 하는 현상. 특정 집단에서 1% 혹은 그 이상이 동일한 locus에서 1개 혹은 그 이상 다른 대립유전자의 발생. The occurrence of one or more different alleles at the same locus in a one percent or greater of a specific population.
Genome – 생명체의 전체 유전물질(혹은 염색체 또는 유전자 전체). The total genetic material of a given organism.
Genomics – 생명체 지놈의 맵핑, 시컨싱 그리고 분석에 관한 학문. The mapping, sequencing, and analysis of an organism's genome.
Genotyping – 개인의 DNA 샘플에서 발견되는 유전적인 정보를 구성하고, 그리고 샘플 사이의 변화를 측정하기 위해 마커를 사용. The use of markers to organize the genetic information found in individual DNA samples and to measure the variation between such samples.
GI (GenBank) – GI는 핵산 서열이나 단백질 서열에 할당된 서열 구분자. A GI or "GenInfo Identifier" is a sequence identifier that can be assigned to a nucleotide sequence or protein translation. Each GI is a numeric value of one or more digits. The protein translation and the nucleotide sequence contained in the same record will each be assigned different GI numbers. Every time the sequence data for a particular record is changed, its version number increases and it receives a new GI. However, while each new version number is based upon the previous version number, a new GI for an altered sequence may be completely different from the previous GI. For example, in the GenBank record M12345, the original GI might be 7654321, but after a change in the sequence is submitted, the new GI for the changed sequence could be10529376. Individuals can search for nucleotide sequences and protein translations by GI using the UID search field in the NCBI sequence databases. Use NCBI's Sequence Revision History page to view the different gi numbers, version numbers, or update dates associated with a particular GenBank record.
Global alignment – 두 개의 핵산이나 아미노산 서열을 전체 길이에 따라 정렬시키는 것. When two nucleic acid or amino acid sequences are lined up along their entire length. See also local alignment
- H -
Haploid – 한 셋의 크로모좀 가진 세포(n). 감수분열 결과 만들어지는 정자와 난자가 이에 해당한다. A cell containing only one set of chromosomes.
HGSI (The Human Genome Sequencing Index) - NCBI에서 제공되는 것으로 HGSI 웹사이트를 통해 HG P에 참여하고 있는 연구소의 연구결과를 알려주는 서비스. A service provided by the NCBI to members of the international consortium to support coordination and tracking of the Human Genome Project (HGP). Sequence and mapping target data from centers participating in the international consortium are submitted via the HGSI web site. This web site also presents an overview of HGP progress to the research community in tabular and graphic displays of the target data.
Hidden Markov Models (HMM) – 단백질이나 유전자 집단에서 알려진 서열의 range를 분석함으로써 단백질 혹은 유전자 그룹으로 구분할 수 있는 독특한 특징을 찾아내는 알고리즘. 이 특징은 알려지지 않은 서열에서 비슷한 특성을 찾아내는데 사용된다. A computer algorithm which locates the essential, unique features which can distinguish a protein or gene family by analyzing a range of known sequences from the family. These features then are used to locate similar characteristics in unknown sequences.
Homology search – 핵산이나 단백질 데이터베이스 중에서 목적으로 하는 염기배열 혹은 아미노산 배열의 상동 배열을 검색하는 것. Homology modeling – 3차 구조가 알려지지 않은 단백질의 구조 모델을 개발하기 위해 3차 구조가 알려진 단백 질의 서열정보와 3차 기하학구조를 이용하는 것을 말한다. 먼저 3차 구조가 알려진 단백질과 비교해서 겹쳐지는(유 사한) 부위를 찾기 위해 검색과 정렬이 사용된다. 두 번째로 알려지지 않은 단백질에서 매우 유사한 부위에 대해 3 차 구조 기하학이 3차 구조를 모델링하기 위해 주형으로 사용된다. The use of 3-dimensional (3-D) geometry and sequence information from proteins of known 3-D structure to develop models for proteins whose 3-D structure is unknown. In the first step of homology modeling, search and alignment algorithms are used to find the best sequence overlap of the 'unknown' protein with the sequences of related proteins which have 3-D data. In the second step, the geometry of the 3-D structures is used as a template for generating a 3- D structural model for the regions of high sequence homology in the unknown protein (the conserved regions). Finally, the sections with low homology to known proteins (the variable regions) are modeled using a variety of computational techniques.
HUGO - The Human Genome Organization
Hybrides (or hybride molecular complexes) – 탐침 분자와 타깃 분자 사이의 상보적인 복합체 형성. 이복합체는 일반적으로 탐침 분자에 방사능으로 라벨되어 있어 복합체는 확인이 가능하고 더 실험을 진행할 수있다. 교잡 의 형태는 DNA-DNA, DNA-RNA, 그리고 Protein-Protein 등이 있다. The formation of a complementary complex between a probe molecule and a target molecule. This complex is generally tagged with a radioactive label on the probe molecule so that the complex can be located and isolated for further study. Hybrid molecular complexes of the type DNA-DNA, DNA-RNA, and Protein-Protein are frequently used in genetic analysis. Since hybridization reactions are specific, they can be used to locate one DNA, RNA, or protein molecule within complex mixtures of similar molecules. Hybridization – 상보적인 두 가닥의 형성(DNA/DNA, RNA/RNA, 혹은 DNA/RNA). The formation of a double stranded DNA, RNA, or DNA/RNA from two complementary oligonucleotide strands.
Hydrogen bond – 전기음성도가 큰 원자 X에 공유결합하고 있는 수소원자에 전기음성도가 큰 Y가 가까이 갈 때 생기며 X와 Y사이에 수소를 매개로 한 X-Y---Y형의 비공유 결합. 아래의 예는 사이토신과 구아닌 사이의 수소 결합 을 보여준다. The example below shows the hydrogen bonds formed between cytosine and guanine.