대부분의 생물정보학 프로그램은 Linux를 기반으로 사용된다. Linux 상에서 프로그램의 배포 및 업데이트가 편하기 때문이다. 그러나 Linux가 어려운 사람들을 위해 Window기반의 프로그램들도 출시되고 있다. 일부는 마우스로 사용가능한 프로그램으로 출시되고, 일부는 Linux와 비슷하게 Window의 command line을 기반으로 사용 가능하다.
이 중에 Cutadapt의 window버전은 pip를 사용해서 설치 가능하며, python으로 구동된다.
| 준비물
- Anaconda 혹은 Minoconda
- Python 최근 버전(3.7)
| Cutadapt 설치
pip를 사용한 설치
py -m pip install cutadapt
버전 확인
py -m cutadapt --version
가장 최신 버전인 4.4가 설치되었다.
Window 버전은 Linux에서 사용하는 것과 다르게 cutadapt를 명령어로 쓰는게 아니라 py -m cutadapt 를 기본 명령어로 사용한다.
| 예시
- dada2의 ITS pipeline 예제에 사용되는 ENA_project의 파일을 예시 파일로 사용해보겠다.
- 이 서열은 Fungus의 ITS1을 타겟으로 하였으며, 일루미나 시퀀서를 사용한 paries-end 서열이다.
- 프라이머 서열은 아래와 같다.
FWD <- "ACCTGCGGARGGATCA"
REV <- "GAGATCCRTTGYTRAAAGTT"
아래 스크립트를 통해 Cutadapt가 가능하다.
py -m cutadapt \
-g ACCTGCGGARGGATCA -a AACTTTYARCAAYGGATCTC \# forward_read_adater_trimming
-G GAGATCCRTTGYTRAAAGTT -A TGATCCYTCCGCAGGT \# reverse_read_adater_trimming
-o SRR5314314\SRR5314314_1_trim.fastq.gz \# output_forward
-p SRR5314314\SRR5314314_2_trim.fastq.gz \# output_reverse
-n 2 \#
SRR5314314\SRR5314314_1.fastq.gz \# Input_forward
SRR5314314\SRR5314314_2.fastq.gz # Input_reverse
결과 출력물
This is cutadapt 4.4 with Python 3.11.3
Command line parameters: -g ACCTGCGGARGGATCA -a AACTTTYARCAAYGGATCTC -G GAGATCCRTTGYTRAAAGTT -A TGATCCYTCCGCAGGT -o SRR5314314\SRR5314314_1_trim.fastq.gz -p SRR5314314\SRR5314314_2_trim.fastq.gz -n 2 SRR5314314\SRR5314314_1.fastq.gz SRR5314314\SRR5314314_2.fastq.gz
Processing paired-end reads on 1 core ...
Done 00:00:00 7,285 reads @ 22.0 µs/read; 2.72 M reads/minute
Finished in 0.165 s (22.710 µs/read; 2.64 M reads/minute).
=== Summary ===
Total read pairs processed: 7,285
Read 1 with adapter: 4,390 (60.3%)
Read 2 with adapter: 4,369 (60.0%)
Pairs written (passing filters): 7,285 (100.0%)
Total basepairs processed: 2,465,982 bp
Read 1: 1,230,680 bp
Read 2: 1,235,302 bp
Total written (filtered): 2,150,591 bp (87.2%)
Read 1: 1,071,959 bp
Read 2: 1,078,632 bp
=== First read: Adapter 1 ===
Sequence: ACCTGCGGARGGATCA; Type: regular 5'; Length: 16; Trimmed: 4388 times
Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-16 bp: 1
Overview of removed sequences
length count expect max.err error counts
15 17 0.0 1 2 15
16 4359 0.0 1 4210 149
17 12 0.0 1 4 8
=== First read: Adapter 2 ===
Sequence: AACTTTYARCAAYGGATCTC; Type: regular 3'; Length: 20; Trimmed: 4254 times
Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-19 bp: 1; 20 bp: 2
Bases preceding removed adapters:
A: 98.6%
C: 0.7%
G: 0.0%
T: 0.7%
none/other: 0.0%
WARNING:
The adapter is preceded by 'A' extremely often.
The provided adapter sequence could be incomplete at its 5' end.
Ignore this warning when trimming primers.
Overview of removed sequences
length count expect max.err error counts
3 1 113.8 0 1
17 6 0.0 1 6
18 1 0.0 1 0 1
19 39 0.0 1 6 29 4
20 3931 0.0 2 3472 358 101
21 11 0.0 2 1 10
24 4 0.0 2 3 0 1
25 1 0.0 2 1
32 4 0.0 2 2 0 2
33 150 0.0 2 72 54 24
34 106 0.0 2 39 43 24
=== Second read: Adapter 3 ===
Sequence: GAGATCCRTTGYTRAAAGTT; Type: regular 5'; Length: 20; Trimmed: 4362 times
Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-19 bp: 1; 20 bp: 2
Overview of removed sequences
length count expect max.err error counts
3 4 113.8 0 4
18 1 0.0 1 0 1
19 45 0.0 1 6 39
20 4294 0.0 2 4199 85 10
21 16 0.0 2 0 16
24 2 0.0 2 1 1
=== Second read: Adapter 4 ===
Sequence: TGATCCYTCCGCAGGT; Type: regular 3'; Length: 16; Trimmed: 4165 times
Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-16 bp: 1
Bases preceding removed adapters:
A: 99.6%
C: 0.2%
G: 0.1%
T: 0.0%
none/other: 0.0%
WARNING:
The adapter is preceded by 'A' extremely often.
The provided adapter sequence could be incomplete at its 5' end.
Ignore this warning when trimming primers.
Overview of removed sequences
length count expect max.err error counts
3 2 113.8 0 2
4 1 28.5 0 1
14 6 0.0 1 6
15 12 0.0 1 2 10
16 3914 0.0 1 3601 313
17 11 0.0 1 4 7
21 2 0.0 1 1 1
28 8 0.0 1 6 2
29 136 0.0 1 93 43
30 70 0.0 1 36 34
31 2 0.0 1 1 1
64 1 0.0 1 1
WARNING:
One or more of your adapter sequences may be incomplete.
Please see the detailed output above.
| 참고
- Cutadapt공식 홈페이지 : https://cutadapt.readthedocs.io/en/stable/installation.html
- 예시 파일(PRJNA377530) 출처 : https://www.ebi.ac.uk/ena/browser/view/PRJNA377530