Bioinformatics/Sequencing data

[Cutadapt] Cutadapt를 Window에서 사용해보자

김해김씨99대손 2023. 5. 2. 13:37

대부분의 생물정보학 프로그램은 Linux를 기반으로 사용된다. Linux 상에서 프로그램의 배포 및 업데이트가 편하기 때문이다. 그러나 Linux가 어려운 사람들을 위해 Window기반의 프로그램들도 출시되고 있다. 일부는 마우스로 사용가능한 프로그램으로 출시되고, 일부는 Linux와 비슷하게 Window의 command line을 기반으로 사용 가능하다. 

 

이 중에 Cutadapt의 window버전은 pip를 사용해서 설치 가능하며, python으로 구동된다.

 

| 준비물

- Anaconda 혹은 Minoconda

- Python 최근 버전(3.7) 

 

 

| Cutadapt 설치

pip를 사용한 설치

py -m pip install cutadapt

 

버전 확인 

py -m cutadapt --version

가장 최신 버전인 4.4가 설치되었다. 

Window 버전은 Linux에서 사용하는 것과 다르게 cutadapt를 명령어로 쓰는게 아니라 py -m cutadapt 를 기본 명령어로 사용한다.

 

| 예시

ena_files.zip
0.77MB

- dada2의 ITS pipeline 예제에 사용되는 ENA_project의 파일을 예시 파일로 사용해보겠다.

- 이 서열은 Fungus의 ITS1을 타겟으로 하였으며, 일루미나 시퀀서를 사용한 paries-end 서열이다. 

- 프라이머 서열은 아래와 같다.  

FWD <- "ACCTGCGGARGGATCA"  
REV <- "GAGATCCRTTGYTRAAAGTT"

 

아래 스크립트를 통해 Cutadapt가 가능하다. 

py -m cutadapt \
-g ACCTGCGGARGGATCA -a AACTTTYARCAAYGGATCTC  \# forward_read_adater_trimming
-G GAGATCCRTTGYTRAAAGTT -A TGATCCYTCCGCAGGT  \# reverse_read_adater_trimming
-o SRR5314314\SRR5314314_1_trim.fastq.gz \# output_forward
-p SRR5314314\SRR5314314_2_trim.fastq.gz \# output_reverse
-n 2   \# 
SRR5314314\SRR5314314_1.fastq.gz \# Input_forward
SRR5314314\SRR5314314_2.fastq.gz  # Input_reverse

 

 

결과 출력물

This is cutadapt 4.4 with Python 3.11.3
Command line parameters: -g ACCTGCGGARGGATCA -a AACTTTYARCAAYGGATCTC -G GAGATCCRTTGYTRAAAGTT -A TGATCCYTCCGCAGGT -o SRR5314314\SRR5314314_1_trim.fastq.gz -p SRR5314314\SRR5314314_2_trim.fastq.gz -n 2 SRR5314314\SRR5314314_1.fastq.gz SRR5314314\SRR5314314_2.fastq.gz
Processing paired-end reads on 1 core ...
Done           00:00:00         7,285 reads @  22.0 µs/read;   2.72 M reads/minute
Finished in 0.165 s (22.710 µs/read; 2.64 M reads/minute).

=== Summary ===

Total read pairs processed:              7,285
  Read 1 with adapter:                   4,390 (60.3%)
  Read 2 with adapter:                   4,369 (60.0%)
Pairs written (passing filters):         7,285 (100.0%)

Total basepairs processed:     2,465,982 bp
  Read 1:     1,230,680 bp
  Read 2:     1,235,302 bp
Total written (filtered):      2,150,591 bp (87.2%)
  Read 1:     1,071,959 bp
  Read 2:     1,078,632 bp

=== First read: Adapter 1 ===

Sequence: ACCTGCGGARGGATCA; Type: regular 5'; Length: 16; Trimmed: 4388 times

Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-16 bp: 1

Overview of removed sequences
length  count   expect  max.err error counts
15      17      0.0     1       2 15
16      4359    0.0     1       4210 149
17      12      0.0     1       4 8


=== First read: Adapter 2 ===

Sequence: AACTTTYARCAAYGGATCTC; Type: regular 3'; Length: 20; Trimmed: 4254 times

Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-19 bp: 1; 20 bp: 2

Bases preceding removed adapters:
  A: 98.6%
  C: 0.7%
  G: 0.0%
  T: 0.7%
  none/other: 0.0%
WARNING:
    The adapter is preceded by 'A' extremely often.
    The provided adapter sequence could be incomplete at its 5' end.
    Ignore this warning when trimming primers.

Overview of removed sequences
length  count   expect  max.err error counts
3       1       113.8   0       1
17      6       0.0     1       6
18      1       0.0     1       0 1
19      39      0.0     1       6 29 4
20      3931    0.0     2       3472 358 101
21      11      0.0     2       1 10
24      4       0.0     2       3 0 1
25      1       0.0     2       1
32      4       0.0     2       2 0 2
33      150     0.0     2       72 54 24
34      106     0.0     2       39 43 24


=== Second read: Adapter 3 ===

Sequence: GAGATCCRTTGYTRAAAGTT; Type: regular 5'; Length: 20; Trimmed: 4362 times

Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-19 bp: 1; 20 bp: 2

Overview of removed sequences
length  count   expect  max.err error counts
3       4       113.8   0       4
18      1       0.0     1       0 1
19      45      0.0     1       6 39
20      4294    0.0     2       4199 85 10
21      16      0.0     2       0 16
24      2       0.0     2       1 1


=== Second read: Adapter 4 ===

Sequence: TGATCCYTCCGCAGGT; Type: regular 3'; Length: 16; Trimmed: 4165 times

Minimum overlap: 3
No. of allowed errors:
1-9 bp: 0; 10-16 bp: 1

Bases preceding removed adapters:
  A: 99.6%
  C: 0.2%
  G: 0.1%
  T: 0.0%
  none/other: 0.0%
WARNING:
    The adapter is preceded by 'A' extremely often.
    The provided adapter sequence could be incomplete at its 5' end.
    Ignore this warning when trimming primers.

Overview of removed sequences
length  count   expect  max.err error counts
3       2       113.8   0       2
4       1       28.5    0       1
14      6       0.0     1       6
15      12      0.0     1       2 10
16      3914    0.0     1       3601 313
17      11      0.0     1       4 7
21      2       0.0     1       1 1
28      8       0.0     1       6 2
29      136     0.0     1       93 43
30      70      0.0     1       36 34
31      2       0.0     1       1 1
64      1       0.0     1       1


WARNING:
    One or more of your adapter sequences may be incomplete.
    Please see the detailed output above.

 

 

| 참고

- Cutadapt공식 홈페이지 : https://cutadapt.readthedocs.io/en/stable/installation.html

- 예시 파일(PRJNA377530) 출처 : https://www.ebi.ac.uk/ena/browser/view/PRJNA377530

반응형