지금은 잘 사용하지 않는 pyrosequencing의 결과물 파일을 fastq파일로 변경해 보자.
간편하게 biopython에 있는 SeqIO의 PairedFastaQualIterator를 사용해 보자.
(코드출처: https://gist.github.com/necrolyte2/b45a82fb4ecb0ffd70ab#file-fastaqual_too_fastq-py-L1)
먼저. fna파일과 qual파일의 이름이 일치함으로, 현재 위치의 Unique 한 이름만 읽어서 실행해보고자 한다.
1. 위 출처에서 fasaqual_too_fastq.py를 다운받고 샘플 위치로 이동시키자.
2. 아래와 같이 FASTQ파일이 담길 위치를 만든다.
$ ll
drwxr-xr-x. 2 root root 196608 Jun 20 14:42 FASTA
-rwxr-xr-x. 1 root root 429 Jun 20 14:25 fastaqual_too_fastq.py
drwxr-xr-x. 2 root root 43 Jun 19 15:42 mapping_files
$ mkdir FASTQ
$ chmod +x fastaqual_too_fastq.py
3. .fna와 .qual파일이 존재하는 위치로 이동후, 아래 스크립트를 수행한다.
$ cd FASTA
$ for file in $(ls | sed -E 's/\.[^/.]+$//' | sort | uniq); do ../fastaqual_too_fastq.py \
./${file}.fna ./${file}.qual > ../FASTQ/${file}.fastq ; done
4. 확인하기
$ cd ../FASTQ
$ less sample.fastq
@GER4X9E02GLB5M length=24 xy=2586_1080 region=2 run=R_2010_03_30_10_33_35_
TCAGAAGGCACCGTCAATTCCTTGAGTCCATCTCATCCTGCTGCCTCCGTAGGCTGAGACTGCCAAGGCACACAGGGATAGGNN
+
IIGG====@974>@;44////88AA::44:@IHHE@>>AEIIIEB@66:A@88:BIGFIEBCCCEEIIIIIIE?:::CIIIC!!
@GER4X9E02GFCYF length=17 xy=2518_0709 region=2 run=R_2010_03_30_10_33_35_
TCAGAAGGCACCCGTCAATTCCTTGTAGTCCATCTCATCCCTCGCTGGCCTCCCGTAGGCTGAGACCTGCCAAAGGCACACAGGGGGATTAGGNNNNNNNNNNNNNNNNN
+
?==7....7/,,,44255----;;424632249>==><222<7=57----4,,,//455==::22--/4--,,,114:<55500001800004!!!!!!!!!!!!!!!!!
@GER4X9E02G951L length=24 xy=2869_0391 region=2 run=R_2010_03_30_10_33_35_
TCAGAAGGCACCGTCAATTCCTTGAGTCCATCTCATCCTGCTGCCTCCGTAGGCTGAGACTGCCAAGGCACACAGGGATAGGNN
+
IIGC;;99A@>>EE@772222<<HEA@<<@BIIIEB>>?GIIIEEEEEEA@==@@CA@BEA@<>9999CCEIIIEEFIIIHH!!
..
반응형