[Linux] fastq 파일 read 수 확인하기

2023. 7. 3. 14:29· Bioinformatics/Sequencing data
목차
  1. 1. 리눅스에서 바로 확인하기
  2. 2. Seqkit을 사용하기

 

1. 리눅스에서 바로 확인하기

for i in ./*.fastq.gz; do     echo "${i}: $(echo "scale=0; $(zcat "${i}" | wc -l)/4" | bc)" ; done >>counts.txt

 

출력물 ↓

 

./001AcCUSw_trim_1.fastq.gz: 58358
./001AcCUSw_trim_2.fastq.gz: 58358
./001AcLUSw_3_trim_1.fastq.gz: 57066
./001AcLUSw_3_trim_2.fastq.gz: 57066
./001AcLUSw_4_trim_1.fastq.gz: 59239
./001AcLUSw_4_trim_2.fastq.gz: 59239
./001AcRUSw_1_trim_1.fastq.gz: 61334
./001AcRUSw_1_trim_2.fastq.gz: 61334
./001AcRUSw_2_trim_1.fastq.gz: 52160
./001AcRUSw_2_trim_2.fastq.gz: 52160

 

2. Seqkit을 사용하기

conda install -c bioconda seqkit

seqkit stats  *.fastq.gz
# 결과물을 stats.tsv로 저장하고 싶다면 
seqkit stats -To stats.tsv *.fastq.gz

 

출력물↓

 

file    format  type    num_seqs    sum_len min_len avg_len max_len
PHB_Rep1_R1.fastq.gz    FASTQ   RNA 118571  11857100    100 100.0   100
PHB_Rep1_R2.fastq.gz    FASTQ   RNA 118571  11857100    100 100.0   100
PHB_Rep2_R1.fastq.gz    FASTQ   RNA 144826  14482600    100 100.0   100
PHB_Rep2_R2.fastq.gz    FASTQ   RNA 144826  14482600    100 100.0   100
PHB_Rep3_R1.fastq.gz    FASTQ   RNA 129786  12978600    100 100.0   100
PHB_Rep3_R2.fastq.gz    FASTQ   RNA 129786  12978600    100 100.0   100
PUH_Rep1_R1.fastq.gz    FASTQ   RNA 227392  22739200    100 100.0   100
PUH_Rep1_R2.fastq.gz    FASTQ   RNA 227392  22739200    100 100.0   100
PUH_Rep2_R1.fastq.gz    FASTQ   RNA 162373  16237300    100 100.0   100
PUH_Rep2_R2.fastq.gz    FASTQ   RNA 162373  16237300    100 100.0   100
PUH_Rep3_R1.fastq.gz    FASTQ   RNA 185442  18544200    100 100.0   100
PUH_Rep3_R2.fastq.gz    FASTQ   RNA 185442  18544200    100 100.0   100

 

 

 

| 참고

- https://bioinformatics.stackexchange.com/questions/20509/how-to-get-a-file-with-the-number-of-reads-for-several-fastq-gz-files

- https://www.biostars.org/p/139006/

 

반응형
저작자표시 비영리 (새창열림)
  1. 1. 리눅스에서 바로 확인하기
  2. 2. Seqkit을 사용하기
'Bioinformatics/Sequencing data' 카테고리의 다른 글
  • [NGS] 04. Long read seuqencing: single molecule real-time(SMRT), nanopore (3세대)
  • [NGS] 03. 초기 NGS platform 기술: Pyrosequencing, Sequencing by ligation, Semiconductor sequencing (2세대)
  • [R] FASTA파일을 data.frame으로 저장하는 방법
  • [NGS data] Cutadapt와 Trimmomatic로 adapter 잘라내기
김해김씨99대손
김해김씨99대손
kim.soyeon.bio@gmail.com 오류수정, 피드백, 질문 메일 언제든지 환영합니다!
김해김씨99대손
Bioinfo_newbie
김해김씨99대손

블로그 메뉴

  • 블로그홈
  • Github
  • 글쓰기
  • 설정
  • 분류 전체보기 (361) N
    • 자기소개 (1)
    • Bioinformatics (213) N
      • Sequencing data (24)
      • Taxonomy (12)
      • Metagenome (5)
      • Microbiome (5)
      • └ Qiime2 (13)
      • └ Dada2 (8)
      • └ R for microbiome (39)
      • └ 기타 (28)
      • Biopython (2)
      • 생물정보학 교육 (11)
      • Rosalind (18)
      • Article (25)
      • 기타 (20) N
      • 채용 공고 (3)
    • Statistics (0)
    • Machine Learning (2)
    • Biology (16)
    • Big data (4)
      • 기타 (4)
    • Programming (2)
      • Python (2)
      • R (46)
      • R_Package function (2)
      • My R package (1)
      • Linux (7)
    • Database (2)
    • Management (0)
    • 대학원 (29)
      • 스크랩 (10)
    • 일상 (14)
      • Big picture (2)
      • 다이어리 (10)
    • 기타 (9)

공지사항

인기 글

최근 댓글

전체
오늘
어제
hELLO · Designed By 정상우.v4.2.2
김해김씨99대손
[Linux] fastq 파일 read 수 확인하기
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.