跳至內容

FASTQ格式

出自Taiwan Tongues 台語維基
這是此頁批准,以及是最近的修訂。

FASTQ 格式是一種儲存生物序列(通常為核酸序列)佮其定序品質著分資訊的文字格式。序列佮品質得分攏由單的 ASCII 字元表示。

該格式上早是由維爾康姆基金會桑格研究所開發,旨咧將 FASTA 格式序列佮其品質資料整合做伙。佇目前,FASTQ 格式已經成做儲存高通量定序結果的事實標準。

格式

FASTQ 檔案中,一个序列通常由四行組成:

  • 第一途以 @ 一開頭,以後為序列的這个識別碼以及描述資訊(佮 FASTA 格式的描述行類似)
  • 第二行為序列資訊
  • 第三行以 + 一開頭,了後會當閣再加上序列的標識佮描述資訊(通選)
  • 第四行為品質著分的資訊,佮第二途的序列照對應,長度必須佮第二卷仝款以下為一个包含單利列的 FASTQ 檔案範例:

` ` ` @ SEQ _ ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !* ( ( ( (* + ) ) % % % + + ) ( % % % % ) . 一*-+ *) ) * * 五十五 CCF > > > > > > CCCCCCC 六十五 ` ` `

其中!為上低品質、~ 是上懸的品質。以下字元對倒到正代表對低到懸的品質得分的:

` ` ` ! " # $ % &'( ) * + ,-. / 一石兩千三百四十五五鋪六千七百八十九 : ; <=> ? @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\] ^ _ ` abcdefghijklmnopqrstuvwxyz { | } ~ ` ` `

字元佮對應的 ASCII 碼如下:


上蓋起頭的研究所的 FASTQ 格式允准序列佮品質資訊分做多行儲存。但是一般無推薦採用這種方式,就是因為第一、第三途開頭的 @ 佮 + 符號仝款也可能出現佇品質資訊內底,有可能會造成資訊提取的困難。

參見

  • FASTA 格式

參考文獻