FASTA格式
佇生物資訊學中,FASTA 格式是一種用佇記錄核酸序列抑是假做固定列的文字格式,其中的核酸抑胺基酸均以單字母編碼呈現。該格式的同時允准佇序列進前定義名稱佮編寫注釋。這格式上原仔由 FASTA 軟體套件定義,但是這馬已經是生物資訊學領域的一項標準。
FASTA 簡明的格式降低了序列操縱和分析的難度,令序列被文字處理工具佮諸如 Python、Ruby 和 Perl 等手稿語言處理。
格式
FASTA 格式內底的一條完整序列,包含開頭的單行描述行佮多行序列資料。咧講行頭前對半形大過號(「 >」)以佮資料行區分。「>」後來接的內容為該序列的識別碼,該當賰的部份為序列描述(捌別碼佮描述攏無一定愛)。「>」佮識別碼之間無應該有空格,而且建議共單行內容限制佇咧八十字元以內。序列的結束以下一條序列的「>」出現做標識。如下為下 FASTA 評論區格式一條序列的範例:
頂例中,「 gi | 三千一百五十六捧三千五百一十八 | ref | NP \ _ 八十五孵兩千六百十一分 |」是序列的名稱。
歷史
原版 FASTA / Pearson 格式定義出現佇 FASTA 程式包的文件內底。可隨 FASTA 的任一免費版本下載(見 fasta 二十 . doc、fastaVN . doc 抑是 fastaVN . me,其中 VN 代表版本號)。
FASTA 格式內底的一條序列對多行文字組成,每一逝的字元數攏袂使超過一百二十字元,通常無推薦超過八十字元。這一限制可能佮軟體做單行顯示預分配固定大細記持體有關係:彼陣大部份的使用者攏使用 DEC VT(抑是按怎)終其尾,毋過這一終端單行支援顯示的字元數頂限佇咧八十到一百三十二个之間。大部份的人會將𪜶的終端組態做字號較大的八十字元模式,所以佇遮 FASTA 中逐行干焦包含八十字元抑是閣較少(通常七十字元)成做推薦的做法。此外,標準列印頁的一行闊度嘛佇咧七十到八十字元之間(攏著愛看字型)。
FASTA 檔案的首行以一个「>」(大於號)抑是「;」(分號,較無遐定著)起先,後者是一條注釋。毋過,後續以分號起先的各行煞會予軟體雄雄。因為軟體干焦會曉辨識頭一條注釋,早期會佇首行注釋中編寫序列挽欲(以唯一的圖書館登入號起先); 毋過綴時間徙位,現此時的常見做法是干焦使用「>」(包括首行), 無閣用任何「;」注釋(因為軟體會忽略後者)。
首行(用佇唯一描述序列)了後,是用單字母標準編碼表達的實際序列資料。有效編碼以外的任何字元(包括空格、制表符、星號等)攏會予人無注意著。佇咧結尾以「\ *」(星號)以示序列結束亦是古早的一種捷看見做法(佮 PIR 格式序列類似); 仝款因為如上原因,描述和序列之間往往猶會有空行。
如後為一寡序列檔案的樣例:
多序列 FASTA 檔案會當順序列 FASTA 檔案字串連接而成。這並無佮 FASTA 檔案要求首行會當「;」抑是「>」起先的格式相衝突,因為只要後壁所有序列攏以講「>」起去就會當予軟體看做無仝序列(並且推廣愛求序列定義行著愛使用「>」)。 所以乎,如此時的範例佇連接後即為合法的多序列檔案。
咧描述行
咧描述行(定義行)抑是標題行以「>」開始,真隨著序列的名稱佮 / 抑是唯一識別碼,除了這閣有包括其他的資訊。佇過時的做法內底,標題行有當時仔會當有一條以上的標題,並以 ^ A(Control-A)控制符分隔。
佇原版的 Pearson FASTA 格式中,以分號起頭的注釋會當佇標題行了後出現。但是一寡遵守 NCBI FASTA 規範的資料庫佮生物資訊軟體袂去辨識遮的注釋。如下為多序列 FASTA 檔案的範例:
序列表現
佇標題行佮注釋了後,是由一行或者是多行構成的序列資料,其中每行的長度應該短八十字箍。序列會當是卵白質序列抑是核酸序列,其中會當包含空白占位抑是比對用字元(見序列比對)。 序列應該標準的 IUB / IUPAC 胺基酸佮核酸編碼表達,除以下例外:允准小寫字母,並會予人轉做大寫字母;一字半形連字元會當表示一字空白字元;而且佇胺基酸序列內底,U 和 \ * 是合法字元(見下文)。 標準中無允准數字,但部份的資料庫使用數字來表示序列的位置。
支援的核酸編碼如下:
支援的卵白質序列編碼(二十五條胺基酸佮三條特殊編碼)如下:
序列識別碼
NCBI 標準定義矣標題行中序列唯一識別碼(SeqID)的格式。佇咧 Formatdb 彼个手冊頁內底有寫著:「 formatdb 會當自動解破 SeqID 並建立索引,猶毋過佇 FASTA 定義行中的資料庫識別碼必須遵守 FASTA 定義行格式的慣例。」
下表為 NCBI FASTA 定義行的格式(另見 " The NCBI Handbook " , Chapter 十六 , The BLAST Sequence Analysis Tool)。
頂頭的管道符(「 |」)並毋是巴科斯範式內底的分隔符,是格式本身的一部份。濟个識別碼會當連接,仝款使用管道符分隔。
壓縮
FASTA 檔案的壓縮需要特製的壓縮工具來處理檔案里所包含的兩部份的資訊:熟似別碼佮序列。為著閣較好的壓縮率,壓縮工具會將之分做兩條獨立的壓縮流處理。比如講使用上下文模型佮數學編碼進行無失真壓縮的 MFCompress 演算法。
副檔名
包含 FASTA 格式序列的文字檔案並無標準的副檔名。下表列出各種副檔名和其實義。
參見
- FASTA 搜揣
- FASTQ 格式
- 斯德哥爾摩格式
參考文獻
外部連結
- What is FASTA Format ? 啥物是 FASTA 格式 .
- HUPO-PSI Standard FASTA Format HUPO-PSI 發表的另外一種 FASTA 格式 .
- Sequence ID ( seqID ) Fields in the FASTA Deflines of Sequences from NCBI FASTA 定義行的格式 .