忍者ブログ
バイオインフォマティックス技術者試験、情報処理試験など、IT系の試験を基礎から勉強します。また、Javaなどプログラミングを勉強します。

【BI技術者認定試験対策】バイオデータの超基本!「FASTA形式」を攻略

バイオインフォマティクスで最も頻繁に扱うテキストデータ形式、それが「FASTA(ファスタ)」と「FASTQ(ファストキュー)」です。名前も見た目も似ているこの2つの決定的違いを整理しましょう。

1. 問題:データ形式の識別

【 問題 】 バイオインフォマティクスで使われるテキストフォーマットのうち、1行目が「 > 」(大なり記号)から始まり、2行目以降に塩基配列やアミノ酸配列の『文字列だけ』が記述される、最もシンプルな配列記述形式はどれでしょうか?

① FASTQ形式   ② SAM形式   ③ FASTA形式   ④ VCF形式

2. 正解:配列データフォーマットに関する正解

正解: ③ FASTA形式

3. 解説:「Q」があるかないか、それが問題だ

プログラムで処理する際、この2つのフォーマットを見分ける最大の特徴は「ヘッダーの記号」と「クオリティ(精度)情報の有無」です。

[ FASTA形式の例 ]
>seq1 Description of this sequence
ATGCGTACGTTAGC...
★ 特徴:ヘッダーが「>」で始まる。データは配列の文字(A, T, G, Cやアミノ酸)のみ。参照ゲノム(標準配列)などに使われる。

[ FASTQ形式の例 ]
@seq1
ATGCGTACGTTAGC
+
FKK7FIII9<F##D
★ 特徴:ヘッダーが「@」で始まる。配列のほかに、シークエンサーが読み取った各文字の「確からしさ」を表すクオリティスコア(Quality:Q)が記号(ASCII文字)で含まれる。

1. 試験のポイント: 「Qが付くFASTQには、Quality(品質スコア)が含まれる」と覚えましょう。逆に、純粋な配列データだけが入っているものが「FASTA」です。問題文に「> から始まる」「品質スコアを持たない」というキーワードがあれば、迷わずFASTAを選びます。
2. バイオインフォの視点: 自作プログラムでファイルをパース(解析)する際、1文字目が `>` か `@` かで条件分岐させるのは定番の処理です。FASTAはデータ量が比較的軽いためそのまま扱えますが、FASTQはシークエンサーからの生データなのでファイルサイズが膨大になり、通常は `gzip` などで圧縮された状態(`.fastq.gz`)のままストリーム処理を行います。


4. まとめ

「&記号の『>』で始まり、配列だけがシンプルに書かれているのがFASTA形式」です。DNAシークエンサーから出てきた直後のクオリティ付きデータ(FASTQ)を処理・精製した後に、最終的なリファレンスとして保管する際などに活躍する形式だとイメージしておきましょう!


PR