忍者ブログ
バイオインフォマティックス技術者試験、情報処理試験など、IT系の試験を基礎から勉強します。また、Javaなどプログラミングを勉強します。

【BI技術者認定試験対策】バイオデータの超基本!「FASTA形式」を攻略

バイオインフォマティクスで最も頻繁に扱うテキストデータ形式、それが「FASTA(ファスタ)」と「FASTQ(ファストキュー)」です。名前も見た目も似ているこの2つの決定的違いを整理しましょう。

1. 問題:データ形式の識別

【 問題 】 バイオインフォマティクスで使われるテキストフォーマットのうち、1行目が「 > 」(大なり記号)から始まり、2行目以降に塩基配列やアミノ酸配列の『文字列だけ』が記述される、最もシンプルな配列記述形式はどれでしょうか?

① FASTQ形式   ② SAM形式   ③ FASTA形式   ④ VCF形式

2. 正解:配列データフォーマットに関する正解

正解: ③ FASTA形式

3. 解説:「Q」があるかないか、それが問題だ

プログラムで処理する際、この2つのフォーマットを見分ける最大の特徴は「ヘッダーの記号」と「クオリティ(精度)情報の有無」です。

[ FASTA形式の例 ]
>seq1 Description of this sequence
ATGCGTACGTTAGC...
★ 特徴:ヘッダーが「>」で始まる。データは配列の文字(A, T, G, Cやアミノ酸)のみ。参照ゲノム(標準配列)などに使われる。

[ FASTQ形式の例 ]
@seq1
ATGCGTACGTTAGC
+
FKK7FIII9<F##D
★ 特徴:ヘッダーが「@」で始まる。配列のほかに、シークエンサーが読み取った各文字の「確からしさ」を表すクオリティスコア(Quality:Q)が記号(ASCII文字)で含まれる。

1. 試験のポイント: 「Qが付くFASTQには、Quality(品質スコア)が含まれる」と覚えましょう。逆に、純粋な配列データだけが入っているものが「FASTA」です。問題文に「> から始まる」「品質スコアを持たない」というキーワードがあれば、迷わずFASTAを選びます。
2. バイオインフォの視点: 自作プログラムでファイルをパース(解析)する際、1文字目が `>` か `@` かで条件分岐させるのは定番の処理です。FASTAはデータ量が比較的軽いためそのまま扱えますが、FASTQはシークエンサーからの生データなのでファイルサイズが膨大になり、通常は `gzip` などで圧縮された状態(`.fastq.gz`)のままストリーム処理を行います。


4. まとめ

「&記号の『>』で始まり、配列だけがシンプルに書かれているのがFASTA形式」です。DNAシークエンサーから出てきた直後のクオリティ付きデータ(FASTQ)を処理・精製した後に、最終的なリファレンスとして保管する際などに活躍する形式だとイメージしておきましょう!


PR

【BI技術者認定試験対策】糖の違いを見抜く!「核酸の基本骨格」を攻略

DNAとRNAは、どちらも「糖・リン酸・塩基」が連なったヌクレオチド鎖ですが、その土台となる『糖』の種類に決定的な違いがあります。構造の根本を整理しましょう。

1. 問題:DNAとRNAを構成する糖

【 問題 】 核酸の基本骨格を構成する五炭糖(炭素を5個持つ糖)について、DNAを構成する糖( A )と、RNAを構成する糖( B )の組み合わせとして正しいものはどれでしょうか?

① A:リボース、B:グルコース
② A:デオキシリボース、B:リボース
③ A:リボース、B:デオキシリボース
④ A:フルクトース、B:ガラクトース

2. 正解:核酸の化学構造に関する正解

正解: ② A:デオキシリボース、B:リボース

3. 解説:名前の由来は「糖」にあり

そもそも「DNA」や「RNA」という名称自体が、これらを構成する糖の名前に由来しています。

[ 核酸の名前と糖の関係 ]
DNA(Deoxyribonucleic acid:デオキシリボ核酸)
・骨格の糖:デオキシリボース
RNA(Ribonucleic acid:リボ核酸)
・骨格の糖:リボース

[ デオキシってどういう意味? ]
・化学において「de-(除去)」+「oxy(酸素)」は「酸素が1個抜けた」という意味です。リボースの2位の炭素についた水酸基(-OH)から酸素が抜け、水素(-H)に置き換わったものが「デオキシリボース」です。

1. 試験のポイント: 「DNA = デオキシリボース」「RNA = リボース」の対応は超必出です。酸素が1個少ないデオキシリボースを持つDNAの方が化学的に非常に安定しているため、長期間の遺伝情報の保存に適しています。逆にRNAは分解されやすく、一時的な伝令役に向いています。
2. バイオインフォの視点: データ構造に例えるなら、骨格である「糖とリン酸」は配列のインデックスやポインタのような不変の共通フレームワークです。バイオインフォマティクスが分析ターゲットとする文字列(A, T, G, C, U)は、このフレームワークにぶら下がっている「塩基」の部分だけを抽出したものと言えます。


4. まとめ

「DNAはデオキシリボース、RNAはリボース」。名前の頭文字(DとR)と完全に一致しているので、セットで覚えてしまえば迷うことはありません。核酸の構造問題の土台となる知識ですので、確実にインプットしておきましょう!



【BI技術者認定試験対策】ゲノム解析の出発点!「DNAシークエンサー」を攻略

バイオインフォマティクス(生物情報科学)の世界は、生体からデータを取り出すところから始まります。その最も重要な入り口となる装置「DNAシークエンサー」の役割を整理しましょう。

1. 問題:遺伝情報のデジタル化

【 問題 】 生物の細胞から抽出されたDNAサンプルを読み取り、A、T、G、Cという塩基の並び(文字配列データ)として出力する装置の名称は何でしょうか?

① DNAマイクロアレイ   ② DNAシークエンサー   ③ サーマルサイクラー   ④ 質量分析計

2. 正解:ゲノムデータ取得に関する正解

正解: ② DNAシークエンサー

3. 解説:生命の設計図を文字列へ変換する装置

DNAシークエンサー(塩基配列決定装置)は、目に見えない化学物質であるDNAの配列を、コンピュータで処理できる「テキストデータ」に変換する、いわばバイオ界のスキャナーです。

[ シークエンサーの進化 ]
第一世代(サンガー法):長くて正確な配列を読み取れますが、スピードとコストに限界がありました。ヒトゲノム計画初期の主役です。
次世代シークエンサー(NGS):現在主流の技術です。DNAを細切れにして、数億本の断片を同時並行で爆発的に読み取ります(超並列シークエンシング)。
第三世代(ロングリード):ナノポアなどの技術を使い、細切れにせず長い一本の鎖のままリアルタイムに読み取ることが可能です。

1. 試験のポイント: 「サンプルのDNA = 入力」、「塩基の並び(配列データ) = 出力」という関係性をしっかり押さえましょう。試験では、大量のデータを高速に出力する「次世代シークエンサー(NGS:Next Generation Sequencer)」という用語も非常によく出題されます。
2. バイオインフォの視点: NGSから最初に出てくる出力データは、数億行に及ぶ「リード(Read)」と呼ばれる短い断片データ(主にFASTQ形式)です。このバラバラのテキストファイルを、元の巨大なゲノム配列にパズルのようにつなぎ合わせる「配列アセンブリ(マッピング)」こそが、バイオインフォマティシャンやアルゴリズムエンジニアの腕の見せ所となります。


4. まとめ

「DNAから塩基配列のデータを出力する装置=DNAシークエンサー」です。この装置が吐き出す膨大な文字列データ(ビッグデータ)を解析するために、バイオインフォマティクスという学問が大きく発展してきました。まさにすべてのデータ解析の起点となる存在ですね!