忍者ブログ
バイオインフォマティックス技術者試験、情報処理試験など、IT系の試験を基礎から勉強します。また、Javaなどプログラミングを勉強します。

【BI技術者認定試験対策】バイオデータの超基本!「FASTA形式」を攻略

バイオインフォマティクスで最も頻繁に扱うテキストデータ形式、それが「FASTA(ファスタ)」と「FASTQ(ファストキュー)」です。名前も見た目も似ているこの2つの決定的違いを整理しましょう。

1. 問題:データ形式の識別

【 問題 】 バイオインフォマティクスで使われるテキストフォーマットのうち、1行目が「 > 」(大なり記号)から始まり、2行目以降に塩基配列やアミノ酸配列の『文字列だけ』が記述される、最もシンプルな配列記述形式はどれでしょうか?

① FASTQ形式   ② SAM形式   ③ FASTA形式   ④ VCF形式

2. 正解:配列データフォーマットに関する正解

正解: ③ FASTA形式

3. 解説:「Q」があるかないか、それが問題だ

プログラムで処理する際、この2つのフォーマットを見分ける最大の特徴は「ヘッダーの記号」と「クオリティ(精度)情報の有無」です。

[ FASTA形式の例 ]
>seq1 Description of this sequence
ATGCGTACGTTAGC...
★ 特徴:ヘッダーが「>」で始まる。データは配列の文字(A, T, G, Cやアミノ酸)のみ。参照ゲノム(標準配列)などに使われる。

[ FASTQ形式の例 ]
@seq1
ATGCGTACGTTAGC
+
FKK7FIII9<F##D
★ 特徴:ヘッダーが「@」で始まる。配列のほかに、シークエンサーが読み取った各文字の「確からしさ」を表すクオリティスコア(Quality:Q)が記号(ASCII文字)で含まれる。

1. 試験のポイント: 「Qが付くFASTQには、Quality(品質スコア)が含まれる」と覚えましょう。逆に、純粋な配列データだけが入っているものが「FASTA」です。問題文に「> から始まる」「品質スコアを持たない」というキーワードがあれば、迷わずFASTAを選びます。
2. バイオインフォの視点: 自作プログラムでファイルをパース(解析)する際、1文字目が `>` か `@` かで条件分岐させるのは定番の処理です。FASTAはデータ量が比較的軽いためそのまま扱えますが、FASTQはシークエンサーからの生データなのでファイルサイズが膨大になり、通常は `gzip` などで圧縮された状態(`.fastq.gz`)のままストリーム処理を行います。


4. まとめ

「&記号の『>』で始まり、配列だけがシンプルに書かれているのがFASTA形式」です。DNAシークエンサーから出てきた直後のクオリティ付きデータ(FASTQ)を処理・精製した後に、最終的なリファレンスとして保管する際などに活躍する形式だとイメージしておきましょう!


PR

【BI技術者認定試験対策】糖の違いを見抜く!「核酸の基本骨格」を攻略

DNAとRNAは、どちらも「糖・リン酸・塩基」が連なったヌクレオチド鎖ですが、その土台となる『糖』の種類に決定的な違いがあります。構造の根本を整理しましょう。

1. 問題:DNAとRNAを構成する糖

【 問題 】 核酸の基本骨格を構成する五炭糖(炭素を5個持つ糖)について、DNAを構成する糖( A )と、RNAを構成する糖( B )の組み合わせとして正しいものはどれでしょうか?

① A:リボース、B:グルコース
② A:デオキシリボース、B:リボース
③ A:リボース、B:デオキシリボース
④ A:フルクトース、B:ガラクトース

2. 正解:核酸の化学構造に関する正解

正解: ② A:デオキシリボース、B:リボース

3. 解説:名前の由来は「糖」にあり

そもそも「DNA」や「RNA」という名称自体が、これらを構成する糖の名前に由来しています。

[ 核酸の名前と糖の関係 ]
DNA(Deoxyribonucleic acid:デオキシリボ核酸)
・骨格の糖:デオキシリボース
RNA(Ribonucleic acid:リボ核酸)
・骨格の糖:リボース

[ デオキシってどういう意味? ]
・化学において「de-(除去)」+「oxy(酸素)」は「酸素が1個抜けた」という意味です。リボースの2位の炭素についた水酸基(-OH)から酸素が抜け、水素(-H)に置き換わったものが「デオキシリボース」です。

1. 試験のポイント: 「DNA = デオキシリボース」「RNA = リボース」の対応は超必出です。酸素が1個少ないデオキシリボースを持つDNAの方が化学的に非常に安定しているため、長期間の遺伝情報の保存に適しています。逆にRNAは分解されやすく、一時的な伝令役に向いています。
2. バイオインフォの視点: データ構造に例えるなら、骨格である「糖とリン酸」は配列のインデックスやポインタのような不変の共通フレームワークです。バイオインフォマティクスが分析ターゲットとする文字列(A, T, G, C, U)は、このフレームワークにぶら下がっている「塩基」の部分だけを抽出したものと言えます。


4. まとめ

「DNAはデオキシリボース、RNAはリボース」。名前の頭文字(DとR)と完全に一致しているので、セットで覚えてしまえば迷うことはありません。核酸の構造問題の土台となる知識ですので、確実にインプットしておきましょう!



【BI技術者認定試験対策】ゲノム解析の出発点!「DNAシークエンサー」を攻略

バイオインフォマティクス(生物情報科学)の世界は、生体からデータを取り出すところから始まります。その最も重要な入り口となる装置「DNAシークエンサー」の役割を整理しましょう。

1. 問題:遺伝情報のデジタル化

【 問題 】 生物の細胞から抽出されたDNAサンプルを読み取り、A、T、G、Cという塩基の並び(文字配列データ)として出力する装置の名称は何でしょうか?

① DNAマイクロアレイ   ② DNAシークエンサー   ③ サーマルサイクラー   ④ 質量分析計

2. 正解:ゲノムデータ取得に関する正解

正解: ② DNAシークエンサー

3. 解説:生命の設計図を文字列へ変換する装置

DNAシークエンサー(塩基配列決定装置)は、目に見えない化学物質であるDNAの配列を、コンピュータで処理できる「テキストデータ」に変換する、いわばバイオ界のスキャナーです。

[ シークエンサーの進化 ]
第一世代(サンガー法):長くて正確な配列を読み取れますが、スピードとコストに限界がありました。ヒトゲノム計画初期の主役です。
次世代シークエンサー(NGS):現在主流の技術です。DNAを細切れにして、数億本の断片を同時並行で爆発的に読み取ります(超並列シークエンシング)。
第三世代(ロングリード):ナノポアなどの技術を使い、細切れにせず長い一本の鎖のままリアルタイムに読み取ることが可能です。

1. 試験のポイント: 「サンプルのDNA = 入力」、「塩基の並び(配列データ) = 出力」という関係性をしっかり押さえましょう。試験では、大量のデータを高速に出力する「次世代シークエンサー(NGS:Next Generation Sequencer)」という用語も非常によく出題されます。
2. バイオインフォの視点: NGSから最初に出てくる出力データは、数億行に及ぶ「リード(Read)」と呼ばれる短い断片データ(主にFASTQ形式)です。このバラバラのテキストファイルを、元の巨大なゲノム配列にパズルのようにつなぎ合わせる「配列アセンブリ(マッピング)」こそが、バイオインフォマティシャンやアルゴリズムエンジニアの腕の見せ所となります。


4. まとめ

「DNAから塩基配列のデータを出力する装置=DNAシークエンサー」です。この装置が吐き出す膨大な文字列データ(ビッグデータ)を解析するために、バイオインフォマティクスという学問が大きく発展してきました。まさにすべてのデータ解析の起点となる存在ですね!



【BI技術者認定試験対策】DNAの絶対ルール!「相補的な塩基対」を攻略

DNAの二重らせん構造を支える最も美しく、最も重要なルールが「塩基のペアリング」です。どの塩基とどの塩基がペアになるのか、確実に得点源にしましょう。

1. 問題:DNAの塩基対の組み合わせ

【 問題 】 二本鎖DNAにおいて、4種類の塩基(アデニン:A、チミン:T、グアニン:G、シトシン:C)は、互いに結合する相手が厳密に決まっています。この正しい組み合わせ(塩基対)はどれでしょうか?

① アデニン(A) = グアニン(G)   /   チミン(T) = シトシン(C)
② アデニン(A) = シトシン(C)   /   チミン(T) = グアニン(G)
③ アデニン(A) = チミン(T)   /   グアニン(G) = シトシン(C)
④ アデニン(A) = ウラシル(U)   /   グアニン(G) = シトシン(C)

2. 正解:塩基の相補性に関する正解

正解: ③ アデニン(A) = チミン(T) / グアニン(G) = シトシン(C)

3. 解説:鍵と鍵穴の関係(相補性)

DNAの2本の鎖は、ジッパーの歯が噛み合うように、特定の塩基同士が水素結合によって引きあうことで綺麗な二重らせんを作っています。この性質を「相補性(そうほせい)」と呼びます。

[ 塩基対(ベースペア:bp)のルール ]
A = T ペア:水素結合「2本」で結合します。
G = C ペア:水素結合「3本」で結合します(こちらの方が結合が強固です)。

[ シャルガフの規則 ]
・どんな生物のDNAを調べても、「Aの数とTの数は等しい」「Gの数とCの数は等しい」という法則があり、これが二重らせん発見の決定的なヒントになりました。

1. 試験のポイント: 選択肢④にある「ウラシル(U)」は、RNAにおいてチミン(T)の代わりに使われる塩基です。「DNAの問題か、RNAの問題か」で罠が仕掛けられることが多いので、問題文をよく読む癖をつけましょう。
2. バイオインフォの視点: 文字列としてのDNAデータを扱う際、片方の鎖が「5'-ATGC-3'」であれば、もう片方は自動的に「3'-TACG-5'」と確定します。プログラムでこの対面側の配列を作る処理を「相補鎖(Complementary strand)の生成」と呼び、ペアワイズアライメントやマッピングアルゴリズムを実装する際の超基本処理となります。


4. まとめ

AはTと、GはCと組む」。このシンプルなルールがあるからこそ、DNAは半分に分かれても(半保存的複製)元の情報を1文字の狂いもなく正確にコピーできます。バイオのあらゆる計算問題の起点となる知識ですので、完全に暗記しておきましょう!


【Officeスクリプト入門】まとめてデータを管理する「配列」の基本と、知っておくべき型の注意点

変数や定数は1つの箱に1つのデータしか入れられませんでしたが、実務では「複数のデータをまとめて扱いたい」という場面がほとんどです。そんな時に使うのが「配列(はいれつ)」です。

今回は、配列の基本的な作り方(定義・初期化)と、Officeスクリプト(TypeScript)ならではの「型に関する重要な注意点」を分かりやすく解説します!

0. 文法:配列の型は「型名[]」で宣言する

Officeスクリプトで特定のデータ型だけを入れる配列を作るときは、型名[] という書き方をします。

  • number[]:数値だけを入れられる配列(数値配列)
  • string[]:文字列だけを入れられる配列(文字列配列)

中身を初期化(用意)するときは、値をカンマ(,)で区切って角カッコ [ ] で囲みます。

1. 実践サンプル

それでは、エディタに以下のコードを貼り付けて動かしてみましょう。数値の配列を作って、その中身を出力するシンプルなサンプルです。

function main(workbook: ExcelScript.Workbook) {
  // 数値型(number)の配列を定義して初期化する
  let scores: number[] = [80, 90, 75];
  
  // 配列を丸ごとコンソールに出力する
  console.log(scores);
  
  // 1番目のデータ(インデックスは0から始まります)を出力する
  console.log("1番目の点数:" + scores[0]);
}

2. 実行結果

スクリプトエディタの右上にある実行ボタン(よこむきさんかく ▶)を押すと、画面下部の「出力」タブに以下のように表示されます。

  [80, 90, 75]
  1番目の点数:80

ワンポイント・アドバイス:型を宣言しない時の重大な注意点!

Q. 配列にできる型に制限はあるの?別の型を混ぜてもいい?
結論から言うと、型をはっきり宣言(number[] など)しておけば、その型以外のデータは入れられなくなるという制限がかかります。これは安全なプログラムを書くためにとても良いことです。

しかし、もし型を省略して、最初の要素に異なる型を混ぜてしまうと、トラブルの原因になります。

注意:型を書かずに「別の型」を混ぜて初期化した場合

例えば、型を書かずに以下のように初期化したとします。

let myData = [100, "りんご", true];

このとき、Officeスクリプトは「なんでも入るごちゃまぜの配列(any[] 型、または union型)」だと自動解釈します。

「何でも入るなら便利じゃない?」と思うかもしれませんが、ここに大きな罠があります。Excel VBAの Variant 配列のような感覚でこれを使ってしまうと、後からデータを処理する時に、「数字だと思って足し算しようとしたら、中身が文字("りんご")で計算エラーになった」「文字だと思って文字数を数えようとしたら、中身が数字でエラーになった」というバグが多発します。

Officeスクリプト(TypeScript)の強みは、型をカチッと決めてバグを防ぐことです。特別な理由がない限りは、配列を作る時も let scores: number[]let names: string[] のように「この配列にはこのデータ型しか入れない!」としっかり型宣言をして、別の型を混ぜないようにするのが、安全で綺麗なコードを書くための鉄則ですよ!