忍者ブログ
バイオインフォマティックス技術者試験、情報処理試験など、IT系の試験を基礎から勉強します。また、Javaなどプログラミングを勉強します。

【BI技術者認定試験対策】ゲノムを跳び回る居候!「トランスポゾン」を攻略

ゲノムは一度決まったら固定されているわけではありません。自らの位置を変えてゲノム内を移動する、まるで「動く遺伝子」のような特殊な塩基配列を整理しましょう。

1. 問題:ゲノム内を移動する塩基配列

【 問題 】 生物のゲノムにおいて、細胞内で自身の位置を他の場所に「移動(転移)」させることができる、動く塩基配列(移動性遺伝要素)を何と呼ぶでしょうか?

① イントロン   ② トランスポゾン   ③ プロモーター   ④ プラズミド

2. 正解:動く遺伝要素に関する正解

正解: ② トランスポゾン

3. 解説:ゲノムの「カット&ペースト」と「コピー&ペースト」

バーバラ・マクリントック博士によってトウモロコシの斑(ふ)入りの研究から発見され、後にノーベル賞を受賞した学術的に極めてインパクトの大きい現象です。

[ トランスポゾンの種類と動き ]
DNA型トランスポゾン:自身をゲノムから切り出して別の場所へ挿入する、いわゆる「カット&ペースト」型です。
レトロトランスポゾン:一度RNAに転写されたあと、逆転写酵素によってDNAに戻り、別の場所に挿入される「コピー&ペースト」型です。人間のゲノムではこちら(Alu配列やLINE-1など)が圧倒的多数を占めます。
※実はヒトゲノムの約40%以上が、これらトランスポゾンの残骸やその関連配列で埋め尽くされています。

1. 試験のポイント: 「ゲノム中を移動(転移)することができる」という特徴が書かれていれば、迷わず「トランスポゾン」を選びます。移動したトランスポゾンが重要な遺伝子の真ん中に飛び込むと、その遺伝子が破壊されて病気の原因になったり、逆に生物の進化や多様性を生み出す原動力になったりします。
2. バイオインフォの視点: ヒトゲノム中に大量に存在するトランスポゾンは、配列が非常によく似た「リピート(反復)配列」です。次世代シークエンサー(NGS)の短いリード配列をマッピングする際、これらの領域は「ゲノム上のどこに由来するのか」を特定するのが難しく、マルチマッピング問題としてバイオインフォマティシャンの頭を悩ませます。これを高精度に分類・アノテーションするために、RepeatMaskerなどの専用ツールが使われます。


4. まとめ

「ゲノム中を移動できる塩基配列=トランスポゾン」です。システム開発で言えば、ソースコードの中にいつの間にか自己増殖するコードブロックが紛れ込んでいるような状態ですが、生命はこの動く要素を完全に排除せず、進化のバリエーションとして巧みに利用しているのが面白いところですね!


PR

【BI技術者認定試験対策】人間の設計図のボリューム!「ヒトゲノムの遺伝子数」を攻略

2003年に解読が完了したヒトゲノム計画。私たちの身体を形作る「タンパク質の設計図(遺伝子)」は、一体いくつ存在していたのでしょうか? 意外なその数字をインプットしましょう。

1. 問題:ヒトのタンパク質コード遺伝子数

【 問題 】 ヒトゲノム(約30億塩基対)の中に存在する、タンパク質の設計図として機能している主要な遺伝子(タンパク質コード遺伝子)の数として、最も適切なものはどれでしょうか?

① 約 2,000 個   ② 約 22,000 個   ③ 約 220,000 個   ④ 約 2,200,000 個

2. 正解:ゲノムの規模に関する正解

正解: ② 約 22,000 個

3. 解説:多すぎるゲノム、少なすぎる遺伝子

人間の遺伝子数が約2万個強というのは、生物の複雑さのイメージからすると驚くほど「少ない」数字です。

[ ヒトゲノムのデータスケール ]
総塩基対数:約 30億 塩基対(bp)。
遺伝子の数:約 22,000 個。

[ なぜ人間はこんなに複雑になれるのか? ]
・実は、ヒトゲノム全体の中で「タンパク質の設計図」として使われている領域は、全体のわずか 1.5% 程度 しかありません。
・それなのに人間が複雑な組織を作れるのは、1つの遺伝子から異なるタンパク質を切り出す「選択的スプライシング」の仕組みや、残りの98.5%の領域(非コード領域)が高度な制御スイッチ(RNAなど)として複雑に働いているためです。

1. 試験のポイント: 試験では「約2万個」または「22,000個」という具体的な数字(桁数)がストレートに問われます。他の生物(シロイヌナズナやマウスなど)と比べても遺伝子の「数」自体は同等レベルである、という点も知識として押さえておきましょう。
2. バイオインフォの視点: ゲノム上のどこにこの22,000個の遺伝子があるかを特定する作業を「遺伝子予測(アノテーション)」と呼びます。バイオインフォマティクスでは、DNAの文字列から「ATG(開始コドン)」や「GT-AG(スプライシングサイト)」といった特徴的なパターンを機械学習や隠れマルコフモデル(HMM)等を用いて探索し、正確な遺伝子の位置をマッピングしていきます。


4. まとめ

「ヒトの主要な遺伝子数は約22,000個」です。30億文字という膨大なソースコード(ゲノム)に対して、実際の関数(遺伝子)の数は約22,000個と非常にコンパクトにまとまっており、その呼び出し制御(エピゲノムやノンコーディングRNA)が極めて高度に行われているシステムだと言えますね!


【BI技術者認定試験対策】ゲノム編集の案内役!「crRNA」を攻略

ノーベル賞を受賞したゲノム編集技術「CRISPR/Cas9」。ハサミ役である酵素(Cas9)を、狙ったDNA配列へと正確に案内するナビゲーター「crRNA」の役割をマスターしましょう。

1. 問題:標的DNAを認識するRNA

【 問題 】 CRISPR/Cas9システムにおいて、CRISPR領域から転写されて作られ、標的となる対象DNAの塩基配列と相補的に結合することで、Cas9酵素を目的の場所へと誘導する役割を持つRNAは何でしょうか?

① mRNA   ② crRNA(CRISPR RNA)   ③ tracrRNA   ④ gRNA(ガイドRNA)

2. 正解:ゲノム編集の構成要素に関する正解

正解: ② crRNA(CRISPR RNA)

3. 解説:ハサミを誘導する「指名手配書」

もともとこの仕組みは、細菌が過去に感染したウイルスの断片(DNA)を自分のゲノム(CRISPR配列)に記憶し、再感染時にそれをRNAとしてコピーして敵を撃退する「獲得免疫システム」に由来しています。

[ CRISPR/Cas9を構成するRNAたち ]
crRNA(CRISPR RNA):今回の主役。標的DNAとぴったり結合する「指名手配の顔写真(配列)」にあたる部分です。
tracrRNA(トランス活性化型CRISPR RNA):ハサミ(Cas9酵素)とcrRNAをがっちり繋ぎ止めるための「ホルダー(土台)」の役割をするRNAです。
sgRNA / gRNA(シングルガイドRNA):研究やゲノム編集をやりやすくするため、本来バラバラだった「crRNA + tracrRNA」を人工的に1本に連結したものです。

1. 試験のポイント: 「対象DNAに対応する(相補的な)配列を持つ」という、ターゲット特異的な部分を指す場合は「crRNA」が正解です。一方で、「crRNAとtracrRNAを1本にまとめた人工RNA」という文脈であれば「gRNA(ガイドRNA)」が正解になります。問題文の細かいニュアンスを読み分けましょう。
2. バイオインフォの視点: ゲノム編集を設計する際、crRNAの配列(約20塩基)をどうデザインするかが極めて重要です。ゲノム上の目的の場所だけに結合し、似たような別の場所(オフターゲット領域)を誤って切断しないよう、全ゲノム配列を対象に高速に文字列検索(ブラストやマッピングアルゴリズム)を行い、最適なcrRNA配列候補を算出するソフトウェアの開発は、バイオインフォマティクスの中心的なテーマの一つです。


4. まとめ

「標的DNAをピンポイントで見つけ出すナビゲーター=crRNA」です。これがあるおかげで、30億塩基もある膨大なゲノムデータの中から、たった1箇所のピンポイントなバグ(狙った配列)を見つけ出して書き換えることができるのですね!


【BI技術者認定試験対策】ゲノムの超精密リカバリ!「相同組換え修復」を攻略

放射線や化学物質などによって、DNAの2本鎖が両方とも切断されてしまう致命的なエラー(2本鎖切断)。生命が持つ、最も正確なデータ復旧システムについて学びましょう。

1. 問題:DNA切断の正確な修復機構

【 問題 】 DNAの2本鎖切断が発生した際、細胞内にある配列が非常によく似た(相同な)もう一方のDNA鎖をお手本(テンプレート)として利用し、失われた配列を正確にコピーして元通りに修復する仕組みは何でしょうか?

① 非相同末端結合(NHEJ)   ② 相同組換え(HR)修復   ③ 塩基除去修復   ④ ミスマッチ修復

2. 正解:DNA修復メカニズムに関する正解

正解: ② 相同組換え(HR)修復

3. 解説:1文字も漏らさないパーフェクト・リカバリ

2本鎖切断の修復には大きく分けて2つのルートがありますが、その安全性(正確性)には雲泥の差があります。

[ 2本鎖切断を直す2つのルート ]
相同組換え(Homologous Recombination)修復:細胞分裂の前(DNA複製後)など、手元に「全く同じ配列のスペア(姉妹染色分体)」があるときに使えます。そのスペアをお手本にして1文字ずつコピーするため、エラーがほぼ起きない完璧な修復が可能です。
非相同末端結合(Non-Homologous End Joining):お手本を使わず、切れた末端同士をむりやり繋ぎ合わせる突貫工事です。手軽ですが、繋ぐときに文字が数文字消えたりズレたりする(エラーが起きやすい)特徴があります。

1. 試験のポイント: 「配列が相同のDNAをお手本にする」「正確にコピーする」というキーワードが出たら、間違いなく「相同組換え修復」です。がんを抑制する有名な遺伝子(BRCA1/BRCA2など)は、この相同組換え修復で重要な役割を果たしており、これが壊れるとがん化のリスクが高まるという医療・病理系の問題ともよくリンクします。
2. バイオインフォの視点: ゲノム編集技術(CRISPR/Cas9など)では、狙った場所をCas9でバッサリ切断した後、細胞が「相同組換え修復」を行おうとする性質を逆手に取ります。あらかじめ、少しだけ文字を書き換えた「人工的なお手本DNA」を一緒に細胞へ送り込んでおくことで、細胞自身に狙い通りの遺伝子改変(ノックイン)を正確に行わせることができます。このターゲット配列のデザインや、意図しない場所(オフターゲット)の予測にバイオインフォマティクスがフル活用されています。


4. まとめ

「同じ配列をお手本にして正確にコピー・修復する=相同組換え修復」です。システム開発で言えば、壊れたデータベースのテーブルを、別の同期用サーバー(レプリカ)にある完全なログを使って1行の狂いもなくクリーンにロールバックするような、非常にスマートな信頼性設計ですね!


【BI技術者認定試験対策】バイオデータの超基本!「FASTA形式」を攻略

バイオインフォマティクスで最も頻繁に扱うテキストデータ形式、それが「FASTA(ファスタ)」と「FASTQ(ファストキュー)」です。名前も見た目も似ているこの2つの決定的違いを整理しましょう。

1. 問題:データ形式の識別

【 問題 】 バイオインフォマティクスで使われるテキストフォーマットのうち、1行目が「 > 」(大なり記号)から始まり、2行目以降に塩基配列やアミノ酸配列の『文字列だけ』が記述される、最もシンプルな配列記述形式はどれでしょうか?

① FASTQ形式   ② SAM形式   ③ FASTA形式   ④ VCF形式

2. 正解:配列データフォーマットに関する正解

正解: ③ FASTA形式

3. 解説:「Q」があるかないか、それが問題だ

プログラムで処理する際、この2つのフォーマットを見分ける最大の特徴は「ヘッダーの記号」と「クオリティ(精度)情報の有無」です。

[ FASTA形式の例 ]
>seq1 Description of this sequence
ATGCGTACGTTAGC...
★ 特徴:ヘッダーが「>」で始まる。データは配列の文字(A, T, G, Cやアミノ酸)のみ。参照ゲノム(標準配列)などに使われる。

[ FASTQ形式の例 ]
@seq1
ATGCGTACGTTAGC
+
FKK7FIII9<F##D
★ 特徴:ヘッダーが「@」で始まる。配列のほかに、シークエンサーが読み取った各文字の「確からしさ」を表すクオリティスコア(Quality:Q)が記号(ASCII文字)で含まれる。

1. 試験のポイント: 「Qが付くFASTQには、Quality(品質スコア)が含まれる」と覚えましょう。逆に、純粋な配列データだけが入っているものが「FASTA」です。問題文に「> から始まる」「品質スコアを持たない」というキーワードがあれば、迷わずFASTAを選びます。
2. バイオインフォの視点: 自作プログラムでファイルをパース(解析)する際、1文字目が `>` か `@` かで条件分岐させるのは定番の処理です。FASTAはデータ量が比較的軽いためそのまま扱えますが、FASTQはシークエンサーからの生データなのでファイルサイズが膨大になり、通常は `gzip` などで圧縮された状態(`.fastq.gz`)のままストリーム処理を行います。


4. まとめ

「&記号の『>』で始まり、配列だけがシンプルに書かれているのがFASTA形式」です。DNAシークエンサーから出てきた直後のクオリティ付きデータ(FASTQ)を処理・精製した後に、最終的なリファレンスとして保管する際などに活躍する形式だとイメージしておきましょう!


        
  • 1
  • 2