次世代シーケンサー [げのむ]
かれこれ何年か前までは「ゲノムやってます」と言えたのだが、ここ数年は本流のゲノムからはなれていた。
ただ、講義で「最新のゲノム解析とは」とか話す必要があるので最低限の基礎知識はもっていたが、ここに来て手元に次世代シーケンサーのデータが集まり始め、本腰を入れて勉強する必要がでてきた。
いままではせいぜい一日1000配列を処理すればよかったのが、次世代だと2000万とか、下手すると億の単位で配列が出てくる。
頭の切り替えが必要なり。
なので今回の記事は日本で何人の人が「なるほど」と思ってくれるかわからない、完全に自分用のメモのようなもの。間違ってるとこもあると思うのでそのうち訂正するかも。
次世代シーケンサーを理解するにはやはり第一世代(キャピラリーシーケンサー)をもとに考えた方が覚えやすいので比較しながらまとめていく。
まずシーケンシング前のセットアップ
ABIのキャピラリーシーケンサでは
1:キャピラリーをセットし、
2:mobilityファイルを入れて、
3:Spatial Calibrationして、
4:Matrix Standardを流し、
5:Spectral Calibrationする
必要があった。これをしないとまともな波形データを得ることができない。
で、イルミナ社の次世代シーケンサーGenome analyzerの場合は
1:プリズムをピカピカに磨いて、
2:1塩基目を反応させ、
3:フローセルのX、Y、Z軸を決定する
これでカメラの焦点をきっちりあわせないとまともな塩基データを得ることができない。
つづいて配列データ処理
蛍光のシグナルから生データの作成
>ABI3100, 3700, 3730
Sequence analysis (on Windows)
>454
GS Run Processor; image processing step
>GA
Firecrest (on Linux)
>SOLiD
SOLiD Analysis Tools (on Linux)
生データから配列データへの変換
>ABI3100, 3700, 3730
Sequencing Analysis (on Windows)
Phred (on Linux and Mac OSX)
>454
GS Run Processor; signal processing step
>GA
Bustard (on Linux)
>SOLiD
SOLiD Analysis Tools (on Linux)
ベクター配列の除去など
>ABI3100, 3700, 3730
cross_match (on Linux and Mac OSX)
>454
なし
>GA
なし
>SOLiD
なし
アセンブル or アライメント
>ABI3100, 3700, 3730
Phrap (with swat on Linux and Mac OSX)
>454
gsMapper (GS Reference Mapper)
gsAssembler (GS De Novo Assembler)
gsAmplicon (GS Amplicon Variant Analyzer)
>GA
GERALD(ELAND or PhageAlign on Linux)
>SOLiD
SOLiD Analysis Tools (on Linux)
編集 解析 ブラウズ
>ABI3100, 3700, 3730
Consed (on Linux and Mac OSX)
>454
Consed (on Linux and Mac OSX)
>GA
CASAVA (on Linux) and GenomeStudio/Genome Browser (on Windows)
>SOLiD
SOLiD Alignment Browser (on Windows, Linux and Mac OSX)
この辺りは昨今のバイオインフォの成長でいろいろ3rdパーティのアプリがあるがサポートしきれず。
どれが実際に使いやすいかはいじらないことにはわからん。
あと、phred/phrap/consedではアセンブルまでの処理をperlのphredPhrapで処理した訳だが、GAではアライメントまでの処理はpythonのGOATでする。
phred/phrap/consedのswatは最小14-最大30塩基の比較でアライメントしていくが、GAのELANDは32塩基をシード配列にして、そこから2塩基のミスマッチだけ許容、in-delがあった場合は当該配列を解析対象から除去。パラメータをいじればシードを25塩基まで下げられる。BLASTは12塩基がシードなので、ELANDは相当厳し目。一方SOLiDは50塩基EXACTマッチから25塩基3ミスマッチまで対応可能。ただし、SOLiD3-plusでは75塩基対応だし、仕組みがかわる模様。
phred/phrap/consedシステムでは基準配列と比較する場合のみ「mktrace」でテキストファイルからphrapが使える疑似波形ファイルを作る必要があったが、GAでは必ずReferenceのgenome配列を「squash」してGERALDが使えるフォーマットにする必要がある。SOLiDではReferenceを「color space」にあらかじめ変換。
ディレクトリ構造はphredPhrapでは同一階層にchromat_dir、phd_dir、edit_dirを用意したが、GOATでは出来上がったディレクトリの内部の下の階層に新規の処理データすべてが含まれる入れ子構造。SOLiDは複数のディレクトリに階層をどんどん作って振り分け。わかりづらい。
phredPhrapでアセンブルされなかったデータはedit_dirのsingletに記述されたが、GAでアライメントされなかったデータはGERALDの階層にanomaly.txtとして記述されている。SOLiDではいろいろな別ディレクトリに置かれる上に構造がわかりづらい。場所としてはprimaryの下のrejectディレクトリの中のcsfasta.rejectに記載。
ABIのキャピラリーシーケンサのデータはConsedで処理することが多かったが、454もConsedで処理が可能。リード数は多いがシーケンス長は長いので旧システムで対応可能。ただし、Qualityの表記は各塩基のバーの高さで表示。こちらはConsed18からすでに対応済み。GAとSOLIDはすでに編集ソフトを使ってマニュアルでどうにかできるデータ量ではない。自動処理のチューンナップをどこまで詰められるかがアウトプットのキモ。ただ、GAもSOLiDもQ-valueはもってるので変異が見つかったら念のため見れるようにした方がいいかも。ただ、Q-valueもデータベースに入れるととたんに容量がでかくなるし。ブラウザから直で見られるようにしたら重くなりそうだし、このあたりも3rdパーティのアプリしらべないと。
あとはアライメントの終わったデータの処理周りだけど、情報収集不足。
科研費の申請も終わったので、SNPsの処理回りでOpenのツールがあるか探ってみよう。
しかし、毎年この時期は寝不足だ。
ただ、講義で「最新のゲノム解析とは」とか話す必要があるので最低限の基礎知識はもっていたが、ここに来て手元に次世代シーケンサーのデータが集まり始め、本腰を入れて勉強する必要がでてきた。
いままではせいぜい一日1000配列を処理すればよかったのが、次世代だと2000万とか、下手すると億の単位で配列が出てくる。
頭の切り替えが必要なり。
なので今回の記事は日本で何人の人が「なるほど」と思ってくれるかわからない、完全に自分用のメモのようなもの。間違ってるとこもあると思うのでそのうち訂正するかも。
次世代シーケンサーを理解するにはやはり第一世代(キャピラリーシーケンサー)をもとに考えた方が覚えやすいので比較しながらまとめていく。
まずシーケンシング前のセットアップ
ABIのキャピラリーシーケンサでは
1:キャピラリーをセットし、
2:mobilityファイルを入れて、
3:Spatial Calibrationして、
4:Matrix Standardを流し、
5:Spectral Calibrationする
必要があった。これをしないとまともな波形データを得ることができない。
で、イルミナ社の次世代シーケンサーGenome analyzerの場合は
1:プリズムをピカピカに磨いて、
2:1塩基目を反応させ、
3:フローセルのX、Y、Z軸を決定する
これでカメラの焦点をきっちりあわせないとまともな塩基データを得ることができない。
つづいて配列データ処理
蛍光のシグナルから生データの作成
>ABI3100, 3700, 3730
Sequence analysis (on Windows)
>454
GS Run Processor; image processing step
>GA
Firecrest (on Linux)
>SOLiD
SOLiD Analysis Tools (on Linux)
生データから配列データへの変換
>ABI3100, 3700, 3730
Sequencing Analysis (on Windows)
Phred (on Linux and Mac OSX)
>454
GS Run Processor; signal processing step
>GA
Bustard (on Linux)
>SOLiD
SOLiD Analysis Tools (on Linux)
ベクター配列の除去など
>ABI3100, 3700, 3730
cross_match (on Linux and Mac OSX)
>454
なし
>GA
なし
>SOLiD
なし
アセンブル or アライメント
>ABI3100, 3700, 3730
Phrap (with swat on Linux and Mac OSX)
>454
gsMapper (GS Reference Mapper)
gsAssembler (GS De Novo Assembler)
gsAmplicon (GS Amplicon Variant Analyzer)
>GA
GERALD(ELAND or PhageAlign on Linux)
>SOLiD
SOLiD Analysis Tools (on Linux)
編集 解析 ブラウズ
>ABI3100, 3700, 3730
Consed (on Linux and Mac OSX)
>454
Consed (on Linux and Mac OSX)
>GA
CASAVA (on Linux) and GenomeStudio/Genome Browser (on Windows)
>SOLiD
SOLiD Alignment Browser (on Windows, Linux and Mac OSX)
この辺りは昨今のバイオインフォの成長でいろいろ3rdパーティのアプリがあるがサポートしきれず。
どれが実際に使いやすいかはいじらないことにはわからん。
あと、phred/phrap/consedではアセンブルまでの処理をperlのphredPhrapで処理した訳だが、GAではアライメントまでの処理はpythonのGOATでする。
phred/phrap/consedのswatは最小14-最大30塩基の比較でアライメントしていくが、GAのELANDは32塩基をシード配列にして、そこから2塩基のミスマッチだけ許容、in-delがあった場合は当該配列を解析対象から除去。パラメータをいじればシードを25塩基まで下げられる。BLASTは12塩基がシードなので、ELANDは相当厳し目。一方SOLiDは50塩基EXACTマッチから25塩基3ミスマッチまで対応可能。ただし、SOLiD3-plusでは75塩基対応だし、仕組みがかわる模様。
phred/phrap/consedシステムでは基準配列と比較する場合のみ「mktrace」でテキストファイルからphrapが使える疑似波形ファイルを作る必要があったが、GAでは必ずReferenceのgenome配列を「squash」してGERALDが使えるフォーマットにする必要がある。SOLiDではReferenceを「color space」にあらかじめ変換。
ディレクトリ構造はphredPhrapでは同一階層にchromat_dir、phd_dir、edit_dirを用意したが、GOATでは出来上がったディレクトリの内部の下の階層に新規の処理データすべてが含まれる入れ子構造。SOLiDは複数のディレクトリに階層をどんどん作って振り分け。わかりづらい。
phredPhrapでアセンブルされなかったデータはedit_dirのsingletに記述されたが、GAでアライメントされなかったデータはGERALDの階層にanomaly.txtとして記述されている。SOLiDではいろいろな別ディレクトリに置かれる上に構造がわかりづらい。場所としてはprimaryの下のrejectディレクトリの中のcsfasta.rejectに記載。
ABIのキャピラリーシーケンサのデータはConsedで処理することが多かったが、454もConsedで処理が可能。リード数は多いがシーケンス長は長いので旧システムで対応可能。ただし、Qualityの表記は各塩基のバーの高さで表示。こちらはConsed18からすでに対応済み。GAとSOLIDはすでに編集ソフトを使ってマニュアルでどうにかできるデータ量ではない。自動処理のチューンナップをどこまで詰められるかがアウトプットのキモ。ただ、GAもSOLiDもQ-valueはもってるので変異が見つかったら念のため見れるようにした方がいいかも。ただ、Q-valueもデータベースに入れるととたんに容量がでかくなるし。ブラウザから直で見られるようにしたら重くなりそうだし、このあたりも3rdパーティのアプリしらべないと。
あとはアライメントの終わったデータの処理周りだけど、情報収集不足。
科研費の申請も終わったので、SNPsの処理回りでOpenのツールがあるか探ってみよう。
しかし、毎年この時期は寝不足だ。
久々、まったくわからん(ノ∀`)
by うらなみ (2009-10-25 17:18)
もちろん これぽっちもわからん(ノ∀`)
by はにぃ (2009-10-25 22:06)
おっとさんおっとさん、お邪魔します。
ご無沙汰していますゆきぽんです。
おばかのゆきぽんです。
すぐに浮腫むゆきぽんです。
わかるかなー?
はにぃさんご無沙汰しています。
突然すみません。
おっとさん人類遺伝学会等、行かれたのでしょうか?
ちょっと前はGWASとかが騒がれていたのに、
今は次世代シーケンサーだとか何とかで
私の頭は追いつけません。
少ない脳みそフルドライブしても無理。
でもおっとさんのこの日記はわかりやすーい。
勉強になります。
感動して緊張しながらの初コメントです。
科研費とれるようお祈りしています。
お体気をつけて下さいね。
お邪魔しましたー。
by yukipon (2009-10-28 13:17)
あ、ゆきぽんだ
人類遺伝学会はとんとご無沙汰ですが、この状況だとらいねんあたり参加しそう。
あうあう
by カオナシ (2009-10-29 07:26)
あ ゆきぽんだ (σ゚Д゚)σ
by はにぃ (2009-10-30 00:13)