Maqの使い方まとめ
自分用まとめです
レファレンスのシークエンスをとってくる
Humanのレファレンス配列をUCSCからとることにする
UCSC Genome Browser: DownloadsのHuman Genome (hg19, GRCh37)
Data set by chromosomeにある
染色体毎の配列(chr1.fa.gzなど)をダウンロード
解凍して、一つのファイルにまとめておく
cat chr*.fa > allchr.fa
シークエンサーのデータをとってくる
ウチには次世代シークエンサーは無いので(^^;)、NCBIのSRA(Short Read Archive)からとってくる
今回の目的に合いそうなものとして
Study: Targeted capture and massively parallel sequencing of human exomes JS0001 (SRP000910)
のデータを使うことにする
そのうちの一つ
Human HapMap individual NA19240
のデータ(SRX005930)のSRR017992をダウンロードしてみた。解凍してみたら10GB近くあった(@_@)
ところで、
SRAのFastqデータをMaqで使うには、ちょっと加工してやらなければならないらしい
タイトル行にあるスペースを削除すればいいそうな GCOEのテキストに習ってsedで加工してやる
sed 's/ //g' < SRR017992.fastq > SRR017992.fastq_ns
MAQでマッピング
いろいろ細かいことは後でマニュアルを読んで調べることとして、まずはeary runでマッピングしてみた
$ maq.pl earyruy -1 60 -d SRR017992 allchr.fa SRR017992.fasta_ns
-1 60 のオプションは、Fastq配列の頭から60ベースのみをマッピングに使うためにつけた*1
後は待つこと半日〜1日
ウチのマシン(2x2.26 GHz Quad Core Xeon, 8GB)で36,394,026spotsのデータをマッピングするのに、約24時間かかった
マルチコアに最適化していないと作者もいっているとおりで、シングルコアしか使っていなかった。
MaqViewrでデータを眺める
まずはインデックスをつけてやる必要がある
$ maqindex -i -c consensus.cns all.map
そしたらMaqviewでデータを眺めてみる
$ maqview -c consensus.cns all.map
MacPortのインストール
ウチの職場ではrsyncが通らないので、svnでアップデートできるようにする
1.svnがproxyを経由するように下準備
~/.subversion/servers
を編集する(sudoで)
[global]# http-proxy-exceptions = *.exception.com, www.internal-site.org # http-proxy-host = defaultproxy.whatever.com # http-proxy-port = 7000
のところを適宜コメントアウトして、自分のところのproxyを入力する
また、~/.profileで
export http_proxy
が設定されていることを確認
更にsudoしてもproxyが通るように
sudo vi /etc/sudoers
として
Defaults env_keep += "http_proxy"
を書き加えておく
2.インストール
Mac Portsの総本山に行って、バイナリを落としてくる
http://www.macports.org/
そんで、ふつうにインストールする。
sudo vi /opt/local/etc/macports/sources.conf
とやって、sources.confの中身を変更
下の行の
#rsync://rsync.macports.org/release/ports/[default]
をコメントアウトして
file:///opt/local/var/macports/sources/dports/[default]
と書き換える
アップデートをするときは、svnをcoしてから
cd /opt/local/var/macports/sources sudo svn co https://svn.macports.org/repository/macports/trunk/dports
あとは通常通り
sudo port -d sync
でアップデートできる。