専用計算機 Anton
自律的に動作するMD専用計算機。
GRAPE的な力のパイプラインを内蔵し、長距離力用の演算回路も別口で持っている。GRAPEのように全体全の完全なN2演算ではなく、対称性を考慮した力の計算をし、さらに距離計算を低精度でおこなうことで、必要な近接相互作用のみを計算する仕組みがはいっている。そのため超速い。SC2009のBest Paper Awardにノミネートされた。
- http://en.wikipedia.org/wiki/Anton_(computer)
- SC2009のTechnical Paper
- Millisecond-Scale Molecular Dynamics Simulation on Anton
SC2009では、Anton関連でもうひとつ、FFTを高速に実装した論文もacceptされている。
wikipediaからリンクされていた2本の論文を読んだ。
- ポイントは力の計算だけを速くできたとしても、アムダールの法則により他の部分が足を引っ張るため、高速化には限界がある。そこで、他の部分もASICで実行できるようにすることで、Nが小さくかつ長時間積分に特化した計算機を作るということ。
- ASIC 90nm (dieの大きさは不明)
- ASICの基本動作速度は400 MHzで、HTISのみ800 MHzの倍速動作らしい。
- HTIS(high-throughput interaction subsystem)というforce pipelineとflexible subsystemという部分からなる
- HTISは二体力とmeshへの密度あり当てと、meshからの力の補完を計算する
- fixed point integer for a position
- 8bit for distant used in NT method (threahold距離より遠い粒子をフィルタリングする)
- 26bit for force pipeline
- 32 force pipelines (PPIP) on a chip (cf. MD-GRAPE3 20 pipelines @ 350 MHz)
- flexible subsystemが残りの計算をすべて行う
- FFTによる長距離力
- 数値積分
- bond force
- 拘束条件の適用
- カスタマイズされたTensilicaのcoreに4-vector SIMD演算器を2個(こちらは独自設計らしい)
- correction pipelineはPPIPと等価
- 使い方は詳しく書いてないが、少なくともTensilicaのcoreとSIMD演算器のプログラムが必要だろう。
- 比較に使われているMD-GRAPE3の結果が遅すぎるような気もする。
- Antonと比べるとMD-GRAPE3のアプローチは、システム全体の総演算速度では圧倒的に大きいが、Nが小さい系(<105くらい?よくわからない)をミリ秒くらい計算したいという用途には、有効ではないということになる。この様な計算は、1 stepあたり1010演算を109ステップ計算する必要があるので、総演算量は1019演算となる。これはNが単純に大きい大規模計算より困難があって、それはたった1010演算ごとにglobalな同期が必要であるので、1 PFLOS(1015)の計算速度をもつような超並列計算機では効率があがらないため。
Makefile, Rakefile, and OMakefile
OMakeを使うとc-x c-s c-z make [enter]のループから開放される!!!!
ソース http://omake.metaprl.org/index.html
ドキュメント http://omake.metaprl.org/manual/omake.html
日本語のまとめ http://unicus.ddo.jp/omake-wiki/index.php
だけでなくlatexのコンパイルからdviファイルそしてPDFの生成まで自動的にしてくれるのは、本当に便利なので、これだけでも使う価値がある。build systemとしては、まだテスト中。
http://d.hatena.ne.jp/hayamiz/20081208/1228727272
top levelのOMakefileで、変数を定義するときには以下のように、".SUBDIRES"の前で定義しないと、sub directoryのbuild時に反映されない。top levelのOMakefileの例:
.PHONY: clean LIBDIR = /usr/local/lib/foobar .SUBDIRS: subdir1 subdir2
QPACE
PowerXCell 8iをカスタムネットワーク(FPGAで実装)で接続したQCD用の計算機。
http://en.wikipedia.org/wiki/QPACE
http://www.itwm.fhg.de/hpc/workshop/mic/Qpace_(Dirk_Pleiter_-_Desy).pdf
概要は後者のプレゼンファイルがわかりやすい。PowerXCell 8iとVirtex5 LX110Tを同一ボード上に実装して、3次元のトーラスネットワークを実現。Virtex5から6本のlocal通信ネットワークと、1本のethernetを引き出す。localネットワークは10GbE PHYのチップ(PMC Ceirra PM8348, XAUI, 1 GB/sec(10B/8Bのあと))を6個外付けしている。
2009年2月のミーティングでのPDF http://www.fz-juelich.de/jsc/juice/eQPACE_Meeting_PDFs
FireStreamの件
今日配布されたuniv2000(http://www.univ2000.com/ )のちらしに、 FireStream9270/9250の広告があった(これらはmodel numberから4400を引いてHDをつけたRadeonと同じものだろう)。ACUBEという会社が元の代理店。http://www.acube-corp.com/products/firestream/
値段は「アカデミックプライス」だと超高いというほどでもなく、4400引いたものの秋葉原価格x5くらい。結果的に、値段はTeslaのアカデミック割引価格とほとんど同じになっている。パフォーマンスあたり価格はこちらのほうが上。上のURLには2年保証とあるが、アカデミックバージョンが2年保証かどうかはちらしには書いてなかった。