Posts for the month of June 2009

専用計算機 Anton

自律的に動作するMD専用計算機。

GRAPE的な力のパイプラインを内蔵し、長距離力用の演算回路も別口で持っている。GRAPEのように全体全の完全なN2演算ではなく、対称性を考慮した力の計算をし、さらに距離計算を低精度でおこなうことで、必要な近接相互作用のみを計算する仕組みがはいっている。そのため超速い。SC2009のBest Paper Awardにノミネートされた。

SC2009では、Anton関連でもうひとつ、FFTを高速に実装した論文もacceptされている。

wikipediaからリンクされていた2本の論文を読んだ。

  • ポイントは力の計算だけを速くできたとしても、アムダールの法則により他の部分が足を引っ張るため、高速化には限界がある。そこで、他の部分もASICで実行できるようにすることで、Nが小さくかつ長時間積分に特化した計算機を作るということ。
  • ASIC 90nm (dieの大きさは不明)
  • ASICの基本動作速度は400 MHzで、HTISのみ800 MHzの倍速動作らしい。
  • HTIS(high-throughput interaction subsystem)というforce pipelineとflexible subsystemという部分からなる
  • HTISは二体力とmeshへの密度あり当てと、meshからの力の補完を計算する
    • fixed point integer for a position
    • 8bit for distant used in NT method (threahold距離より遠い粒子をフィルタリングする)
    • 26bit for force pipeline
    • 32 force pipelines (PPIP) on a chip (cf. MD-GRAPE3 20 pipelines @ 350 MHz)
  • flexible subsystemが残りの計算をすべて行う
    • FFTによる長距離力
    • 数値積分
    • bond force
    • 拘束条件の適用
    • カスタマイズされたTensilicaのcoreに4-vector SIMD演算器を2個(こちらは独自設計らしい)
    • correction pipelineはPPIPと等価
  • 使い方は詳しく書いてないが、少なくともTensilicaのcoreとSIMD演算器のプログラムが必要だろう。
  • 比較に使われているMD-GRAPE3の結果が遅すぎるような気もする。

  • Antonと比べるとMD-GRAPE3のアプローチは、システム全体の総演算速度では圧倒的に大きいが、Nが小さい系(<105くらい?よくわからない)をミリ秒くらい計算したいという用途には、有効ではないということになる。この様な計算は、1 stepあたり1010演算を109ステップ計算する必要があるので、総演算量は1019演算となる。これはNが単純に大きい大規模計算より困難があって、それはたった1010演算ごとにglobalな同期が必要であるので、1 PFLOS(1015)の計算速度をもつような超並列計算機では効率があがらないため。

Makefile, Rakefile, and OMakefile

OMakeを使うとc-x c-s c-z make [enter]のループから開放される!!!!

ソース http://omake.metaprl.org/index.html

ドキュメント http://omake.metaprl.org/manual/omake.html

日本語のまとめ http://unicus.ddo.jp/omake-wiki/index.php

だけでなくlatexのコンパイルからdviファイルそしてPDFの生成まで自動的にしてくれるのは、本当に便利なので、これだけでも使う価値がある。build systemとしては、まだテスト中。

http://d.hatena.ne.jp/hayamiz/20081208/1228727272

top levelのOMakefileで、変数を定義するときには以下のように、".SUBDIRES"の前で定義しないと、sub directoryのbuild時に反映されない。top levelのOMakefileの例:

.PHONY: clean

LIBDIR = /usr/local/lib/foobar
.SUBDIRS: subdir1 subdir2

QPACE

PowerXCell 8iをカスタムネットワーク(FPGAで実装)で接続したQCD用の計算機。

http://en.wikipedia.org/wiki/QPACE

http://www.itwm.fhg.de/hpc/workshop/mic/Qpace_(Dirk_Pleiter_-_Desy).pdf

概要は後者のプレゼンファイルがわかりやすい。PowerXCell 8iとVirtex5 LX110Tを同一ボード上に実装して、3次元のトーラスネットワークを実現。Virtex5から6本のlocal通信ネットワークと、1本のethernetを引き出す。localネットワークは10GbE PHYのチップ(PMC Ceirra PM8348, XAUI, 1 GB/sec(10B/8Bのあと))を6個外付けしている。

2009年2月のミーティングでのPDF http://www.fz-juelich.de/jsc/juice/eQPACE_Meeting_PDFs

FireStreamの件

今日配布されたuniv2000(http://www.univ2000.com/ )のちらしに、 FireStream9270/9250の広告があった(これらはmodel numberから4400を引いてHDをつけたRadeonと同じものだろう)。ACUBEという会社が元の代理店。http://www.acube-corp.com/products/firestream/

値段は「アカデミックプライス」だと超高いというほどでもなく、4400引いたものの秋葉原価格x5くらい。結果的に、値段はTeslaのアカデミック割引価格とほとんど同じになっている。パフォーマンスあたり価格はこちらのほうが上。上のURLには2年保証とあるが、アカデミックバージョンが2年保証かどうかはちらしには書いてなかった。