Context Navigation

Version 18 (modified by nakasato, 17 years ago) (diff)
--

基本情報

Shader Processorが800個搭載されており、それぞれが単精度でMultiply-Addが可能なprocessorである。実際には、単純に単精度演算ができるprocessor(Stream Core)が4個と関数演算もできるprocessor(T-Stream Core)が一緒になって、128 bitレジスタをもつ5 wayのVLIW processor(Thread Processor)になっているらしい。さらに、このTPが、X個づつまとまって、メモリを共有している(shared buffer)と思われる。

以上のことから単精度での理論性能は以下の式で計算される：

 単精度性能 = (Number of TP) * 5 (ways) * 2 (FP ops) * clock (MHz) = X MFLOPS

倍精度については、生成されたR770のアセンブラソースを見ると：
- 加算はStream Coreを2個利用
- 乗算はStream Coreを4個利用
- 除算は単精度の初期値をつかってどうにか

のように実行されるようだ。結果的に倍精度加算の性能は単精度性能の1/5となり、乗算は1/10になる。

x2のボードは単純に2倍の性能

以下は2008年度卒研用に中里が作成したものである。SDKのバージョンが1.2.1betaの時点での情報である。利用しているGPUボードは、HD4850 512MBのもの。HD4870 1GBのボードでも同様に利用できている。