### 四倍精度専用プロセッサ GRAPE-MPの性能評価 <sup>中里直人</sup>(会津大学), 台坂博(一橋大学), 石川正(KEK), 湯浅富久子 (KEK), 牧野淳一郎(東工大)

### Agenda

### ◎ GRAPE-MPの紹介と性能評価 ◎ OpenCLによる四倍精度演算 (preliminary)





### 高精度演算の手法

◎FP演算器によるソフトウェア実装 ◎ 1演算につき約20回のFP演算が必要 ◎ FMAなしCPUでは1 coreあたり ~ 100 Mflops AMD GPU ~ 30 - 40 Gflops (中里によるテスト) ● NVIDIA GPU ~ 30 Gflops (中田 2011) ●INT演算によるソフトウエア実装

### GRAPE-MPの概要 ◎四倍精度演算器をハードウエアで実装 ◎ 独自形式の128 bit 浮動小数点フォーマット GRAPE-DRアーキテクチャを踏襲:SIMD計算器 省メモリアーキテクチャ:演算密度の高い演算向け

- PCI-Expressによりホスト計算機と接続して利用
- Structured ASIC(eASIC)の採用
  - eASICとFPGAは演算粒度は同程度(どちらもLUTを利用)だが、FPGAではLUT間の配線が再構成可能なのに対し、eASICでは配線層が固定されてる。原理的に性能あたりの単価はeASICのほうが安い。一方FPGAではチップの開発コストは必要ない。

### GRAPE-MPボード



Control processor<br/>(FPGA by Altera)GRAPE-MP chip[Nextreme NX2500]<br/>(structured ASIC by eASIC)

ホスト計算機からFPGAを介してGRAPE-MPを制御する FPGAにPCI-Express x4 Gen.1を搭載 FPGAのメモリに「プログラム」を保持





• 2 演算 x 100MHz x 6 PE = 1.2 Gflops

• 4 "論理"pipelines x 6 PE = 24 pipelines /chip

Cases an inference in 1967

### GRAPE-MPの演算ユニット(PE)



### PEのプログラム

### 。命令は63ビットのマイクロコード

| (0)     | • | nop if 0                                       |
|---------|---|------------------------------------------------|
| (1)     | • | sub?                                           |
| (2-8)   | • | grf_a adr 7 bit                                |
| ( 9-15) | • | grf_b adr 7 bit                                |
| (16-22) | • | grf_c adr 7 bit                                |
| (23-29) | • | grf_d adr 7 bit                                |
| (30-31) | • | TREG adr 2 bit                                 |
| (32-34) | • | ADD 1st arg : a,b,bm,t,ti                      |
| (35-37) | • | ADD 2nd arg : a,b,bm,t,ti                      |
| (38-40) | • | MUL 1st arg : a,b,bm,t,ti                      |
| (41-43) | • | MUL 2nd arg : a,b,bm,t,ti                      |
| (44 )   | • | RSQ 1st arg : t,ti                             |
| (45-46) | • | grf_c write : add, mul, rsq                    |
| (47-48) | • | grf_d write : add, mul, rsq                    |
| (49-50) | • | treg write : add, mul, rsq                     |
| (51)    | • | bm out                                         |
| (52-55) | • | bm mask : 1000 => 0, 1001 => 1, 1010 => 2 etc. |
| (56-62) | • | bm adr 7 bit (128 words)                       |

### eXtended-Double (XD)変数 ☞ GRAPE-MPでの数値フォーマット



<sup>1</sup>1bit for sign

ホストでDD/QD to XDなどを変換

場合によってはボトルネックに

。丸め処理はforcel

GRAPE-MP開発の経緯(1)

2008年8月
eASICでのプロセッサ開発の検討(牧野)

- ◎ 三つの設計案を検討(中里, 牧野)
  - ◎ GRAPE-DRを拡張(捨てられているビットを保持)
  - 整数の演算器をたくさん並べる
  - ◎ 128ビット演算器を採用する
- 12月頃に第三案を採用することに決定

GRAPE-MP開発の経緯(2) 2008年12月-2009年1月

◎ 設計にとりかかる(中里)

● HDLでの演算回路とプロセッサの設計とテスト

2009年1月-4月
 1月17日「GRAPE-MP」と命名
 回路設計とシステムソフトなどの実装(中里)
 物理設計担当会社との打ち合わせ(中里, 牧野)

GRAPE-MP開発の経緯(3) 2009年4月 4月30日テープアウト
7月下旬チップが届く

◎ 7月 - 12月

● GRAPE-MPボードの設計(台坂)

アセンブラやシステムソフトの整備(中里)

◎ 2010年4月

◎ GRAPE-MPボードが納品される

GRAPE-MP開発の経緯(4) 2010年4月-

- ◎ FPGA回路の設計とプログラミングインターフェースの実装(台坂,中里)
  - PCI-Expressコアとのインターフェース
  - ループ演算に対応した制御回路の実装
  - エミュレータと実機での動作を統一して扱えるAPIの実装
- この年の後半ころから性能評価をおこなった
  - 重力多体問題
  - ◎ ファインマン積分(二重指数積分)の計算

### FPGAによる制御について

### GRAPE-MPボードのブロック図



- IO control processor をGRAPE-MP チップから分離
  - MP チップのPE数を最大にするため
  - 開発を簡単にするため

### ホストプログラムの概要

- セットアップ(命令列の転送など)
- ◎ 共有メモリへのデータ転送
- ◎ 各PEのレジスタへのデータ転送
- 命令列(カーネル)の実行
   共有メモリからデータをロードし命令列を実行
   共有メモリがつきるまで繰り返し実行
   結果を共有メモリへ書き込み
   結果をホスト側へ転送

$$f_i = \sum_{j=1}^N \frac{m_j(x_i - x_j)}{(|x_i - x_j|^2 + \epsilon^2)^{3/2}}$$

# GRAPE-MPアセンブラ プログラミング用にアセンブラを実装 三つ組で書いたコードをマイクロコードに変換 全ての命令はベクトル長4として扱われる

sub bm16v ra0v rb40v sub bm20v ra4v rb44v sub bm24v ra8v rb48v mul rb40v rb40v ra36v mul rb44v rb44v tt add ra36v ts ra32v mul rb48v rb48v tt add ra32v ts tt

| 1006600214000003 | 3 0001000000001100110000000000000000000       |
|------------------|-----------------------------------------------|
| 1106600214800007 | / 000100010000011001100000000000000010000101  |
| 120660021500000k | > 0001001000000110011000000000000010101       |
| 1306600215800001 | E 0001001100000110011000000000000010000101    |
| 1406600216000013 | 3 0001010000001100110000000000000010110       |
| 1506600216800017 | / 0001010100000110011000000000000010000101    |
| 160660021700001k | > 0001011000000110011000000000000100001       |
| 170660021780001f | £ 00010111000001100110000000000000010111      |
| 1806600218000023 | 3 000110000000110011000000000000001000011000  |
| 1906600218800027 | 7 0001100100000110011000000000000001000011000 |
| 1a0660021900002k | o 0001101000000110011000000000000000100011001 |
| 1b0660021980002f | E 00011011000001100110000000000000010001      |
| 7a24000245001    | 000000000001111010001001000000000000000       |
| 7a24000255201    | 000000000001111010001001000000000000000       |
| 7a24000265401    | 000000000001111010001001000000000000000       |
| 7a24000275601    | 000000000000111101000100100000000000000       |
| 3e24000005801    | 000000000000111110001001000000000000000       |
| 3e24040005a01    | 000000000000111110001001000000000000000       |
| 3e24080005c01    | 000000000000111110001001000000100000000       |
| 3e240c0005e01    | 000000000000111110001001000001100000000       |
| 7802000200091    | 000000000001111000000001000000000000000       |
| 7802000210095    | 000000000001111000000001000000000000000       |
| 7802000220099    | 000000000001111000000001000000000000000       |
| 780200023009d    | 000000000001111000000000000000000000000       |
| 3e24000006001    | 000000000000111110001001000000000000000       |
| 3e24040006201    | 000000000000111110001001000000000000000       |
| 3e24080006401    | 000000000000011111000100100000010000000       |
| 3e240c0006601    | 000000000000011111000100100000011000000       |
| 1e0200000081     | 000000000000011110000000100000000000000       |
| 1e02040000085    | 000000000000011110000000100000100000000       |

### LSUMPプログラミングシステム 総和計算の並列化用DSL GRAPE-MP, GRAPE-DR, GPUなどに対応

#### ◎ 単精度、倍精度、四倍精度をサポート

VARI xi, yi, zi, e2; VARJ xj, yj, zj, mj; VARF ax, ay, az, pt;

dx = xj - xi; dy = yj - yi; dz = zj - zi; r1i = rsqrt(dx\*\*2 + dy\*\*2 + dz\*\*2 + e2); pf = mj\*r1i; pt += pf; af = pf\*r1i\*\*2; ax += af\*dx;

bm\_in bm12v ra12v pe0 bm\_in bm8v ra8v pe0 bm\_in bm4v ra4v pe0 bm\_in bm0v ra0v pe0 mov zz ra16v mov zz ra28v mov zz ra24v mov zz ra20v sub bm16v ra0v rb40v sub bm20v ra4v rb44v sub bm24v ra8v rb48v mul rb40v rb40v ra36v mul rb44v rb44v tt add ra36v ts ra32v mul rb48v rb48v tt add ra32v ts tt 11. 10

### GRAPE-MPの性能評価

#### テスト環境

- CPU:Intel Core i7 920 (OC 3GHz)
- MEM: DDR-1333 12GB (1208MHz動作)
- MB: Asus P6T6 WS Revolution (6PCle スロット)
- 6ボードを搭載して性能評価



ファインマン積分



• 41 N<sup>3</sup> 演算

### ファインマン積分の性能評価



複数ボードでの性能評価



### N体計算の性能評価





# 多倍長演算ハードウエアの例 (2) 泊&平木 (2011) SWoPP'11 八倍精度演算器をFPGAで実装:~ 80 MHz 537 Mflops :POWER7の8 coreの約5倍高速



### GRAPE-MPまとめ

### 四倍精度演算用SIMD型計算機 世界で初めての高精度専用計算機 1ボードあたり1.2 Gflopsの性能 総和演算では有効に利用可能

● 複数ボードでの並列化もスケールする

### SGEMM/DGEMM on GPU





#### **Maximum Performance**

|                     |                            | System A        | System B        |  |
|---------------------|----------------------------|-----------------|-----------------|--|
|                     | Variant                    | Perf. [GFlop/s] | Perf. [GFlop/s] |  |
| DGEMM               | $C \leftarrow A^T B + C$   | 419             | 467             |  |
|                     | $C \leftarrow AB + C$      | 417             | 467             |  |
|                     | $C \leftarrow A^T B^T + C$ | 418             | 467             |  |
|                     | $C \leftarrow AB^T + C$    | 400             | 466             |  |
| SGEMM               | $C \leftarrow A^T B + C$   | 1455            | 2010            |  |
|                     | $C \leftarrow AB + C$      | 1436            | 2010            |  |
|                     | $C \leftarrow A^T B^T + C$ | 1442            | 2010            |  |
|                     | $C \leftarrow AB^T + C$    | 1301            | 1577            |  |
| Matsumoto etal. 201 |                            |                 |                 |  |