倍精度浮動小数点演算性能重視のおすすめグラフィックボードの比較 NVIDIA Quadro,Tesla、AMD FirePro等を横断評価

グラフィックボードのほとんどは単精度浮動小数点演算能力を重視しており、倍精度浮動小数点演算能力は気休め程度しか用意されていません。

金融分野では倍精度どころか4倍精度以上が必要なほど小数の精度が重要です。実測を伴う分野では測定誤差があるので有効数字の桁数分だけ小数精度があればいいですが、金融分野で扱う価格などのデータは測定誤差が無いため有効桁数が無限大であり非常に大きなビット数を用意した仮数部が必要です。

ここでは倍精度を重視したグラフィックボードを掲載しています。ゲーム用はこちらに別掲しています。

1位 NVIDIA Quadro GV100
5,120コア
単精度14.8Tflops、倍精度7.4Tflops、TDP250W

2018年3月にリリースされた12nmプロセスで製造され815平方mmのチップ(ダイ)面積を持つGPUです。

このGV100は5,120コアであり、16nmプロセスのQuadro GP100の3,584コアから+42.86%増加しています。単精度flops値も倍精度flops値も、GP100とGV100を比較すると+48%増となっています。

微細化とチップ面積の増加によるコア数の増加で達成された+42.86%の性能向上に加えて、PascalアーキテクチャをVoltaアーキテクチャに置き換えたことによるアーキテクチャの改良の両輪で+48%の性能向上を達成しています。

・NVIDIA Quadro GV100 EQGV100-32GER

Displayport×4、メモリ32GB

・NVIDIA Tesla V100 32GB ETSV100-32GER

ディスプレイ出力端子なし、メモリ32GB

・NVIDIA Tesla V100 16GB ETSV100-16GER

ディスプレイ出力なし、メモリ16GB

2位 NVIDIA Quadro GP100
3,584コア
単精度10Tflops、倍精度5Tflops、TDP235W

2017年2月に16nmプロセスの中では最上位のグラフィックボードが発表されました。2017年3月発売です。16nmプロセスで製造されるチップを用いたDiscrete GPUとしては最大限の性能です。

Quadroはゲーム向けではないと思っている人が多いですが、これは普通にゲーム用でも使えます。単に倍精度演算性能がオーバースペックなだけです。

ゲーム用途ではグラボの「単精度」浮動小数点演算の能力が大変重要です。「倍精度」浮動小数点演算はゲームにおいては重要ではありません。

国土交通分野などのインフラの設計などにおいては小数演算の誤差が出ると建造物の崩壊に繋がり人命にかかわります。だからそのような分野では最低でも倍精度、場合によっては4倍精度以上を使ったり、究極的には浮動小数点演算を使わず整数に直すことで情報落ちを防ぎます。一方でゲームは所詮ゲームなので最終的に液晶ディスプレイに映ったものを人間が視覚で認識すればそれで全て完結します。ゲーム上での物理描画の位置座標に多少の小数誤差があっても何の問題もないからです。

このQuadro GP100は「単精度」浮動小数点演算が10テラFlopsありますが、これは1080tiの「単精度」浮動小数点数演算能力とほぼ同じです。1080tiも10TFlopsあります。これはQuadro GP100も1080Tiも単精度CUDA Coreが同数である3,584コアということからもわかります。

Flopsとは1秒間あたりにできる小数演算の回数です。10TFlopsだとつまり1秒間に10兆回も小数の計算をできる能力があることになります。なぜ小数かというと整数演算は短時間でできるからです。小数は演算に時間がかかります。小数の中でも乗算(かけ算)と除算(割り算)の時間がかかり、特に除算についてはとてつもなく時間がかかるため、この乗算・除算を1秒間でいかに多く計算できるかがグラボの性能を決定します。

では1080tiとこのQuadro GP100は何が違うのかというと、「倍精度」浮動小数点演算の性能が決定的に異なります。Quadro GP100は倍精度用の演算器が1,792コアもあります。これが1080tiとの明確な違いでありQuadro GP100の特徴を決定づけています。

このQuadro GP100の「倍精度」浮動小数点演算能力は5TFlopsもあり、1080tiがたったの0.36TFlopsしかないのとは大違いです。

5TFlopsと言っても実感がわかないでしょうが、日本国内にあるスパコン「京コンピュータ」は倍精度で10,000TFlops=1京Flopsの性能があります。つまりこのQuadro GP100を2,000台用意してスケールするようにうまく接続・活用できれば理論上は京コンピュータと同等の性能を持ったコンピュータが誕生します。

この倍精度の演算能力の違いが、ゲーム用とされるGeForceと、業務用とされるQuadroの決定的な違いです。

実は、Quadro GP100が発表される以前のQuadro P6000などでは、この「倍精度」の演算能力が非常に冷遇されていました。それはNVIDIA社がゲーム用に非常に注力しており、設計コスト削減のために単精度を重視した設計をQuadroでも使いまわしていたからです。

なんだかんだいってグラボの一番のお客さんはゲーマーです。CADをやったり科学技術計算をしている人なんて極々一握りです。だからこそNVIDIAは「単精度」演算能力を重視しておりそれはQuadro G100以前まではQuadroでも「単精度優遇」だったのですが、今回のQuadro GP100は今までのこの流れを一気にぶった切りました。

その理由は、IntelがXeon PhiでNVIDIAの市場を奪おうとしているため、NVIDIAが対Intelとして倍精度浮動小数点演算を重視しはじめたからです。

今のところ、機械学習の一分野である深層学習で使うコプロセッサとして、QuadroシリーズはIntelより優位に立っています。なぜなら深層学習では倍精度までは必要なく単精度で十分だからです。

ですが金融分析などの他の科学技術計算となるとNVIDIAは劣勢です。今のところ単精度はNVIDIA、倍精度はIntelと住み分けができてきましたが、Intelが単精度も強化して深層学習用プロセッサとしても主導権を握ろうとしているのがNVIDIAにとって脅威なわけです。

実際にIntelがXeon Phiの第2世代を投入してきたことでNVIDIA社のQuadroシリーズにとって脅威となってきました。使い勝手はIntel社のXeon Phiの方が上だからです。第2世代のXeon Phiプロセッサは、ホストプロセッサとしてOSをブートさせることができタスクマネージャに載ります。しかしNVIDIAのQuadroやGeForceはあくまでもコプロセッサなので、グラボにOSをインストールして起動したり、またタスクマネージャでグラボのコアを感知することができません。そのためNVIDIAのCUDA Coreを用いるには、プログラムで明示的にグラボの演算器を使うためのコードを別途書かなければならないわけです。ところがXeon Phiはそんな面倒なことは不要です。OS側でXeon Phiのコアを把握できているので、単にスレッドを複数生成してあげるだけで勝手に並列化してXeon Phiで実行してくれます。

第2世代Xeon Phiは単精度で6.912TFlops、倍精度で3.456TFlopsであり、今回のQuadro GP100の方が上回っています。

今回のQuadro GP100は明らかにIntel Xeon Phiに対する宣戦布告であり、NVIDIA社もIntel社もお互いに科学技術計算の計算分野で遅れを取るまいと必死に競い合っています。

今回のQuadro GP100はそのような文脈の中で誕生してきたものです。だから以前までのQuadro M6000などとはかなりコンセプトが異なっています。

2017年中にはIntelがXeon PhiのKnights Millという深層学習を意識した新しいチップを投入します。それまではこのQuadro GP100が一位の座につき続けるでしょう。

価格はだいたい80万円くらいになるようです。

まとめると、このQuadro GP100はゲーマーからしても科学技術計算用途の人からしても十分な性能です。ただゲーマーからすると倍精度浮動小数点演算能力がオーバースペックなので1080tiで十分でしょう。

SSランク 菱洋エレクトロ(日本企業、東証第一部上場)

Sランク ELSAジャパン(日本企業)

・NVIDIA Quadro GP100 EQGP100-16GER 16GB

3位 NVIDIA Quadro P6000
3,840コア
単精度10.156TFlops、倍精度0.375TFlops
TDP250W

Quadro M6000の後継として2016年11月に発売されたグラフィックボードです。単精度浮動小数点演算能力は1080Tiの方が上ですが、倍精度浮動小数点演算能力ではこのQuadro P6000の方が上を行っています。深層学習なら1080TIの方がいいでしょうが、金融分析などの科学技術計算分野でコプロセッサとして使う人は1080TiよりQuadro P6000の方が高い演算能力を得られます。

Aランク ELSAジャパン

・NVIDIA Quadro P6000 EQP6000-24GER

4位 NVIDIA Quadro M6000
3,072コア
単精度6.07TFlops、倍精度0.19TFlops
TDP250W

Quadro P6000より一つ古い製品です。単精度の能力も倍精度の能力もゲーム向けの1080の方が高くなっています。発売時期に1年近い開きがあるので仕方ないとも言えます。

最大同時表示画面数は4画面。

単独Aランク ELSAジャパン

・NVIDIA Quadro M6000 24GB EQM6000-24GER 24GB

2016年4月発売。

・NVIDIA Quadro M6000 EQM6000-12GER 12GB

2016年4月発売。

5位 NVIDIA Quadro M2000
768コア
単精度1.812TFlops、倍精度0.0566TFlops
TDP75W

単独Aランク ELSAジャパン

・NVIDIA Quadro M2000 EQM2000-4GER

Displayport出力x4。2016年4月発売。

番外1位  NVIDIA Tesla K80
4,992コア
単精度5.60Tflops、倍精度1.87Tflops
TDP300W

このボードはグラフィックス出力がついていません。HDMIやDisplayポートが一切ついていないわけです。その理由はこのボードは単にSIMD演算を行ったり各コアで並列計算をするための計算専用ボードだからです。

映像出力用としてはこのボードはほぼ利用価値がありませんが、深層学習などでCUDA Coreをコプロセッサとして用いて科学技術計算をしようとしている人にはとても価値があります。

ただ倍精度浮動小数点演算の能力が貧弱なので、金融分析などの倍精度・4倍制度以上を必要とする科学技術計算用途ではXeon Phiの方がいいでしょう。

単独Aランク ELSAジャパン

・NVIDIA Tesla K80 ETSK80-24GER 24GB

2015年1月発売。

番外2位 NVIDIA Tesla P4
2,560コア
単精度5.50Tflops、倍精度0.17Tflops
TDP50W、75W

深層学習(ディープラーニング)に特化しているような構成のボードです。倍精度は不要とばかりにほぼ完全に削られています。単精度が重要な深層学習という応用分野でしか使えず、金融関連では厳しいです。

NVIDIAはIntelのXeon Phiと差別化するために深層学習分野に生き残りをかけているので、この分野に特化する方向性で今後も行くのでしょう。

またこの製品のメリットはTDPがたったの50Wしかないことです。Core i7 7700KがTDP91W、7700が65Wであることからその辺のホストプロセッサ用CPUよりも低消費電力です。

よってこのチップを搭載した製品はファンレスですし、冷却にさほど気をつかわなくてもケースファンさえ動いていれば余裕で冷やせるでしょう。

50Wと75W版はそれぞれ動作周波数からコア数からすべて同じです。なぜ消費電力が違って公称スペックが同じなのか謎ですが、演算器の数や周波数は同じだけれども、ソフトウェアがそれらをフルに同時に使い切れることなんてほぼないのだから、高々50Wに抑えるように内部的にパイプラインを制御したり命令発行を制御するようになっているのかもしれません。家庭用の趣味として使うなら75Wでいいでしょうが、最初に上限の電源容量ありきで研究室の一角にコンピュータを導入しなければならないときには50Wモデルにしつつ台数を増やすことが優先されるでしょう。

単独Aランク ELSAジャパン

・NVIDIA Tesla P4 50W ETSP4W-8GER 8GB

TDP50W版。動作周波数、メモリ容量、演算器数などのスペックは75W版とすべて一緒。

・NVIDIA Tesla P4 75W ETSP4-8GER 8GB

TDP75W版。