ビデオリサーチ公式テックブログ

ビデオリサーチ公式テックブログ

NVIDIA H100の稼働音と大規模言語モデルのパラメータ数の相関

こんにちは、ビデオリサーチのヤナギタです。

前回のブログ「NVIDIA H100でビデオリサーチのAI研究はさらに活性化!!」でお伝えした通り、ビデオリサーチではNVIDIA GPUのH100を購入し、大規模言語モデル(LLM)研究を推進するためのサーバを設置しました。今回は、そのサーバを使ってLLMのデータ学習基盤を構築し、実際に動作させた際に起きたことと、それを契機として行った、ちょっとした検証のお話をしたいと思います。

大規模モデルの稼働で事件発生?

私たちの研究チームが現在ベースとして用いているLLMは8Bの大きさのモデルなのですが、ご承知のようにAIの世界は進化が早く、継続的にモデル更新の可能性を探っていく必要があります。そのような背景から、ある日、サーバでいつもよりも少し大き目のLLMを実験的に稼働させていました。すると私のもとに、「サーバルームで大きな音が鳴っているが大丈夫か!?」という連絡が!!
慌ててサーバルームに駆け付けたところ、その音を聞いたことのある私の耳にはすぐにH100の稼働音だということが分かったのですが、聞いたことのない方々はいつもよりも大きな音にびっくりされたようで社内(サーバルーム近辺)が軽い騒ぎになっていました。

騒音レベルの測定

それまでに研究ベースの8BのLLMは何度も稼働させていたのですが、そのような騒ぎは起こっていませんでした。稼働させるLLMの大きさによってそんなに音の差が出るのだろうか、と、興味をそそられましたので、 H100を使った際の騒音レベルがどのように変化するのか、異なる大きさのLLMを稼働させた場合の騒音レベルを測定してみることにしました。

GPU非稼働時の騒音レベル
まず、GPUを使う処理を全く走らせていない状態での騒音レベルを測定しました。この時の騒音レベルは約50dbで、これは静かなオフィスのような環境音と言えるレベルです。

■8B LLMでの推論実行時の騒音レベル
次に、研究のベースである8BのLLMで推論を実行したときの騒音レベルを測ったところ、70db弱程度まで上昇しました。これは、通常の会話音量程度ですので、サーバが稼働していることはわかるものの騒音というほどまでにはなっていない状況です。

■12B LLMでの学習実行時の騒音レベル
最後に、12BのLLMで学習を行っている時の騒音レベルを測定してみました。(細かい補足ですが、LoRAによるパラメータの追加などはあり、また、メモリ節約処理なども意図的に外してみました。)この時、騒音レベルは80db強まで上昇しました。80dbというと、電車内の騒音と同等となりますので、サーバルームの普段の静けさと比べると結構大きな音が出ていることが分かります。ちなみにこの時、サーバのメモリは90%以上使用され、電力消費もほぼフルパワーで行われているようでした。最初に書いた、社内で少し騒がれたときの音も、(私の体感的に)この大きさの音だったと思います。

大規模データセンターの騒音を想像

今回測定したのは1台構成のH100でしたが、クラウドサーバなどでは何百台、何千台以上のGPUが稼働しています。その音の大きさを想像すると、まさにAIの咆哮が響き渡っているのではないかと身震いしますね。

まとめ

今回は、初めてH100の稼働音を聞いた人がびっくりしたという私たち社内の事件を発端として、動かすLLMの大きさとH100の稼働音にどのような相関があるのだろうと、興味本位で何パターンかのLLM処理時のH100稼働音の大きさを測ってみました。もちろん単純にモデルの大きさだけが要因となるわけではなく、また、音を測ったからといってLLMの性能が上がるわけでは全くないのですが、生成AIの発展を司っているといっても差し支えないGPU単体の稼働音というのもなかなか聞く機会もないので、それなりに興味深い検証だったのではないかと個人的に思っています。 今後もこのような(あまり意味はないかもしれない?)実験結果なども発信していけたらと思います。