「元テスラAIマネージャーがたった24時間でGPT-2を再構築、驚きのコストはわずか672ドル！」

OpenAIが2019年に発表したGPT-2モデルは、当時そのトレーニングに1時間あたり256ドルのコストがかかると報告されていました。しかし、5年後にはGPT-4に到達し、ハードウェアやソフトウェアの進化、データ処理の効率化によって、大規模言語モデル（LLM）のトレーニングコストと時間が大幅に削減されました。例えば、テスラの元人工知能ディレクターであるアンドリイ・カープァティ氏は、GPT-2をわずか24時間で672ドルで再構築することに成功しました。

トレーニングコスト削減の主な要因は、NVIDIA H100チップを8枚使用するだけで済むことです。これにより1時間あたりのコストは28ドルとなり、5年前と比較して約90%も削減されます。H100チップは2023年に登場したため、おそらくOpenAIが最初にGPT-2をトレーニングした際には性能の劣るハードウェアが使われていたでしょう。それでもなお、GPT-4のトレーニングには1億ドル以上かかると評価されています。

カープァティ氏によれば、「llm.c」はCUDAコアを直接利用してGPTをトレーニングするため、その要件が非常に少なくなります。この手法ではCondaやPythonインタプリタ、ライブラリのインストールなどが不要です。クラウドノードとGPUをセットアップし、必要ならばNVIDIA cuDNNやNCCLまたはMPIをインストールし、バイナリデータをダウンロードしてコンパイルすれば数分で作業が開始できます。そして24時間後にはモデルが完成します。

このプロジェクト「llm.c」は元々教育用ビデオシリーズとして始まりました。しかしPyTorch関連の問題から独自に構築されたものです。

一方で、高度なAIモデルのトレーニング費用は依然として高額です。Anthropic社CEOのダリオ・アモディ氏によれば、一部のAIモデルは既に10億ドル以上の費用がかかっており、その額は2025年までには1000億ドルにも達すると予測されています。その理由として、高性能なハードウェア自体も値上がりしていることがあります。例えばNVIDIA H100チップ1枚あたり現在4万ドルですが、新世代チップ「Blackwell」では7万ドルになる見込みです。また完全なサーバーラックシステムでは300万ドル以上になる可能性があります。

さらに、高性能なAIセンターへの電力需要も増加しています。一例としてNVIDIA H100チップ1枚だけでも年間3.7メガワット時（MWh）の電力を消費します。昨年販売された推定380万台以上のAI向けGPU全体では年間14.3テラワット時（TWh）もの電力消費量となり、これは130万世帯分のエネルギー供給量にも匹敵します。

Google DeepMind CEOによれば現在のAIモデルはまだ猫程度の知能しか持たないため、更なる投資が必要だと言います。ただし古いモデルを利用する場合、多額な資金は不要で適切な知識さえあれば数百ドル程度で構築可能です。このような技術革新のおかげで、大規模言語モデル（LLM）の未来にはまだ多くの可能性があります。

Source link