Four Over Six — NVFP4量子化を改善するAdaptive Block Scaling
2025/12/2
NVidiaの4ビット浮動小数点(NVFP4)量子化の精度を向上させる手法「Four Over Six(4/6)」の実装リポジトリ。効率的なNVFP4量子化と行列乗算のカーネル、そしてポストトレーニング量子化の高速化を提供し、学習済みモデルをほとんど再学習せずに低ビット化して推論効率を高めることを目的とする。リポジトリはPythonを中心としたコードで、カーネルやユーティリティを含む構成になっている(300字程度)。