KVSplit:Apple Silicon向け長文コンテキスト対応LLMのための効率的KVキャッシュ量子化
2025/5/22
KVSplitは、Apple Silicon(M1/M2/M3)上で大規模言語モデル(LLM)をより長いコンテキストで実行可能にするための革新的なKVキャッシュ量子化技術を提供します。キーを8ビット、バリューを4ビットで量子化することで、メモリ使用量を約59%削減しつつ、品質低下を1%未満に抑えています。セットアップはワンコマンドで簡単に行え、性能ベンチマークや可視化機能も備え、MetalによるGPU最適化も実装。Apple Siliconユーザーに最適なLLMメモリ効率化ソリューションです。