codemass - コードベースのトークン数とAI APIコストを簡単に計測するツール
概要
codemassは、ソースコードやドキュメントなどのテキストファイルのトークン数を正確にカウントし、それを基に主要な大規模言語モデル(LLM)におけるAPI利用料金を事前に見積もることができるツールです。TypeScriptで実装されており、複数のモデルに対応した価格計算機能を備えています。ユーザーの.gitignore設定を尊重し、バイナリファイルや不要なファイルは解析対象から除外。ファイルタイプごとのトークン分布を詳細に表示し、効率的かつ経済的なAI活用を支援します。
リポジトリの統計情報
- スター数: 3
- フォーク数: 0
- ウォッチャー数: 3
- コミット数: 5
- ファイル数: 11
- メインの言語: TypeScript
主な特徴
- 全テキストファイルに対応したユニバーサルトークンカウント機能
- 10種類以上の大規模言語モデルに対応したAPIコストの自動推定
.gitignoreやバイナリファイルを考慮したスマートなファイル除外機能- ファイルタイプごとのトークン分布を詳細に可視化し解析可能
技術的なポイント
codemassの最大の特徴は、コードベースのトークン数を高精度で計測し、AIのAPIコストを事前に推定できる点にあります。トークンカウントは大規模言語モデルの基本単位であり、API利用料金はこのトークン数に依存します。したがって、実際にモデルに投入する前にトークン数を把握し、コストを見積もることは非常に重要です。
TypeScriptで実装されているため、モダンなJavaScript環境で容易に導入でき、Node.jsベースの開発フローに自然に組み込めます。codemassは単なる文字数カウントではなく、OpenAIや他の主要LLMプロバイダーが実際に使用するトークン化アルゴリズムを模倣し、正確なトークン数を算出します。これにより、API利用コストの予測精度が大幅に向上します。
また、解析対象のファイル選定にも工夫があります。ユーザーが設定した.gitignoreを尊重し、そこに記述されたファイルやディレクトリは自動で除外。さらにバイナリファイルも検出してスキップし、無駄な解析を防ぎます。これらの機能により、対象範囲の絞り込みが柔軟かつ簡単に行え、実際のプロジェクト構成に即した正確なトークン数計測が可能です。
対応モデルは10種類以上で、OpenAIのGPTシリーズをはじめ、各モデルの最新価格情報を内蔵しています。計測結果からモデルごとのコスト比較ができるため、用途や予算に合わせた最適なモデル選択を支援します。
結果はコマンドライン上でファイルタイプ別にトークン数を詳細表示し、例えばJavaScript、Markdown、JSONなど、どのファイルにトークンが多く集まっているかを直感的に把握可能。これにより、モデルに投入するデータの最適化や不要ファイルの除外検討にも役立ちます。
以上のように、codemassはAI活用におけるコスト管理とデータ準備の効率化を実現し、LLMを使った開発や研究をよりスマートにするツールです。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitattributes: git属性設定ファイル
- .gitignore: 除外するファイルやディレクトリを指定
- LICENSE: ライセンス情報
- README.md: プロジェクト概要と使用方法
- build.ts: ビルドスクリプト
- その他計11ファイルで構成されており、主にTypeScriptコードと設定ファイルが含まれる
まとめ
コードのトークン数とAI利用コストを簡単に管理できる優れたツール。
リポジトリ情報:
- 名前: codemass
- 説明: Weigh your code in tokens - calculate AI API costs for your codebase
- スター数: 3
- 言語: TypeScript
- URL: https://github.com/kenn/codemass
- オーナー: kenn
- アバター: https://avatars.githubusercontent.com/u/10350?v=4