codemass - コードベースのトークン数とAI APIコストを簡単に計測するツール

Tool

概要

codemassは、ソースコードやドキュメントなどのテキストファイルのトークン数を正確にカウントし、それを基に主要な大規模言語モデル(LLM)におけるAPI利用料金を事前に見積もることができるツールです。TypeScriptで実装されており、複数のモデルに対応した価格計算機能を備えています。ユーザーの.gitignore設定を尊重し、バイナリファイルや不要なファイルは解析対象から除外。ファイルタイプごとのトークン分布を詳細に表示し、効率的かつ経済的なAI活用を支援します。

GitHub

リポジトリの統計情報

  • スター数: 3
  • フォーク数: 0
  • ウォッチャー数: 3
  • コミット数: 5
  • ファイル数: 11
  • メインの言語: TypeScript

主な特徴

  • 全テキストファイルに対応したユニバーサルトークンカウント機能
  • 10種類以上の大規模言語モデルに対応したAPIコストの自動推定
  • .gitignoreやバイナリファイルを考慮したスマートなファイル除外機能
  • ファイルタイプごとのトークン分布を詳細に可視化し解析可能

技術的なポイント

codemassの最大の特徴は、コードベースのトークン数を高精度で計測し、AIのAPIコストを事前に推定できる点にあります。トークンカウントは大規模言語モデルの基本単位であり、API利用料金はこのトークン数に依存します。したがって、実際にモデルに投入する前にトークン数を把握し、コストを見積もることは非常に重要です。

TypeScriptで実装されているため、モダンなJavaScript環境で容易に導入でき、Node.jsベースの開発フローに自然に組み込めます。codemassは単なる文字数カウントではなく、OpenAIや他の主要LLMプロバイダーが実際に使用するトークン化アルゴリズムを模倣し、正確なトークン数を算出します。これにより、API利用コストの予測精度が大幅に向上します。

また、解析対象のファイル選定にも工夫があります。ユーザーが設定した.gitignoreを尊重し、そこに記述されたファイルやディレクトリは自動で除外。さらにバイナリファイルも検出してスキップし、無駄な解析を防ぎます。これらの機能により、対象範囲の絞り込みが柔軟かつ簡単に行え、実際のプロジェクト構成に即した正確なトークン数計測が可能です。

対応モデルは10種類以上で、OpenAIのGPTシリーズをはじめ、各モデルの最新価格情報を内蔵しています。計測結果からモデルごとのコスト比較ができるため、用途や予算に合わせた最適なモデル選択を支援します。

結果はコマンドライン上でファイルタイプ別にトークン数を詳細表示し、例えばJavaScript、Markdown、JSONなど、どのファイルにトークンが多く集まっているかを直感的に把握可能。これにより、モデルに投入するデータの最適化や不要ファイルの除外検討にも役立ちます。

以上のように、codemassはAI活用におけるコスト管理とデータ準備の効率化を実現し、LLMを使った開発や研究をよりスマートにするツールです。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitattributes: git属性設定ファイル
  • .gitignore: 除外するファイルやディレクトリを指定
  • LICENSE: ライセンス情報
  • README.md: プロジェクト概要と使用方法
  • build.ts: ビルドスクリプト
  • その他計11ファイルで構成されており、主にTypeScriptコードと設定ファイルが含まれる

まとめ

コードのトークン数とAI利用コストを簡単に管理できる優れたツール。

リポジトリ情報: