CoPS:ゼロショット異常検知のための条件付きプロンプト合成

AI/ML

概要

CoPSは、ゼロショット異常検知の分野において、視覚的条件を考慮した動的プロンプト合成を提案する手法です。大規模な視覚言語モデルCLIPの強力な表現力を活かし、異常検知に特化したプロンプトを学習的に生成して適用することで、異常データの事前収集や個別の微調整なしに高精度な検知を可能にします。これにより、異常検知の適用範囲が大幅に広がり、多様な応用シナリオへの対応が期待されます。GitHubリポジトリでは、論文に基づいた公式実装やモデルのチェックポイントが提供されており、研究者や開発者が容易に試せる環境が整っています。

GitHub

リポジトリの統計情報

  • スター数: 13
  • フォーク数: 1
  • ウォッチャー数: 13
  • コミット数: 4
  • ファイル数: 4
  • メインの言語: 未指定

主な特徴

  • 視覚的条件に基づく動的プロンプト合成によるゼロショット異常検知を実現
  • 大規模視覚言語モデルCLIPの微調整により、少ないデータで高精度な検知を可能に
  • 論文(ArXiv 2025)に準拠した公式実装とモデルチェックポイントを提供
  • 軽量かつ効率的な構成で、研究・実務双方への応用が期待される

技術的なポイント

CoPSの最大の技術的特徴は、「条件付きプロンプト合成(Conditional Prompt Synthesis)」という概念にあります。従来の異常検知では、異常クラスの情報や多くの異常サンプルが必要であり、モデルの汎用性が限定されることが課題でした。CoPSはこの問題を解決するため、マルチモーダル視覚言語モデルであるCLIPをベースに、画像の視覚的特徴に応じて動的に最適なテキストプロンプトを生成します。

具体的には、入力画像の特徴量を条件として受け取り、その条件を反映したテキストプロンプトを合成するニューラルネットワークを設計しています。これにより、単一の静的プロンプトでは捉えきれない多様な視覚的特徴に対応可能です。合成されたプロンプトはCLIPのテキストエンコーダに入力され、視覚特徴とテキスト特徴の相関を最大化することで、異常と正常の識別を行います。これにより、あらかじめ異常ラベルを与えずとも、ゼロショットで異常検知が可能となっています。

さらに、CoPSはプロンプト合成の過程でCLIPの事前学習済みパラメータを大幅に固定しつつ、プロンプト生成器のみを微調整する設計を採用。これにより、学習効率が高く、過学習のリスクを抑制しながら高精度な検知性能を実現しています。また、モデルは軽量であり、実用的な推論速度も確保されています。

GitHubリポジトリには、論文で提案されたアルゴリズムの主要部分を実装したコードと、実験に用いたモデルチェックポイントが含まれています。これにより、ユーザーは自身のデータセットに対して容易にゼロショット異常検知を試すことができ、研究開発のベースとして活用可能です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: Git管理対象除外設定ファイル
  • LICENSE: ライセンス情報
  • README.md: プロジェクト概要とセットアップ手順
  • figures: 論文中の図表を格納するディレクトリ

まとめ

条件付きプロンプト合成によりCLIPを活用した革新的なゼロショット異常検知手法。

リポジトリ情報: