手術映像向けSAM2によるゼロショット器具セグメンテーション(sam2su)

AI/ML

概要

sam2su は「Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2」を実装・実験するための軽量リポジトリです。リポジトリは主に Jupyter Notebook(sam2_4_surgical_video.ipynb)で構成され、最初のフレームに与えたプロンプトを基に、SAM2 のゼロショット能力を利用して手術器具のマスクを動画全体へ伝播させるワークフローを示します。EndoNeRF 等の手術映像データセットに対する実例や出力結果を result フォルダに含み、論文(arXiv)への参照も README に明記されています。インストールは簡便にノートブックを直接実行する形で想定されており、プロトタイプ実験や手法の把握に向いた構成です。

GitHub

リポジトリの統計情報

  • スター数: 20
  • フォーク数: 3
  • ウォッチャー数: 20
  • コミット数: 30
  • ファイル数: 3
  • メインの言語: Jupyter Notebook

主な特徴

  • SAM2 を用いたゼロショットの手術器具セグメンテーション実験ノートブックを提供
  • 最初のフレームに与えたプロンプト(クリックやマスク)を基に動画全体へマスクを伝播
  • EndoNeRF 等の実データに対するデモ結果(画像・動画)を result に格納
  • 論文(arXiv)へのリンク付きで、研究の再現・理解に適した最小実装

技術的なポイント

sam2su の技術的核は「Segment Anything Model 2(SAM2)」のゼロショット能力を、手術用単眼動画セグメンテーションへ応用する点にあります。SAM2 は強力な画像上のインスタンス選択能力を持ち、最小限のプロンプトで高品質なマスクを出力できるため、医療データのような注釈コストが高い領域で有利です。本リポジトリではノートブック内で「最初のフレームに対するユーザープロンプト(点・ボックス・粗マスク等)」を与え、そのマスクを以降フレームに伝播させるワークフローを示しています。伝播手法はノートブック内の実装に依存しますが、一般的にはフレーム間の類似度(特徴マッチング)、光学フローや単純な重なりベースの追跡、そして再投影や条件付きの再推論(必要に応じて再度 SAM2 を実行)を併用することが考えられます。

注目点としては、(1) ゼロショットでラベルデータを必要最小限に抑えられる点、(2) SAM2 の強い可視領域分離能力を利用して複雑な器具形状にも対応可能な点、(3) 単眼映像特有の視点変化や血液・煙等の視覚ノイズに対してはプロンプトや伝播戦略の工夫が有効である点、が挙げられます。一方で、時間的一貫性の維持や遮蔽(器具が被る/切れる場面)、鏡像反射や照明変化に対する頑健性は課題です。実用化を目指す場合は、光学フローやトラッキングの導入、マスクの時系列平滑化、誤検出を減らすための簡易分類器(器具 vs 背景)や自己教師ありでの微調整、さらに評価には IoU、Dice、時間的安定性指標を用いることが推奨されます。本リポジトリはノートブックを直接実行するスタイルで実験を手早く再現できるため、これらの改善案を試すための出発点になります。また、論文(arXiv へのリンクが README に記載)を参照することで、提案手法の詳細や実験設定を追うことが可能です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file
  • result: dir
  • sam2_4_surgical_video.ipynb: file

まとめ

SAM2 を使った手術映像のゼロショットセグメンテーション実験を素早く試せる有用なプロトタイプ実装です。

リポジトリ情報:

READMEの抜粋:

Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2

🚨 News

The paper is available: Arxiv

🧐 Installation & Usage

Directly use .ipynb file

🎯 Example Cases

EndoNeRF Dataset

Prompt (first frame)Video segmentation
Result
<div align=ce…