PRDiT: ピクセルレベル残差拡散トランスフォーマー

AI/ML

概要

PRDiT(Pixel-Level Residual Diffusion Transformer)は、3次元CTボリュームの生成を目的とした新しい生成モデルの公式実装です。拡散モデル(diffusion)にトランスフォーマーを組み合わせ、ボクセル/ピクセルレベルの残差(差分)を段階的に学習・生成することで、高解像度かつ解剖学的整合性を保った3D医用画像の合成を目指します。本リポジトリは論文(ICLR 2026採択)に基づく実装を含み、ライセンスはApache 2.0です。READMEには論文へのリンクやプロジェクトページへの参照が記載されています。

GitHub

リポジトリの統計情報

  • スター数: 2
  • フォーク数: 0
  • ウォッチャー数: 2
  • コミット数: 6
  • ファイル数: 2
  • メインの言語: 未指定

主な特徴

  • Pixel-Level Residual Diffusion:ピクセル/ボクセル単位の残差を段階的に生成する拡散フレームワーク。
  • Transformerによる長距離依存性のモデル化:3Dボリューム内の長距離な解剖学的整合性を保持。
  • スケーラビリティ重視:高解像度3D CTの生成に耐える設計とメモリ効率を考慮。
  • 公開実装と論文連携:ICLR 2026採択論文の公式実装、Apache 2.0ライセンス。

技術的なポイント

PRDiTが取り組む中心的課題は「高解像度な3D医用画像を生成する際の計算・メモリ負荷」と「ボリューム内の解剖学的一貫性の確保」です。従来の2D生成モデルや単純な3D畳み込みベースの手法では、ボリューム全体の長距離依存を捉えにくく、また高解像度化に伴うメモリ増大がボトルネックになります。PRDiTはこれらに対して以下のような方針を取ります。

まず「残差(residual)をピクセル/ボクセルレベルで扱う」ことで、モデルが各ステップで学習すべき信号の大きさを抑え、細部の修正に集中できるようにします。拡散モデルの逐次的ノイズ除去プロセスと残差学習を組み合わせることで、初期の粗い生成から段階的に高精度なボリュームへと収束させます。

次に「トランスフォーマーによる表現学習」を導入する点が特徴です。トランスフォーマーは自己注意機構により、大域的なコンテキストを効率的に捕捉できます。3D CTでは臓器や構造がボリューム全体にまたがるため、局所的な畳み込みだけでは不足しがちです。PRDiTはトランスフォーマーを用いてボクセル間の長距離依存関係をモデリングし、解剖学的に整合した生成を支援します。

スケーラビリティの観点では、ボリュームを直接全体で扱うのではなく、パッチ/サブボリューム単位で学習・生成する戦略や、メモリ効率の良い注意機構(局所注意やメモリ圧縮)を組み合わせることが想定されます。さらに計算コストを下げるために、モデルの重み共有や階層的生成(粗→細の多段生成)を採用することで大きなボリュームにも対応可能です。

実装面では、論文ページとREADMEにより実験設定や評価指標(生成品質、解剖学的一貫性評価など)への参照が提供されています。ライセンスはApache 2.0であるため、研究用途だけでなく商用利用の可能性も検討できます。ただし、医用画像生成は倫理・プライバシーの観点で慎重な扱いが必要であり、合成データの利用範囲やバイアス評価、臨床適用の限界についての検討が不可欠です。

(注)本リポジトリ自体はファイル数が少なく、実験コードや大規模データセットは外部参照やプロジェクトページに依存する可能性があります。詳細は論文とプロジェクトページを参照してください。

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: file
  • README.md: file

(READMEには論文へのリンク、プロジェクトページへの参照、ライセンス表記が含まれます。実装の主要コードやデータのダウンロードスクリプトは現状のコミット数・ファイル数から外部リソースに委ねられている可能性があります。)

まとめ

3D CT生成に焦点を当てた、拡散モデルとトランスフォーマーを組み合わせた実装の公式リポジトリ。

リポジトリ情報:

READMEの抜粋:

PRDiT: Pixel-Level Residual Diffusion Transformer for Scalable 3D CT Volume Generation

License: Apache 2.0

Official implementation of PRDiTPixel-Level Residual Diffusion Transformer — a scalable approach for 3D CT volume generation, accepted at ICLR 2026.

Paper