Awesome Pixel Flow — ピクセル空間拡散モデル論文集

AI/ML

概要

このリポジトリは「ピクセル空間で直接動作する拡散モデル(Pixel-space diffusion)」に絞った論文集です。潜在空間を介さないエンドツーエンドな手法にフォーカスし、画像生成や動画生成に関する重要論文を公開年の降順で整理しています。README一つで構成された軽量なリスト形式で、最新のトランスフォーマーベースモデル(例:PixelDiT)やその他の注目論文へのリンクをまとめ、研究の探索や文献レビューを効率化します。サンプル数は少ないものの、分野特化型のリファレンスとして価値があります。

GitHub

リポジトリの統計情報

  • スター数: 18
  • フォーク数: 0
  • ウォッチャー数: 18
  • コミット数: 4
  • ファイル数: 1
  • メインの言語: 未指定

主な特徴

  • ピクセル空間に特化した拡散モデル論文を年代順に整理。
  • 潜在空間を介さないエンドツーエンド手法にフォーカス。
  • 軽量なREADME中心のシンプル構成で参照性が高い。
  • 画像・動画生成の両分野をカバーする主要論文を収録。

技術的なポイント

このリストが注目する「ピクセル空間拡散モデル」は、入力・出力を生のピクセル表現で扱うため、潜在空間を経由する手法(例:Latent Diffusion)に比べて忠実度や細部表現に優れる一方で、計算コストやメモリ消費が大きくなるというトレードオフがあります。READMEには2025年の注目作として「PixelDiT: Pixel Diffusion Transformers for Image Generation」の記載があり、トランスフォーマーを用いてピクセル単位の拡散過程を学習する方向性を示しています。技術的トピックとしては、ノイズスケジュール設計、条件付け(クラスやテキスト)、サンプリング高速化(ステップ削減や近似スキーム)、および計算効率化のためのモデル圧縮や分解戦略が重要です。評価面ではFIDやISといった画像品質指標に加え、映像ではフレーム間整合性評価が求められます。研究開発では、ピクセル精度を保ちながら計算負荷を下げるためのアーキテクチャ選定(CNN vs Transformer)、部分空間での条件的生成、並列サンプリング技術、学習安定化手法(ノイズスケジュールや重み付け)といった要素が主要な関心点となっています。本リポジトリはこれらの議論に入るための入口として、重要論文へのリンクを整理している点が有用です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file

まとめ

ピクセル空間拡散モデルの主要論文を手早く参照できる簡潔なキュレーションです。

リポジトリ情報:

READMEの抜粋:

Awesome Pixel Diffusion Papers

A curated list of notable papers on pixel-space diffusion models for image and video generation. Papers are sorted by publication year in descending order, focusing on end-to-end pixel diffusion approaches that operate directly in raw pixel space, avoiding latent encodings where possible.

2025

  • PixelDiT: Pixel Diffusion Transformers for Image Generation
    arXiv:2511.20645
    A fully transformer-based model with du…