PerTouch:パーソナライズされた意味的画像レタッチのVLMエージェント

AI/ML

概要

PerTouchは、“VLM-Driven Agent for Personalized and Semantic Image Retouching”というタイトルでAAAI 2026に投稿された研究の公式コードリポジトリです。目的は視覚と言語の統合モデル(VLM)を用いて、ユーザーの好みや指示に沿った意味的(semantic)かつパーソナライズされた画像レタッチを自動化することにあります。一般的なワークフローとしては、VLMで画像内容やユーザー指示を理解し、レタッチ方針をプランニングし、具体的な編集オペレーション(局所補正、色調整、構図の微調整など)を実行するエージェントを想定しています。リポジトリは現時点で構成とドキュメントの整理中で、公開準備が進められている旨がREADMEに記載されています。

GitHub

リポジトリの統計情報

  • スター数: 8
  • フォーク数: 0
  • ウォッチャー数: 8
  • コミット数: 4
  • ファイル数: 2
  • メインの言語: 未指定

主な特徴

  • VLM(視覚言語モデル)を中心としたエージェントアーキテクチャを想定
  • ユーザーの好みを反映する「パーソナライズ」機能
  • 画像の意味的領域(被写体、背景、局所領域)に基づくセマンティックな編集
  • 研究成果(AAAI 2026)に対応する公式コードリポジトリ(整備中)

技術的なポイント

READMEの記述と論文タイトルから推測できる技術的な焦点を整理します。PerTouchはVLMを用いて「何を」「どこに」「どのように」編集するかを決定するエージェント設計が鍵になります。まず、入力として画像とユーザーの自然言語指示(例:「肌の色を少し明るくして、背景は落ち着いた青系に」)およびユーザープロファイル(好みや過去の編集履歴)を受け取ります。VLMはこれらを結び付け、画像内の意味的領域(人物、空、植物など)を認識して、編集候補や対象領域を抽出します。

次に、プランナー/ポリシー層(多くのVLMエージェント研究でLLM的思考を取り入れる層)が、目的達成のための編集ステップ列(グローバル調整→局所補正→微調整の順など)を生成します。各ステップは既存の画像処理モジュール(色調補正、トーンマッピング、局所ブラシ、セグメンテーションマスク適用など)にマッピングされ、実行器が操作を行います。パーソナライズはユーザープロファイルを報酬や重みに反映することで、同じ指示でもユーザーごとに異なる最終調整を行える設計が想定されます。

また、学習・評価面では、ペア画像(元画像とターゲットレタッチ画像)、ユーザーコメントやランキングを用いた学習が考えられます。評価指標は従来の画像品質指標(PSNR/SSIM)に加え、主観的評価やユーザー満足度、好み一致率が重要になります。実装上のチャレンジとしては、VLMの視覚理解の精度、編集操作の微細制御、リアルタイム性、ブラックボックスなVLM/LLMの出力を安全かつ一貫性を持って編集に変換するための制御ロジックが挙げられます。

現状のリポジトリはファイル数が少なく、コードは整理中との記載があるため、公開後にはモデル定義、推論パイプライン、サンプルデータ、デモノートブック、トレーニング/評価スクリプトなどが順次追加されることが期待されます。ライセンスファイルが含まれている点はコラボレーションや再利用を検討する際に重要です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: file
  • README.md: file

まとめ

VLMを核にしたパーソナライズドな画像レタッチ研究の公式コードで、公開後の実装・実験公開が期待されるリポジトリです。

リポジトリ情報: