マルチモデル UI/UX フィードバック チーム

AI/ML

概要

このリポジトリは、ランディングページなどの画面デザインを対象に、視覚解析と UX 評価を行うマルチエージェントシステムのプロトタイプを提供します。ユーザーがスクリーンショットをアップロードすると、各エージェントがレイアウト、配色、タイポグラフィ、CTA(行動喚起)やアクセシビリティの観点から自動的に解析・批評を行い、その結果を統合して改善点を提示します。さらに、Gemini 2.5 Flash のマルチモーダル生成能力を利用して、改善案に基づく改良デザインを自動生成するワークフローを想定しています。実装は Python ベースで、Google ADK のエージェントフレームワークを中心に構成されています。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 6
  • ファイル数: 6
  • メインの言語: Python

主な特徴

  • マルチエージェントによる専門領域別(レイアウト、色、タイポ、UX)解析
  • スクリーンショットのビジュアル解析と自動フィードバック生成
  • Gemini 2.5 Flash を用いたマルチモーダルな改善デザイン自動生成
  • Google ADK 上でのエージェントオーケストレーション(プロトタイプ)

技術的なポイント

本プロジェクトは「マルチエージェント」アーキテクチャを採用しており、各エージェントが担当領域ごとに専門的な解析ルールやモデル呼び出しを行う点が特徴です。入力は主にランディングページのスクリーンショットで、まず前処理として画像のリサイズ、セグメンテーション(領域抽出)、OCR によるテキスト抽出などを行い、得られた構造情報を元に各エージェントが評価を行います。評価フェーズではヒューリスティックなルール(コントラスト比、フォントサイズ、CTA の視認性など)と、マルチモーダルモデル(Gemini 2.5 Flash など)を組み合わせて定性的・定量的なフィードバックを生成します。agent.py はエージェントのオーケストレーションやパイプライン制御を担う想定で、init.py はパッケージ化のための最小構成です。Gemini 等の外部モデル呼び出しには API キー管理や入出力の整形が必要で、要求される依存関係は requirements.txt に記載されます。現状はプロトタイプのためサンプル数・評価指標が限定的で、実運用にはアクセシビリティチェックの拡張、デザイン差分の自動レンダリング、A/B テスト連携、ログと監査トレースの追加が求められます。拡張案としては、フロントエンド(アップロード UI)との統合、デザイン生成結果の HTML/CSS 変換、ユーザーフィードバックを取り入れる学習ループの実装などが考えられます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitattributes: file
  • README.md: file
  • init.py: file
  • agent.py: file
  • requirements.txt: file

…他 1 ファイル

まとめ

マルチモーダルを活かした UI/UX 改善の試みとして有望だが、実運用には拡張とモデルアクセス環境が必要。

リポジトリ情報:

READMEの抜粋:

🎨 🍌 Multimodal UI/UX Feedback Agent Team with Nano Banana

A sophisticated multi-agent system built with Google ADK that analyzes landing page designs, provides expert UI/UX feedback, and automatically generates improved versions using Gemini 2.5 Flash’s multimodal capabilities.

Features

  • 👁️ Visual AI Analysis: Upload landing page screenshots - agents automatically analyze layout, typography, colors, and UX patterns
  • 🎯 Expert Feedback: Comprehensive critique covering visual…