PPT スピーカーノートジェネレーター(豆包対応)

AI/ML

概要

ppt-speaker-notes-generator は、画像のみで作られたPPT(例:スライドが全て画像で埋められているケース)向けに設計されたスピーカーノート自動生成ツールです。ローカルでOfficeレンダリングを行う必要がなく、各スライド画像を抽出して豆包(Doubao)Vision API に送信し、そこから得られるテキストや画像理解情報をもとに、発表者向けの注釈/スピーカーノートを生成します。スライドの論理的な流れを追跡する「コンテキスト記憶」機能や、途中から処理を再開できる「断点継続」機能を備えており、単発のスクリプト実行で実用的なメモを大量作成できます。

GitHub

リポジトリの統計情報

  • スター数: 3
  • フォーク数: 0
  • ウォッチャー数: 3
  • コミット数: 4
  • ファイル数: 4
  • メインの言語: Python

主な特徴

  • 画像版PPTに特化:スライド画像を直接解析し、Officeのレンダリング不要で処理可能。
  • 豆包(Doubao)Vision API連携:画像理解・OCRを通じてスライド内容を抽出。
  • コンテキスト記憶:前後スライドの情報を踏まえて、各スライドのノートに一貫性を持たせる。
  • 断点復旧(Checkpoint):指定ページからの再開が可能で、大量スライド処理時に安心。

技術的なポイント

主要実装は SlideNoteGen_DouBao.py に集約されています。スクリプトは大まかに次の流れで動作します:まず、PPTX や単一画像群から各スライドの画像を取得(pptxファイルの中の画像抽出やスライドのスクリーンショット扱いを想定)。取得した画像を豆包(Doubao)Vision API に送信し、画像内テキストのOCR結果、図表やレイアウトの説明、検出されたキーワード等の構造化された解析情報を受け取ります。これらの解析出力を元に、シンプルなルールベースやテンプレート、あるいは外部のテキスト生成モデル(APIベースのプロンプト)と組み合わせて「発表メモ」を生成します。

コンテキスト管理は各スライドの要点を累積し、直前スライドやトピック全体の流れを考慮してメモの語調・深掘りレベルを調整する仕組みです。実装上はスライドごとの要約を内部メモリや中間ファイルに保存し、次スライドの生成時にこの履歴を参照する形になっています。これにより単発の要約よりも一貫性のあるストーリー性のあるノートが得られます。

また「断点継続」機能は処理済みスライドのインデックスや生成結果をチェックポイントとして永続化し、処理の途中中断後に指定ページから安全に再開できる設計です。I/Oや外部API呼び出しには再試行やエラーハンドリングが組み込まれている想定で、大量スライドや通信不安定環境でも運用しやすくなっています。

依存関係としては、HTTPクライアント(requests 等)やPPT操作(python-pptx など)、JSON/ファイルI/O、そして豆包API用の認証情報管理が必要です。実際の出力はPPTのノート領域へ戻し書きする方法、もしくは別ファイル(テキスト/Markdown/CSV)でエクスポートするいずれかで運用できます。拡張ポイントとしては、ノートの言語・トーン調整、スライド内図表からの構造化データ抽出、ローカルキャッシュによるAPIコスト削減などが考えられます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • LICENSE: file
  • README.md: file
  • SlideNoteGen_DouBao.py: file

まとめ

画像ベースPPTの発表メモ生成を手早く自動化できる実用的なツールです。特に豆包Visionを利用した画像理解とコンテキスト保持が特徴で、簡易なワークフローの自動化に向いています。

リポジトリ情報:

READMEの抜粋:

PPT 智能备注生成器 (PPT Speaker Notes Generator)

专为“全图片格式PPT”设计的智能备注生成工具,利用豆包视觉API自动生成专业、连贯的演讲备注。
AI-powered speaker notes generator for image-only PPTs, using Doubao vision API.


功能特点 | Features

  • 🎨 完美适配图片版PPT:无需本地Office渲染,直接解析每页图片生成备注
    Perfect for image-only PPTs: No local Office rendering, parse slide images directly.
  • 🧠 上下文记忆:自动追踪PPT逻辑主线,让每页备注更连贯、有深度
    Contextual memory: Tracks PPT logic flow for coherent, insightful notes.
  • 断点续跑:支持从指定页码开始,意外中断后可安全恢复进度
    R…

(詳しい使い方やAPIキー設定、依存パッケージなどは README を参照してください。)