MathLens — AIで数学問題を動画化するAgent Skill

AI/ML

概要

MathLens は、数学問題のスクリーンショットやテキストを入力すると、問題解析→解法ステップ生成→可視化スクリプト(Manim)作成→ナレーション(TTS)生成→最終的な動画書き出し(MP4)まで自動で行う Agent Skill です。Cursor AI 向けに構築されており、教師コンテンツや学習動画の作成工数を大幅に削減します。OCR と LLM、Manim の統合による「問題→映像」への自動変換が特徴です。(約300字)

GitHub

リポジトリの統計情報

  • スター数: 11
  • フォーク数: 0
  • ウォッチャー数: 11
  • コミット数: 3
  • ファイル数: 10
  • メインの言語: Python

主な特徴

  • 画像・テキスト入力から数学問題を自動識別して解析するパイプライン
  • LLM による解法生成と Manim コード自動生成で視覚的な解説動画を作成
  • TTS を組み合わせてナレーション付きの MP4 を出力
  • Cursor AI の Agent Skill として動作し、インタラクティブな操作が可能

技術的なポイント

MathLens は複数の技術を連結したワークフローが肝です。まず入力画像は OCR(または数式抽出ツール)でテキストと数式(LaTeX)に変換し、そこから LLM に問題文と条件を渡して解法ステップや補助説明を生成します。生成されたステップは Manim のシーン記述(Python スクリプト)へ自動変換され、図形描画や逐次表示、注釈のアニメーションを定義します。並行して TTS モジュールで各説明パートの音声ファイルを合成し、Manim の出力動画と同期して最終的に音声をミックスして MP4 を作ります。実装上の注意点としては、数学 OCR の精度(分数や根号、添え字等の誤認識)、LLM による解法の妥当性チェック(誤答や飛躍の検出)、Manim のレンダリングコスト(時間/環境依存)、そして音声とアニメーションのタイミング合わせなどが挙げられます。これらを補うために、参照画像や中間出力の可視化、手動修正ポイントの導入、エラー検出ルールが有効です。(約700字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • SKILL.md: file
  • init.py: file
  • references: dir

…他 5 ファイル

(主要な役割)

  • README.md: プロジェクトの概要、デモ、使い方の記載
  • SKILL.md: Cursor Agent Skill としての導入・呼び出し方法や仕様
  • init.py: Skill のエントリポイントや初期化処理
  • references/: 入力サンプル、出力メディア(input.png / output.mp4 等)や外部参照資料

まとめ

AI と Manim を繋ぎ、数学教材動画の自動生成を実現する実用的なプロトタイプです。(約50字)

リポジトリ情報: