MathLens — AIで数学問題を動画化するAgent Skill
概要
MathLens は、数学問題のスクリーンショットやテキストを入力すると、問題解析→解法ステップ生成→可視化スクリプト(Manim)作成→ナレーション(TTS)生成→最終的な動画書き出し(MP4)まで自動で行う Agent Skill です。Cursor AI 向けに構築されており、教師コンテンツや学習動画の作成工数を大幅に削減します。OCR と LLM、Manim の統合による「問題→映像」への自動変換が特徴です。(約300字)
リポジトリの統計情報
- スター数: 11
- フォーク数: 0
- ウォッチャー数: 11
- コミット数: 3
- ファイル数: 10
- メインの言語: Python
主な特徴
- 画像・テキスト入力から数学問題を自動識別して解析するパイプライン
- LLM による解法生成と Manim コード自動生成で視覚的な解説動画を作成
- TTS を組み合わせてナレーション付きの MP4 を出力
- Cursor AI の Agent Skill として動作し、インタラクティブな操作が可能
技術的なポイント
MathLens は複数の技術を連結したワークフローが肝です。まず入力画像は OCR(または数式抽出ツール)でテキストと数式(LaTeX)に変換し、そこから LLM に問題文と条件を渡して解法ステップや補助説明を生成します。生成されたステップは Manim のシーン記述(Python スクリプト)へ自動変換され、図形描画や逐次表示、注釈のアニメーションを定義します。並行して TTS モジュールで各説明パートの音声ファイルを合成し、Manim の出力動画と同期して最終的に音声をミックスして MP4 を作ります。実装上の注意点としては、数学 OCR の精度(分数や根号、添え字等の誤認識)、LLM による解法の妥当性チェック(誤答や飛躍の検出)、Manim のレンダリングコスト(時間/環境依存)、そして音声とアニメーションのタイミング合わせなどが挙げられます。これらを補うために、参照画像や中間出力の可視化、手動修正ポイントの導入、エラー検出ルールが有効です。(約700字)
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- SKILL.md: file
- init.py: file
- references: dir
…他 5 ファイル
(主要な役割)
- README.md: プロジェクトの概要、デモ、使い方の記載
- SKILL.md: Cursor Agent Skill としての導入・呼び出し方法や仕様
- init.py: Skill のエントリポイントや初期化処理
- references/: 入力サンプル、出力メディア(input.png / output.mp4 等)や外部参照資料
まとめ
AI と Manim を繋ぎ、数学教材動画の自動生成を実現する実用的なプロトタイプです。(約50字)
リポジトリ情報:
- 名前: MathLens
- 説明: MathLens 是一个专注于数学题目视频讲解的 Agent Skill。你只需粘贴一道数学题(图片或文字),它就能自动完成从题目分析、可视化讲解、配音脚本到 Manim 动画视频的全流程制作。
- スター数: 11
- 言語: Python
- URL: https://github.com/shuyicc/MathLens
- オーナー: shuyicc
- アバター: https://avatars.githubusercontent.com/u/1277219?v=4