fuckfanyipublic — スクリーンショットOCR&AI翻訳ツール
概要
このプロジェクトは、画面上の任意領域をスクリーンショットで切り取り、OCRによる文字抽出と翻訳をワンアクションで行えるデスクトップユーティリティです。ホットキー(デフォルトでCtrl+Alt+D)で起動し、翻訳後はGUIで原文・訳文の確認、原文の上書き(置換)、クリップボードへのコピー、さらに「AI学習」機能で翻訳学習用の操作が可能です。もともとは有道のスクリーン翻訳の代替として個人用に作られ、汎用性の高さと操作の簡便さを重視して公開されています。
リポジトリの統計情報
- スター数: 12
- フォーク数: 4
- ウォッチャー数: 12
- コミット数: 7
- ファイル数: 18
- メインの言語: Python
主な特徴
- スクリーンショット→OCR→翻訳をホットキーで連続実行できるワークフロー
- 翻訳結果のGUI操作で「原文コピー(O)」「訳文コピー(C)」「原文上書き(R)」が可能
- 設定はconfig.iniで管理し、キーやAPI設定、動作をカスタマイズ可能
- AI学習モードにより、翻訳結果を学習データとして扱うなどの拡張が可能
技術的なポイント
本プロジェクトはPythonで実装され、デスクトップ環境での操作性を重視した設計になっています。スクリーンショットの取得はOSの画面キャプチャAPIや外部ライブラリ(Pillowなど)を利用する想定で、取得した画像をOCRエンジンに渡して文字領域とテキストを抽出します。OCR部分はリポジトリ内に特定のライブラリ名の明記がないため、汎用的にtesseractやPaddleOCRなどの置き換えが可能な構成になっている可能性が高いです。
抽出したテキストはローカルの翻訳モジュールや外部翻訳API(有道、DeepL、Google等)へ送られ、返信を受け取ってGUIに表示します。GUI上ではキーボード操作で原文・訳文を簡単にコピーしたり、選択した原文領域を訳文で上書きする実装があり、画面上のテキスト置換は座標とバウンディングボックスを用いた画像描画/ウィンドウ操作によって行われます。設定ファイル(config.ini)にAPIキーやホットキー、言語ペアなどを保持することで、ユーザー毎のカスタマイズや秘匿情報の管理が容易です。
拡張性については、OCRや翻訳の部分を抽象化しているため、別のOCRエンジンや翻訳APIをプラグイン的に差し替えられる設計が望ましい作りです。また、AI学習機能はユーザーが翻訳結果をフィードバックとして蓄積し、後続のモデル学習や辞書作成に利用するワークフローを想定しています。運用上の注意点としては、翻訳APIを利用する場合のAPIキー管理、送信する画像やテキストのプライバシー、ライセンスや外部サービスの利用制限などをconfig.iniやREADMEで明確にすることが推奨されます。
プロジェクトの構成
主要なファイルとディレクトリ:
- .cursorignore: file
- .gitignore: file
- README.md: file
- assets: dir
- config.ini: file
…他 13 ファイル
READMEには導入や使い方のスクリーンショットが含まれており、操作イメージがわかりやすく示されています。
まとめ
個人利用に最適化されたスクリーンショットOCR+翻訳ツールで、カスタマイズ性が高い。
リポジトリ情報:
- 名前: fuckfanyipublic
- 説明: OCR截图AI翻译,AI学习英语
- スター数: 12
- 言語: Python
- URL: https://github.com/sfz009900/fuckfanyipublic
- オーナー: sfz009900
- アバター: https://avatars.githubusercontent.com/u/19549361?v=4
READMEの抜粋: