tenk — SEC開示書類対話AI
概要
tenkは「Talk to SEC filings with AI」を掲げるリポジトリで、10‑Kや10‑QといったSEC開示書類に関する質問に答え、該当箇所を引用(citation)付きで提示することを目指したツールです。Python(3.10以上)で実装されており、Rallies.aiによるパーソナルユース向けライセンスの下で提供されています。小規模なプロトタイプながら、企業の開示文書を検索・抽出してLLMを補助するRAG的な構成が想定され、個人投資家やリサーチ用途の試作として活用できます。
リポジトリの統計情報
- スター数: 11
- フォーク数: 1
- ウォッチャー数: 11
- コミット数: 17
- ファイル数: 8
- メインの言語: Python
主な特徴
- 10‑K / 10‑Q 等のSEC開示書類に対する自然言語質問応答(Q&A)
- 回答に対して該当箇所の引用(citation)を提示する設計思想
- Python 3.10+ 前提の軽量プロトタイプ実装
- Rallies.aiによる個人利用向けライセンスで公開
技術的なポイント
READMEの記載内容から読み取れる基本設計は、典型的なRAG(Retrieval-Augmented Generation)ワークフローです。具体的には(想定ベースで)以下の要素が重要です:大量の開示書類をテキスト化してチャンク分割し、埋め込み(embedding)を生成してベクターデータベースに格納、ユーザーからの質問に対して関連チャンクを検索(retrieval)し、検索結果をコンテキストとしてLLMに投げて回答を生成、その際に元文書や位置情報を引用として付与する流れ。技術的注目点としては、(1)開示書類特有の長い構成・表現を扱うための効果的なチャンク化とメタデータ管理、(2)引用の正確性を担保するためのソーストラッキング(どのファイル/ページ/節から抜粋したか)の実装、(3)コストと遅延を抑えるための検索層と生成層の分離、(4)法務情報を扱う都合上のデータ取扱い・ライセンス表記の明確化が挙げられます。本リポジトリ自体は小規模でプロトタイプ寄りのため、実運用化するにはベクターストアやEmbeddingモデルの選定、キャッシング、CI/テスト、セキュリティやプライバシー検討が必要です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitattributes: file
- .gitignore: file
- LICENSE: file
- MANIFEST.in: file
- README.md: file
…他 3 ファイル
READMEの冒頭にはバナーやバッジがあり、Python 3.10+対応とパーソナルユースライセンスである旨が明記されています。実コードやサンプルデータの有無はファイル数から見ると最小限で、まずは概念実証(PoC)としての提供が中心と考えられます。
利用上の注意と拡張案
- ライセンスが「Personal Use」とされているため、商用利用や事業内展開の前に権利範囲を確認する必要があります。
- 実運用化では、EDGARからの自動取得パイプライン、堅牢なベクターストア(e.g. FAISS, Milvus, Pinecone 等)、およびLLMのコスト管理が重要です。
- 引用の正確性(ページ番号や節タイトルの付与)を強化することで投資判断での信頼性が向上します。
- テスト、ドキュメント、サンプルワークフロー(インジェスト→検索→回答)を追加すると採用のハードルが下がります。
まとめ
SEC開示書類へ自然言語で問える便利なプロトタイプ、実運用には拡張が必要。
リポジトリ情報:
- 名前: tenk
- 説明: Chat with SEC filings for any investment question
- スター数: 11
- 言語: Python
- URL: https://github.com/ralliesai/tenk
- オーナー: ralliesai
- アバター: https://avatars.githubusercontent.com/u/223736604?v=4
READMEの抜粋:
tenk
Talk to SEC filings with AI
Ask questions about 10-K and 10-Q filings, get answers with citations