tenk — SEC開示書類対話AI

AI/ML

概要

tenkは「Talk to SEC filings with AI」を掲げるリポジトリで、10‑Kや10‑QといったSEC開示書類に関する質問に答え、該当箇所を引用(citation)付きで提示することを目指したツールです。Python(3.10以上)で実装されており、Rallies.aiによるパーソナルユース向けライセンスの下で提供されています。小規模なプロトタイプながら、企業の開示文書を検索・抽出してLLMを補助するRAG的な構成が想定され、個人投資家やリサーチ用途の試作として活用できます。

GitHub

リポジトリの統計情報

  • スター数: 11
  • フォーク数: 1
  • ウォッチャー数: 11
  • コミット数: 17
  • ファイル数: 8
  • メインの言語: Python

主な特徴

  • 10‑K / 10‑Q 等のSEC開示書類に対する自然言語質問応答(Q&A)
  • 回答に対して該当箇所の引用(citation)を提示する設計思想
  • Python 3.10+ 前提の軽量プロトタイプ実装
  • Rallies.aiによる個人利用向けライセンスで公開

技術的なポイント

READMEの記載内容から読み取れる基本設計は、典型的なRAG(Retrieval-Augmented Generation)ワークフローです。具体的には(想定ベースで)以下の要素が重要です:大量の開示書類をテキスト化してチャンク分割し、埋め込み(embedding)を生成してベクターデータベースに格納、ユーザーからの質問に対して関連チャンクを検索(retrieval)し、検索結果をコンテキストとしてLLMに投げて回答を生成、その際に元文書や位置情報を引用として付与する流れ。技術的注目点としては、(1)開示書類特有の長い構成・表現を扱うための効果的なチャンク化とメタデータ管理、(2)引用の正確性を担保するためのソーストラッキング(どのファイル/ページ/節から抜粋したか)の実装、(3)コストと遅延を抑えるための検索層と生成層の分離、(4)法務情報を扱う都合上のデータ取扱い・ライセンス表記の明確化が挙げられます。本リポジトリ自体は小規模でプロトタイプ寄りのため、実運用化するにはベクターストアやEmbeddingモデルの選定、キャッシング、CI/テスト、セキュリティやプライバシー検討が必要です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitattributes: file
  • .gitignore: file
  • LICENSE: file
  • MANIFEST.in: file
  • README.md: file

…他 3 ファイル

READMEの冒頭にはバナーやバッジがあり、Python 3.10+対応とパーソナルユースライセンスである旨が明記されています。実コードやサンプルデータの有無はファイル数から見ると最小限で、まずは概念実証(PoC)としての提供が中心と考えられます。

利用上の注意と拡張案

  • ライセンスが「Personal Use」とされているため、商用利用や事業内展開の前に権利範囲を確認する必要があります。
  • 実運用化では、EDGARからの自動取得パイプライン、堅牢なベクターストア(e.g. FAISS, Milvus, Pinecone 等)、およびLLMのコスト管理が重要です。
  • 引用の正確性(ページ番号や節タイトルの付与)を強化することで投資判断での信頼性が向上します。
  • テスト、ドキュメント、サンプルワークフロー(インジェスト→検索→回答)を追加すると採用のハードルが下がります。

まとめ

SEC開示書類へ自然言語で問える便利なプロトタイプ、実運用には拡張が必要。

リポジトリ情報:

READMEの抜粋:

tenk banner

tenk

Talk to SEC filings with AI

Ask questions about 10-K and 10-Q filings, get answers with citations

Python License Rallies.ai