My-TW-Coverage — 台湾上場企業カバレッジデータベース

Data

概要

Taiwan Stock Coverage Database(My-TW-Coverage)は、台湾証券取引所(TWSE)と店頭市場(OTC)を含む1,735社を網羅した構造化されたエクイティリサーチデータベースです。各企業レポートは事業概要、サプライチェーン図、主要顧客・仕入先関係、財務データを含み、4,900件を超えるウィキリンクで企業や部品・技術・製品間の関係を相互参照します。本リポジトリは、個別企業のビジネス理解だけでなく、産業間の依存関係や重要ノードの特定、検索可能なナレッジグラフ作成を主目的としたデータ基盤を提供します。研究者、アナリスト、サプライチェーン管理者にとって有用な一次情報の集約を目指しています。

GitHub

リポジトリの統計情報

  • スター数: 64
  • フォーク数: 11
  • ウォッチャー数: 64
  • コミット数: 23
  • ファイル数: 8
  • メインの言語: Python

主な特徴

  • 台湾上場企業1,735社をカバーし、99の産業セクターを横断する包括的データセット。
  • 事業概要、サプライチェーンマップ、顧客/仕入先情報、財務指標を統合。
  • 4,900超のウィキリンクでエンティティが相互参照されたナレッジグラフ構造。
  • 検索・可視化・分析用途に適した構造化フォーマット(Pythonベースの処理が可能)。

技術的なポイント

本プロジェクトの技術的核は「構造化されたドメイン特化型ナレッジグラフ」としてのデータ設計にあります。各企業レポートは自由文の事業説明だけでなく、関係性を表すリンク(ウィキリンク)を埋め込むことで、エンティティ同士のリレーションを明示的に保持しています。これにより伝統的なスプレッドシートとは異なり、グラフ探索やネットワーク解析(中心性指標、コミュニティ検出、パス探索)への拡張が容易になります。

データ収集・整備の面では、統一されたスキーマに基づく正規化(企業名のノーマライゼーション、産業分類の標準化、財務指標の項目整合)が重要です。多言語の情報(英語・中国語など)や表記ゆれ、同義語の解消は実運用での課題であり、エンティティ解決(entity resolution)や参照整合性の確保が設計上のポイントです。Pythonをメイン言語にしているため、パースやETL、グラフ生成にネットワークX(networkx)やpandas、あるいはNeo4jなどのグラフDB連携を想定した実装が可能です。

サプライチェーンのマッピングにおいては、顧客・供給先の方向性(上流/下流)を保持することが分析価値を高めます。さらに、財務データとの連携により、特定の供給網ノードが持つ財務的健全性や業績の波及効果を定量的に評価できます。4,900超のウィキリンクは単なるハイパーリンクにとどまらず、共起ネットワークとして可視化すれば業界ハブや代替供給源の検出に寄与します。

運用面ではデータの更新頻度、差分取り込み戦略、欠損値対応ポリシーが実務的な課題です。CI/CDによる定期的なデータパイプライン実行、メタデータ(ソース、更新日時、信頼度)の付与、ライセンス明記による再利用許諾の確保も重要です。リポジトリに含まれるCLAUDE.mdや.PILOTフォルダ等は、AIアシストやパイロットレポート生成のドキュメントやサンプルを示唆しており、自動要約やレポート生成ワークフローとの親和性も高いと考えられます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .claude: dir
  • .gitignore: file
  • CLAUDE.md: file
  • LICENSE: file
  • Pilot_Reports: dir
  • README.md: file
  • data/ や reports/ に相当するディレクトリ(企業別レポート格納を想定)…他 3 ファイル

Pilot_Reports ディレクトリには企業ごとのパイロットレポートやテンプレートが置かれていることが推測され、データのサンプル閲覧や処理パイプラインの検証に役立ちます。.claude や CLAUDE.md は、AIアシスタント(Claude 等)との連携手順やプロンプト管理のガイドである可能性があり、自動化されたドキュメント生成や要約ワークフローを組む際の参考資料になります。LICENSE は再利用条件を示すため、商用利用や二次配布の可否を確認してから利用してください。

まとめ

台湾企業のサプライチェーンとビジネス関係を網羅的に可視化する、実務・研究に有用な構造化データセットです。

リポジトリ情報:

READMEの抜粋:

Taiwan Stock Coverage Database

A structured equity research database covering 1,735 Taiwan-listed companies (TWSE + OTC) across 99 industry sectors. Each report contains a business overview, supply chain mapping, customer/supplier relationships, and financial data — all cross-referenced through 4,900+ wikilinks that form a searchable knowledge graph.

Why This Exists

Taiwan’s stock market has 1,800+ listed companies, many of which are critical nodes in global supply chains (se…