Solar-Open-100B と GLM-4.5-Air の重み派生分析(solar-vs-glm)

AI/ML: 人工知能、機械学習関連

概要

Solar-Open-100B と GLM-4.5-Air の重み(weights)および中間埋め込みを比較し、両モデルの関係性を統計的に検証するためのリポジトリです。層ごとの埋め込み抽出と語彙(ボキャブラリ)間のマッピングを行い、同一層間のコサイン類似度が極めて高いことを示すことで、Solar-Open-100B が GLM-4.5-Air から派生しているという結論を導いています。解析用スクリプト、比較プロット、最終報告書が含まれ、再現可能なワークフローを提供します。

GitHub

リポジトリの統計情報

  • スター数: 16
  • フォーク数: 3
  • ウォッチャー数: 16
  • コミット数: 2
  • ファイル数: 23
  • メインの言語: Python

主な特徴

  • 層(layer)単位での埋め込み比較と統計的検定により、モデル間の同一性を評価
  • 語彙マッピング(token/vocab mapping)を行い、異なるトークナイザ間のアラインメントを確保
  • コサイン類似度の分布解析と可視化(決定的証拠画像を含む)
  • 再現性を意識したスクリプト群(比較・解析・レポート生成)

技術的なポイント

このプロジェクトは「埋め込み空間の層別比較」に重点を置いています。まず各モデルの指定層から埋め込み(重みや出力ベクトル)を抽出し、語彙間の対応付けを行うためのマッピングを作成します(analyze_vocab_mapping.py がその役割)。語彙マッピングでは、トークンID のずれやサブワード分割の違いを考慮して、比較可能なペアを作ります。次に compare_embeddings.py で同一層同士および層内対照(同モデルの異層)でコサイン類似度を計算し、分布をプロットします。重要な発見は「同層同士のクロスモデル類似度が非常に高い(例: 0.989)」という点で、同一モデル内の層間基準(例: 0.376〜0.377)と大きく隔たっています。この差を統計的に評価するため、definitive_proof.py は帰無分布の推定やシグマ換算を行い、「182シグマ」という極めて強い有意性を報告しています。技術的な注意点として、トークナイザ差分、訓練後の微調整、プルーニングなどの影響を排除する手順が取り入れられている点が挙げられます。結果は可視化(results/definitive_evidence.png 等)として保存され、解析パイプラインはスクリプト単位で追跡可能です。これによりモデルの由来(provenance)判定や派生検出の実用的な手法を示しています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • FINAL_PROOF_REPORT.md: file
  • README.md: file
  • analyze_vocab_mapping.py: file
  • compare_embeddings.py: file
  • definitive_proof.py: file

…他 18 ファイル

補足:

  • analyze_vocab_mapping.py は異なる語彙セット間での対応を作る処理を含む想定です(トークン整列、頻度考慮など)。
  • compare_embeddings.py は層ごとの埋め込み抽出とコサイン類似度計算、ヒストグラムや散布図の出力を担います。
  • definitive_proof.py は統計的検定(帰無分布、シグマ換算、p値算出)と最終可視化の生成を行い、レポートの中核になります。
  • FINAL_PROOF_REPORT.md と結果画像は、解析結論を要約した主要成果物です。

結果とインパクト

README の最終結論は短く力強く、「Solar-Open-100B は GLM-4.5-Air から派生している(決定的:182シグマ)」と述べています。技術的には、同層同士の高いコサイン類似度がランダム一致や単なるアーキテクチャ類似では説明できないレベルに達しており、モデル派生の検出技術として説得力のある手法を示しています。実務的には、モデルの出自確認、ライセンス遵守、データ・モデルの公開ポリシー検査などに応用可能です。一方で、トークナイザや最適化手法の差分、量子化や蒸留などによる変換は結果に影響するため、解析を適用する際は前処理と検証プロトコルの整備が必要です。

まとめ

層別埋め込み比較と語彙マッピングにより、Solar-Open-100B が GLM-4.5-Air から派生していると決定的に示したリポジトリ。

リポジトリ情報:

READMEの抜粋:

Solar-Open-100B vs GLM-4.5-Air: 가중치 파생 분석

최종 결론: Solar-Open-100B는 GLM-4.5-Air에서 파생되었습니다

증거 강도: 결정적 (182 시그마)


결정적 증거

Definitive Evidence

Within-Model vs Cross-Model Baseline 비교

비교 유형Cosine Similarity설명
GLM 내부 (layer 0 vs layer 10,20,30,40)0.377같은 모델, 다른 레이어
Solar 내부 (layer 0 vs layer 10,20,30,40)0.376같은 모델, 다른 레이어
Solar vs GLM (같은 레이어)0.989다…