Solar vs GLM vs Phi の LayerNorm 比較

AI/ML

概要

このリポジトリは、Solar-Open-100B、GLM-4.5-Air、Phi-3.5-MoE-instruct の LayerNorm(Layer Normalization)パラメータを比較し、「あるモデルが別モデルから派生しているか」を判断するために LayerNorm のコサイン類似度を用することの問題点を示すための実験コードと結果をまとめたものです。レイヤー単位での LayerNorm パラメータを抽出し、各層間のコサイン類似度を計算、可視化して、単純な類似度指標が系統関係の証明には不十分であることを提示します。

GitHub

リポジトリの統計情報

  • スター数: 35
  • フォーク数: 3
  • ウォッチャー数: 35
  • コミット数: 6
  • ファイル数: 6
  • メインの言語: Python

主な特徴

  • LayerNorm パラメータ(ゲイン/バイアス)を層ごとに抽出して比較するスクリプト群を提供
  • コサイン類似度による層間比較の実行と可視化(confusion 的な比較)
  • 単純な類似度計測(コサイン)ではモデルの派生関係を示せないことの実証
  • 結果に基づく考察(同一性の誤認につながる要因の列挙)

技術的なポイント

本リポジトリは「LayerNorm のパラメータベクトルのコサイン類似度」を用いて複数モデル間の類似性を評価するという、非常に限定的だがよく使われるアプローチを検証しています。技術的に注目すべき点は以下です。まず LayerNorm は各層ごとにスケール(g)とシフト(b)ベクトルを持ち、これらはモデルの初期化や学習経路、正則化の違いによって相似に見えることがあります。特に標準的な初期化や学習率スケジュール、バッチスタッフィングの影響で、独立に学習された大規模モデルでもコサイン類似度が高く出ることがあるため、「高いコサイン類似度 = 派生関係の証拠」にはなりません。

また Phi のような MoE(Mixture of Experts)構造やアーキテクチャ差(層の数、埋め込み次元、ポスト/プレ LayerNorm の差など)があると、同じ意味のパラメータでも配置や順序に差が出ます。単純な要素単位の比較では、パラメータの対応付け(alignment)やスケール不変性、回転不変性などを考慮できません。さらにコサイン類似度はベクトル方向のみを見て大きさを無視するため、要素ごとの数値差や情報量の違いを見落とします。

こうした限界を補うには、重みの線形変換での最小二乗整列(Procrustes 分析)、特異値分解による低次元表現、重みマッチング(permutation invariant matching)、あるいは各モデルの内部活性化や出力分布を用いた機能的比較(activation matching、Fisher 情報量ベースの距離)など、より堅牢な比較手法が必要です。本リポジトリはまず簡易なコサイン比較を示し、その結果から生じる誤解と追加で必要となる検証項目を提示する設計になっています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • confusions: dir
  • elementwise: dir
  • main.py: file

…他 1 ファイル

  • confusions/ : 層ごとやモデル間のコサイン類似度を計算・可視化するスクリプトや出力が入る想定のディレクトリ
  • elementwise/ : LayerNorm の要素ごとの比較や差分計算を行うコード群
  • main.py: 実験のエントリポイント。モデルパラメータのロード、比較処理の実行、結果保存を行う

(注)リポジトリ自体は小規模で、データのダウンロードやモデルチェックポイントは含まれていないため、再現の際は外部から対象モデルのパラメータを入手する必要があります。

使い方(簡潔)

  • モデルのパラメータ(LayerNorm 部分)を用意して所定のディレクトリに配置
  • main.py を実行して比較実験を開始
  • 出力として層ごとのコサイン類似度行列や図が生成される想定

READMEの抜粋:

Solar-Open-100B는 GLM-4.5-Air에서 파생되지 않았습니다.

이 레포지토리는 https://github.com/sionic-ai/solar-vs-glm 의 주장이 잘못되었음을 보입니다. Solar-Open-100B, GLM-4.5-Air, 그리고 Phi-3.5-MoE-instruct 모델의 Layernorm 파라미터를 비교하여 Layernorm 파라미터의 Cosine 유사도로는 모델간 유사성을 판단할 수 없음을 확인하였습니다.

1. 모델간 동일 레이어에서의 Layernorm 파라미터 비교

10번째 레이어에서의 Layernorm Cosine 유사도 비교

세 모델의 10번째 레이어에서의 Layernorm 파라미터를 비교한 결과, 모두 0.9 이상의 높은 Cosine 유사도를 보입니다. 만약 Solar-Open-100B가 GLM-4.5-Air에서 파생된 모델이라면, GLM-4.5-Air 역시 Phi-3.5-MoE-instruct에서 파생된 모델이어야 …

(上記は原文抜粋。要点:同一層で高いコサイン類似度が観察されても、派生関係の証明にはならない、という主張を示しています。)

まとめ

LayerNorm のコサイン類似度だけではモデルの派生関係を証明できない、慎重な検証が必要です。(約50字)

リポジトリ情報: