GigaChat 3 — 次世代 MoE(Mixture of Experts)オープンモデル
概要
GigaChat 3 は、Mixture of Experts(MoE)を核とした大規模言語モデル群の次世代版で、プレビュー版として「GigaChat 3 Ultra (702B-A36B)」と「GigaChat 3 Lightning (10B-A1.8B)」がアナウンスされています。本リポジトリ自体は軽量で、主に Hugging Face のコレクション(https://huggingface.co/collections/ai-sage/gigachat3)への案内と簡単な説明を含む README、及びライセンスファイルのみが収められています。背景として GigaChat 2 の公開や GigaChat Lite、Giga-Embeddings のオープン化、ruMTEB ベンチマークでの成果などが示されており、今回の公開は「初めから学習した新世代の MoE モデル群のウェイト開放」を目的としています。研究者やエンジニアは Hugging Face からモデルと関連資産を取得して実験・検証を行うことができます。
リポジトリの統計情報
- スター数: 18
- フォーク数: 0
- ウォッチャー数: 18
- コミット数: 5
- ファイル数: 2
- メインの言語: 未指定
主な特徴
- MoE(Mixture of Experts)アーキテクチャを採用した次世代モデル群の公開(Ultra / Lightning)
- オープンウェイトによる研究・検証の容易化(Hugging Face コレクションへのリンク提供)
- 既存の GigaChat 系列との継続性(GigaChat 2、Lite、Giga-Embeddings の流れ)
- 軽量な GitHub リポジトリで、実態は HF 上のアセットとドキュメント中心
技術的なポイント
GigaChat 3 の最大の技術的特徴は MoE(Mixture of Experts)ベースのスパースパラメータ化にあります。MoE は多数の「専門家」サブネットワーク(expert)を用意し、入力ごとにルーティング(ゲーティング)を行って一部の専門家のみを活性化することで、理論上はフルダンスの dense モデルと比較してパラメータ数を大きくしつつ計算効率を保つことが可能です。README に示された表記(702B-A36B、10B-A1.8B)は総パラメータ規模とアクティブに使われるパラメータ規模(あるいは専門家あたりの有効サイズ)を示唆しており、Ultra 側は非常に大規模な sparse モデル、Lightning 側は軽量な MoE 実装であることが推測されます。
MoE の利点は、スケールに伴う表現能力の向上と、同等の浮動小数点演算(FLOPs)でより大容量の知識を保持できる点にあります。しかしその分、トレーニングと推論の実運用面で課題も生じます。具体的にはルーティングの効率化、専門家間の負荷分散、分散学習時の通信コスト、量子化や蒸留を用いた推論コスト削減、並列化戦略(データ並列・モデル並列・パイプライン並列と MoE の組合せ)などが重要です。
GigaChat 3 が「from scratch(スクラッチから学習)」をうたっている点は、既存大規模モデルの微調整ではなく基礎からの学習により独自の性質を持つ可能性を示します。公開ウェイトは研究コミュニティにとって、アーキテクチャ的検証、ルーティング戦略の比較、蒸留・圧縮手法の検討、ベンチマーク(例えば ruMTEB 等)での評価を行う絶好の素材となります。
一方で、この GitHub リポジトリ自体はドキュメントのゲートウェイ的役割にとどまり、実際のモデル取得や動作検証は Hugging Face のコレクションに依存します。実運用やプロダクションレベルの導入を考える場合、推論エンジンの対応、ハードウェア要件、最適化(ONNX、TensorRT、量子化等)や API 層の整備が必要です。総じて、GigaChat 3 は MoE の利点を活かした大規模言語モデリングの実験場を提供するリリースと位置づけられます。
プロジェクトの構成
主要なファイルとディレクトリ:
- LICENSE: file
- README.md: file
まとめ
MoE を核に据えた次世代 GigaChat 系列のオープンプレビュー。研究用途に有用なウェイト公開が最大の価値。
リポジトリ情報:
- 名前: gigachat3
- 説明: 説明なし
- スター数: 18
- 言語: null
- URL: https://github.com/salute-developers/gigachat3
- オーナー: salute-developers
- アバター: https://avatars.githubusercontent.com/u/103660842?v=4
READMEの抜粋:
HF link
GigaChat 3 Ultra & Lightning
Next-generation open MoE models: GigaChat 3 Ultra Preview (702B-A36B) and GigaChat 3 Lightning (10B-A1.8B).
This year we already released the GigaChat 2 lineup, added Reasoning to the Web version (giga.chat), open-sourced GigaChat Lite and Giga-Embeddings, and took first place on the ruMTEB benchmark. Now we are publishing open weights for a new generation of MoE models trained from scrat…