Qwen3 をスクラッチで実装した TinyStories 言語モデル
2025/9/11
Qwen3 ベースの言語モデルを TinyStories データセットで学習させるための「スクラッチからの実装」リポジトリ。最新のトランスフォーマー改善(Grouped Query Attention、SwiGLU/SwiGlu、Rotary Position Embeddings、RMSNorm 等)を盛り込み、実装と学習パイプラインをシンプルな Python コードで示しています。教育目的やモデル実験の基盤として利用しやすい構成です。(約300字)