3DCvTによるリップリーディング(PyTorch実装)
2026/3/15
PyTorchで再現した「3DCvT: A Lip Reading Method Based on 3D Convolutional Vision Transformer」の実装リポジトリ。3D畳み込みフロントエンドで時空間特徴を抽出し、CvT(Convolutional Vision Transformer)をバックボーンに用いる構成をLRW(英語)とLRW-1000(中国語)データセット上で学習・評価・推論できる。学術論文の再現実験や比較実装、推論パイプライン検証に向く。