ProteKenz — タンパク質トークナイゼーションと配列表現の研究リポジトリ
2025/10/15
UC Denverでの独立研究プロジェクト「ProteKenz」は、機械学習を用いた創薬研究向けにタンパク質配列のトークナイゼーションと表現学習を探るための基盤的取り組みです。PDBから抽出した配列に対して固定k-mer、サブワードエンコーディング(BPE等)、境界認識スライシングなど複数のトークナイゼーション手法を実験的に適用し、基礎モデル(foundation models)用の入力表現を設計・比較することを目的としています。公開リポジトリでは学術的整合性保持のためソースコードは含まれていませんが、研究の方向性と設計方針がREADMEにまとめられています(300字程度)。