HydroJobSche(Hydro Job Scheduler)
2025/11/28
軽量なPyTorchトレーニング用ジョブスケジューラ。operator(Conv2d/Linear等)単位でフォワード/バックワードにフックを挿入し、Unixシグナル(SIGUSR1/SIGUSR2)で実行時にトレーニングを一時停止・再開できる設計。既存の学習ループをほとんど改修せずに組み込め、GPUリソースのプリエンプションやクラスタ運用でのきめ細かな制御を実現することを目指す。Python 3.7+/PyTorch 1.8+が前提。