知識蒸留

知識蒸留

大規模モデルの出力分布(ソフトターゲット)を教師として、小規模モデルを学習させる手法として最も適切なのはどれか。