自己回帰型の言語モデル(次トークン予測)で、デコーダ側の注意機構に因果マスクを入れる主目的はどれか。 因果マスク X Facebook はてブ LINE Pinterest コピー 2025.12.30