自己回帰型の言語モデル（次トークン予測）で、デコーダ側の注意機構に因果マスクを入れる主目的はどれか。