请教在 `get_masks` 里面的 `full_attention_mask -= padding_mask.unsqueeze(-1) - 1` 作用是？ #724

tanguofu · 2024-01-10T13:52:41Z

tanguofu
Jan 10, 2024

    def get_masks(self, input_ids, past_key_values, padding_mask=None):
        batch_size, seq_length = input_ids.shape
        full_attention_mask = torch.ones(batch_size, seq_length, seq_length, device=input_ids.device)
        full_attention_mask.tril_()
        past_length = 0
        if past_key_values:
            past_length = past_key_values[0][0].shape[0]
        if past_length:
            full_attention_mask = torch.cat((torch.ones(batch_size, seq_length, past_length,
                                                        device=input_ids.device), full_attention_mask), dim=-1)
        if padding_mask is not None:
            full_attention_mask = full_attention_mask * padding_mask.unsqueeze(1)
        if not past_length and padding_mask is not None:
            full_attention_mask -= padding_mask.unsqueeze(-1) - 1
        full_attention_mask = (full_attention_mask < 0.5).bool()
        full_attention_mask.unsqueeze_(1)
        return full_attention_mask

请教在 get_masks 中：

       if not past_length and padding_mask is not None:
            full_attention_mask -= padding_mask.unsqueeze(-1) - 1

not past_length 表示之前没有pre seq 或者推理， padding mask 应该就是 inputs 的attention-mask？，那这里的 full_attention_mask -= padding_mask.unsqueeze(-1) - 1 如何理解呢？

Answered by zRzRzRzRzRzRzR

Jan 16, 2024

这行代码的作用是确保模型在处理输入时，能够忽略那些填充的部分，只关注有效的输入数据。这对于处理变长序列的自然语言处理模型尤为重要，因为它直接影响到模型的效率和效果。

padding_mask.unsqueeze(-1):这个操作是给padding_mask增加一个维度，使其形状与full_attention_mask相兼容。padding_mask通常用于标记输入序列中的填充部分，其中0代表填充，1代表非填充。接着通过从full_attention_mask中减去padding_mask，原本为非填充部分（值为1）的位置在full_attention_mask中被减去1，变为0。
最后还需要 -1，是对full_attention_mask的值进行反转。这个操作实际上是将原本标记为填充的位置（原值为0）变为-1，而非填充位置（原值为1）变为0，在注意力机制中被忽略。

View full answer

zRzRzRzRzRzRzR · 2024-01-16T09:13:25Z

zRzRzRzRzRzRzR
Jan 16, 2024
Maintainer

这行代码的作用是确保模型在处理输入时，能够忽略那些填充的部分，只关注有效的输入数据。这对于处理变长序列的自然语言处理模型尤为重要，因为它直接影响到模型的效率和效果。

padding_mask.unsqueeze(-1):这个操作是给padding_mask增加一个维度，使其形状与full_attention_mask相兼容。padding_mask通常用于标记输入序列中的填充部分，其中0代表填充，1代表非填充。接着通过从full_attention_mask中减去padding_mask，原本为非填充部分（值为1）的位置在full_attention_mask中被减去1，变为0。
最后还需要 -1，是对full_attention_mask的值进行反转。这个操作实际上是将原本标记为填充的位置（原值为0）变为-1，而非填充位置（原值为1）变为0，在注意力机制中被忽略。

1 reply

MonolithFoundation Jun 5, 2024

有一说一，bool - 会直接报错啊？另外反转用～不是更科学吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请教在 `get_masks` 里面的 `full_attention_mask -= padding_mask.unsqueeze(-1) - 1` 作用是？ #724

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

请教在 get_masks 里面的 full_attention_mask -= padding_mask.unsqueeze(-1) - 1 作用是？ #724

tanguofu Jan 10, 2024

Replies: 1 comment · 1 reply

zRzRzRzRzRzRzR Jan 16, 2024 Maintainer

MonolithFoundation Jun 5, 2024

请教在 `get_masks` 里面的 `full_attention_mask -= padding_mask.unsqueeze(-1) - 1` 作用是？ #724

tanguofu
Jan 10, 2024

Replies: 1 comment 1 reply

zRzRzRzRzRzRzR
Jan 16, 2024
Maintainer