fix

PaddlePaddle · sijunhe · Apr 29, 2024 · Apr 17, 2024 · Apr 19, 2024 · Apr 22, 2024
commit e9a4b871d6127ba7bfbfc92b43c96219a0731b20
diff --git a/paddlenlp/transformers/llama/modeling.py b/paddlenlp/transformers/llama/modeling.py
@@ -413,13 +413,13 @@
        if self.config.use_fused_rms_norm:
            if get_env_device() == "npu":
                return core.eager._run_custom_op("rms_norm_npu", hidden_states, self.weight, self.variance_epsilon)[0]
            elif get_env_device() == "xpu":
                try:
                    import paddle_xpu_nn  # noqa: F821

                    return paddle_xpu_nn.xpu_rms_norm(hidden_states, self.weight, self.variance_epsilon)[0]
                except ImportError:
                    pass
            return rms_norm_fused(hidden_states, self.weight, self.variance_epsilon)

        if paddle.in_dynamic_mode():
@@ -589,47 +589,47 @@

                ColumnParallelLinear = MC2ColumnSeqParallelLinear
                RowParallelLinear = MC2RowSeqParallelLinear
            elif get_env_device() == "xpu":
                try:
                    from paddle_xpu.layers.nn.sequence_parallel import (  # noqa: F401
                        XPUColumnSequenceParallelLinear,
                        XPURowSequenceParallelLinear,
                    )

                    ColumnParallelLinear = XPUColumnSequenceParallelLinear
                    RowParallelLinear = XPURowSequenceParallelLinear
                except ImportError:
                    ColumnParallelLinear = ColumnSequenceParallelLinear
                    RowParallelLinear = RowSequenceParallelLinear
            else:
                ColumnParallelLinear = ColumnSequenceParallelLinear
                RowParallelLinear = RowSequenceParallelLinear
        else:
            if get_env_device() == "xpu":
                try:
                    from paddle_xpu.layers.nn import (  # noqa: F401
                        ColumnParallelLinear as XPUColumnParallelLinear,
                    )
                    from paddle_xpu.layers.nn import (  # noqa: F401
                        RowParallelLinear as XPURowParallelLinear,
                    )

                    ColumnParallelLinear = XPUColumnParallelLinear
                    RowParallelLinear = XPURowParallelLinear
                except ImportError:
                    ColumnParallelLinear = fleet.meta_parallel.ColumnParallelLinear
                    RowParallelLinear = fleet.meta_parallel.RowParallelLinear
            else:
                ColumnParallelLinear = fleet.meta_parallel.ColumnParallelLinear
                RowParallelLinear = fleet.meta_parallel.RowParallelLinear

        if get_env_device() == "xpu":
            try:
                from paddle_xpu.layers.nn import Linear as XPULinear  # noqa: F401

                Linear = XPULinear
            except ImportError:
                Linear = nn.Linear
        else:
            Linear = nn.Linear

@@ -663,7 +663,7 @@
            )
        else:
            if config.fuse_attention_ffn:
                self.gate_up_fused_proj = Linear(self.hidden_size, self.intermediate_size * 2, bias_attr=False)
            else:
                self.gate_proj = Linear(self.hidden_size, self.intermediate_size, bias_attr=False)
                self.up_proj = Linear(self.hidden_size, self.intermediate_size, bias_attr=False)
@@ -673,16 +673,18 @@
    def forward(self, x):
        if self.fuse_attention_ffn:
            # FIXME(yangjianbang): use paddle's native swiglu
            if get_env_device() == "xpu":
                try:
                    import paddle_xpu_nn  # noqa: F821

                    out = self.gate_up_fused_proj(x)
                    out = paddle_xpu_nn.xpu_swiglu(out, axis=-1, turn=True)
                     out = self.down_proj(out)
                     return out
                 except ImportError:
-                    pass
+                    gate_out, up_out = paddle.chunk(self.gate_up_fused_proj(x), chunks=2, axis=-1)
+                    out = self.down_proj(F.silu(gate_out) * up_out)
+                    return out
 
             x = swiglu(self.gate_up_fused_proj(x))
         else:
@@ -761,47 +763,47 @@

                ColumnParallelLinear = MC2ColumnSeqParallelLinear
                RowParallelLinear = MC2RowSeqParallelLinear
            elif get_env_device() == "xpu":
                try:
                    from paddle_xpu.layers.nn.sequence_parallel import (  # noqa: F401
                        XPUColumnSequenceParallelLinear,
                        XPURowSequenceParallelLinear,
                    )

                    ColumnParallelLinear = XPUColumnSequenceParallelLinear
                    RowParallelLinear = XPURowSequenceParallelLinear
                except ImportError:
                    ColumnParallelLinear = ColumnSequenceParallelLinear
                    RowParallelLinear = RowSequenceParallelLinear
            else:
                ColumnParallelLinear = ColumnSequenceParallelLinear
                RowParallelLinear = RowSequenceParallelLinear
        else:
            if get_env_device() == "xpu":
                try:
                    from paddle_xpu.layers.nn import (  # noqa: F401
                        ColumnParallelLinear as XPUColumnParallelLinear,
                    )
                    from paddle_xpu.layers.nn import (  # noqa: F401
                        RowParallelLinear as XPURowParallelLinear,
                    )

                    ColumnParallelLinear = XPUColumnParallelLinear
                    RowParallelLinear = XPURowParallelLinear
                except ImportError:
                    ColumnParallelLinear = fleet.meta_parallel.ColumnParallelLinear
                    RowParallelLinear = fleet.meta_parallel.RowParallelLinear
            else:
                ColumnParallelLinear = fleet.meta_parallel.ColumnParallelLinear
                RowParallelLinear = fleet.meta_parallel.RowParallelLinear

        if get_env_device() == "xpu":
            try:
                from paddle_xpu.layers.nn import Linear as XPULinear  # noqa: F401

                Linear = XPULinear
            except:
                Linear = nn.Linear
        else:
            Linear = nn.Linear

@@ -834,12 +836,12 @@
                        gather_output=False,
                    )
                else:
                    self.k_proj = Linear(
                        self.hidden_size,
                        self.config.num_key_value_heads * self.head_dim,
                        bias_attr=False,
                    )
                    self.v_proj = Linear(
                        self.hidden_size,
                        self.config.num_key_value_heads * self.head_dim,
                        bias_attr=False,
@@ -847,7 +849,7 @@

        else:
            if self.fuse_attention_qkv:
                self.qkv_proj = Linear(
                    self.hidden_size,
                    self.hidden_size + 2 * self.config.num_key_value_heads * self.head_dim,
                    bias_attr=False,
@@ -1522,10 +1524,10 @@
            expanded_attn_mask = expanded_attn_mask.astype("float16")
            expanded_attn_mask = paddle.where(expanded_attn_mask, x, y).astype(dtype)
        elif get_env_device() == "xpu":
            x = paddle.to_tensor(0.0, dtype=dtype)
            y = paddle.to_tensor(paddle.finfo(dtype).min, dtype=dtype)
            expanded_attn_mask = expanded_attn_mask.astype(dtype)
            expanded_attn_mask = paddle.where(expanded_attn_mask, x, y).astype(dtype)
        else:
            expanded_attn_mask = paddle.where(expanded_attn_mask, 0.0, paddle.finfo(dtype).min).astype(dtype)
        return expanded_attn_mask
@@ -1807,14 +1809,14 @@
        if self.weight.is_distributed:
            self.weight.split_axis = 1
        if get_env_device() == "xpu":
            try:
                from paddle_xpu.layers.nn import (  # noqa: F401
                    parallel_matmul as xpu_parallel_matmul,
                )

                self.xpu_parallel_matmul = xpu_parallel_matmul()
            except ImportError:
                self.xpu_parallel_matmul = None

    def forward(self, hidden_states, tensor_parallel_output=None):
        if self.config.sequence_parallel:
@@ -1829,7 +1831,7 @@
            tensor_parallel_output = self.config.tensor_parallel_output

        if get_env_device() == "xpu" and self.xpu_parallel_matmul is not None:
            logits = self.xpu_parallel_matmul(
                hidden_states, self.weight, tensor_parallel_output=tensor_parallel_output, training=self.training
            )
        else: