google · copybara-service · Aug 4, 2024
diff --git a/src/amalgam/gen/avx2.c b/src/amalgam/gen/avx2.c
@@ -3573,9 +3573,11 @@ void xnn_qd8_f16_qc4w_gemm_minmax_ukernel_1x8c8__avx2_madd_prfm(
   const __m256i vinput_zero_point0 = _mm256_set1_epi32((int) quantization_params[0].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -3723,9 +3725,11 @@ void xnn_qd8_f16_qc4w_gemm_minmax_ukernel_4x8c8__avx2_madd_prfm(
   const __m256i vinput_zero_point3 = _mm256_set1_epi32((int) quantization_params[3].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -5203,9 +5207,11 @@ void xnn_qd8_f32_qc4w_gemm_minmax_ukernel_1x8c8__avx2_madd_prfm(
   const __m256i vinput_zero_point0 = _mm256_set1_epi32((int) quantization_params[0].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -5353,9 +5359,11 @@ void xnn_qd8_f32_qc4w_gemm_minmax_ukernel_4x8c8__avx2_madd_prfm(
   const __m256i vinput_zero_point3 = _mm256_set1_epi32((int) quantization_params[3].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);

diff --git a/src/amalgam/gen/avx256skx.c b/src/amalgam/gen/avx256skx.c
@@ -47,9 +47,11 @@ void xnn_qd8_f16_qc4w_gemm_minmax_ukernel_1x8c8__avx256skx_madd_prfm(
   const __m256i vinput_zero_point0 = _mm256_set1_epi32((int) quantization_params[0].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -215,9 +217,11 @@ void xnn_qd8_f16_qc4w_gemm_minmax_ukernel_8x8c8__avx256skx_madd_prfm(
   const __m256i vinput_zero_point7 = _mm256_set1_epi32((int) quantization_params[7].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -1263,9 +1267,11 @@ void xnn_qd8_f32_qc4w_gemm_minmax_ukernel_1x8c8__avx256skx_madd_prfm(
   const __m256i vinput_zero_point0 = _mm256_set1_epi32((int) quantization_params[0].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -1430,9 +1436,11 @@ void xnn_qd8_f32_qc4w_gemm_minmax_ukernel_8x8c8__avx256skx_madd_prfm(
   const __m256i vinput_zero_point7 = _mm256_set1_epi32((int) quantization_params[7].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0x0F
-  assert(params->avxvnni.mask == (int8_t) 0x0F);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0x0F
+  assert(params->avxvnni.mask[0] == (int8_t) 0x0F);
+  const __m256i vzero_point = _mm256_load_si256((const __m256i*) params->avxvnni.zero_point);  // 8
+  const __m256i vsixteen = _mm256_load_si256((const __m256i*) params->avxvnni.sixteen);  // 16
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);

diff --git a/src/amalgam/gen/avx256vnni.c b/src/amalgam/gen/avx256vnni.c
@@ -45,9 +45,9 @@ void xnn_qd8_f16_qc4w_gemm_minmax_ukernel_1x8c8__avx256vnni(
   const __m256i vinput_zero_point0 = _mm256_set1_epi32((int) quantization_params[0].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0xF0
-  assert(params->avxvnni.mask == (int8_t) 0xF0);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0xF0
+  assert(params->avxvnni.mask[0] == (int8_t) 0xF0);
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -211,9 +211,9 @@ void xnn_qd8_f16_qc4w_gemm_minmax_ukernel_8x8c8__avx256vnni(
   const __m256i vinput_zero_point7 = _mm256_set1_epi32((int) quantization_params[7].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
-  const __m256i vmask = _mm256_set1_epi8(params->avxvnni.mask);  // 0xF0
-  assert(params->avxvnni.mask == (int8_t) 0xF0);
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
+  const __m256i vmask = _mm256_load_si256((const __m256i*) params->avxvnni.mask);  // 0xF0
+  assert(params->avxvnni.mask[0] == (int8_t) 0xF0);
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -513,7 +513,7 @@ void xnn_qd8_f16_qc8w_gemm_minmax_ukernel_1x8c8__avx256vnni(
   const __m256i vinput_zero_point0 = _mm256_set1_epi32((int) quantization_params[0].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -670,7 +670,7 @@ void xnn_qd8_f16_qc8w_gemm_minmax_ukernel_8x8c8__avx256vnni(
   const __m256i vinput_zero_point7 = _mm256_set1_epi32((int) quantization_params[7].zero_point + 128);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point0);
@@ -959,7 +959,7 @@ void xnn_qd8_f16_qc8w_igemm_minmax_ukernel_1x8c8__avx256vnni(
   const __m256 vinput_inv_scale = _mm256_set1_ps(quantization_params->inv_scale);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     const __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point);
@@ -1112,7 +1112,7 @@ void xnn_qd8_f16_qc8w_igemm_minmax_ukernel_8x8c8__avx256vnni(
   const __m256 vinput_inv_scale = _mm256_set1_ps(quantization_params->inv_scale);
   const __m256 voutput_min = _mm256_set1_ps(params->avxvnni.min);
   const __m256 voutput_max = _mm256_set1_ps(params->avxvnni.max);
-  const __m256i vsign_mask = _mm256_set1_epi8(params->avxvnni.sign_mask);  // 0x80
+  const __m256i vsign_mask = _mm256_load_si256((const __m256i*) params->avxvnni.sign_mask);  // 0x80
   do {
     const __m256i vksum01234567 = _mm256_load_si256(w);
     const __m256i vsum0x01234567 = _mm256_mullo_epi32(vksum01234567, vinput_zero_point);