Move common code.

2024-09-13 06:22:13 -05:00 · 2024-09-13 06:22:13 -05:00 · 7947970f9d
parent 72216d28c2
commit 7947970f9d
4 changed files with 152 additions and 134 deletions
--- a/kernel/power/gemm_common.c
+++ b/kernel/power/gemm_common.c
@ -0,0 +1,148 @@
 #ifndef GEMM_COMMON_C
 #define GEMM_COMMON_C
 #include "common.h"
 #include <altivec.h>
 #define FORCEINLINE      inline __attribute__((always_inline))
 #ifdef __clang__
 #define uint16_t         unsigned short
 #define uint32_t         unsigned int
 #define uint64_t         unsigned long long
 #endif
 #ifdef _ARCH_PWR10
 #ifdef __has_builtin
 #if !__has_builtin(__builtin_vsx_assemble_pair)
 #define __builtin_vsx_assemble_pair __builtin_mma_assemble_pair
 #endif
 #if !__has_builtin(__builtin_vsx_disassemble_pair)
 #define __builtin_vsx_disassemble_pair __builtin_mma_disassemble_pair
 #endif
 #endif
 #if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
 #define __builtin_vsx_assemble_pair2(vp0, v0, v1) __builtin_vsx_assemble_pair(vp0, v1, v0)
 #else
 #define __builtin_vsx_assemble_pair2(vp0, v0, v1) __builtin_vsx_assemble_pair(vp0, v0, v1)
 #endif
 #define USE_VECTOR_PAIRS
 #endif
 typedef __vector IFLOAT        vec_bf16;
 typedef __vector FLOAT         vec_f32;
 typedef __vector unsigned char vec_uc8;
 FORCEINLINE vec_uc8 vec_load_vec(void *src)
 {
  return vec_xl(0, (unsigned char *)(src));
 }
 FORCEINLINE void vec_load_pair(vec_f32 *dst, vec_f32 *src)
 {
 #ifdef USE_VECTOR_PAIRS
  __vector_pair vy0p;
  vy0p = *(__vector_pair *)(src);
  __builtin_vsx_disassemble_pair((void *)(dst), &vy0p);
 #else
  dst[0] = src[0];
  dst[1] = src[1];
 #endif
 }
 FORCEINLINE void vec_store_pair(vec_f32 *dst, vec_f32 *src)
 {
 #ifdef USE_VECTOR_PAIRS
  __vector_pair vy0p;
  __builtin_vsx_assemble_pair2(&vy0p, (vec_uc8)src[1], (vec_uc8)src[0]);
  *(__vector_pair *)(dst) = vy0p;
 #else
  dst[0] = src[0];
  dst[1] = src[1];
 #endif
 }
 FORCEINLINE vec_bf16 vec_loadN(void *src, BLASLONG n)
 {
  IFLOAT *src2 = (IFLOAT *)(src);
 #ifdef _ARCH_PWR9
  return vec_xl_len(src2, n * sizeof(IFLOAT));
 #else
  __attribute__((aligned(16))) IFLOAT data[sizeof(vec_bf16) / sizeof(IFLOAT)];
  memset(data, 0, sizeof(vec_bf16));
  if (n & 4) {
    memcpy(data, src2, sizeof(uint64_t));
  }
  if (n & 2) {
    BLASLONG n4 = n & 4;
    memcpy(data + n4, src2 + n4, sizeof(uint32_t));
  }
  if (n & 1) {
    BLASLONG n6 = n & 6;
    data[n6] = src2[n6];
  }
  return (vec_bf16)vec_load_vec(data);
 #endif
 }
 FORCEINLINE vec_f32 vec_loadN_f32(void *src, BLASLONG n)
 {
 #ifndef _ARCH_PWR9
  if (n & 4) {
    return (vec_f32)vec_load_vec(src);
  }
 #endif
  return (vec_f32)vec_loadN(src, n * (sizeof(FLOAT) / sizeof(IFLOAT)));
 }
 FORCEINLINE void vec_loadN2_f32(vec_f32 *data, vec_f32 *src, BLASLONG n)
 {
  data[0] = src[0];
  data[1] = vec_loadN_f32(&src[1], n);
 }
 FORCEINLINE void vec_storeN(vec_bf16 data, void *dst, BLASLONG n)
 {
  IFLOAT *dst2 = (IFLOAT *)(dst);
 #ifdef _ARCH_PWR9
  vec_xst_len(data, dst2, n * sizeof(IFLOAT));
 #else
  if (n & 8) {
    vec_xst(data, 0, dst2);
    return;
  }
  __attribute__((aligned(16))) IFLOAT data2[sizeof(vec_f32) / sizeof(IFLOAT)];
  vec_xst(data, 0, data2);
  if (n & 4) {
    memcpy(dst2, data2, sizeof(uint64_t));
  }
  if (n & 2) {
    BLASLONG n4 = n & 4;
    memcpy(dst2 + n4, data2 + n4, sizeof(uint32_t));
  }
  if (n & 1) {
    BLASLONG n6 = n & 6;
    dst2[n6] = data2[n6];
  }
 #endif
 }
 FORCEINLINE void vec_storeN_f32(vec_f32 data, void *dst, BLASLONG n)
 {
 #ifndef _ARCH_PWR9
  if (n & 4) {
    vec_xst(data, 0, (FLOAT *)dst);
    return;
  }
 #endif
  return vec_storeN((vec_bf16)data, dst, n * (sizeof(FLOAT) / sizeof(IFLOAT)));
 }
 FORCEINLINE void vec_storeN2_f32(vec_f32 *data, vec_f32 *dst, BLASLONG n)
 {
  dst[0] = data[0];
  vec_storeN_f32(data[1], &dst[1], n);
 }
 #endif
--- a/kernel/power/sbgemv_common.c
+++ b/kernel/power/sbgemv_common.c
@ -27,40 +27,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #ifndef SBGEMV_COMMON_C
 #define SBGEMV_COMMON_C
-#include "common.h"
+#include "gemm_common.c"
 #include <altivec.h>
 #define FORCEINLINE      inline __attribute__((always_inline))
 #ifdef __clang__
 #define uint16_t         unsigned short
 #define uint32_t         unsigned int
 #define uint64_t         unsigned long long
 #endif
 #ifdef _ARCH_PWR10
 #ifdef __has_builtin
 #if !__has_builtin(__builtin_vsx_assemble_pair)
 #define __builtin_vsx_assemble_pair __builtin_mma_assemble_pair
 #endif
 #if !__has_builtin(__builtin_vsx_disassemble_pair)
 #define __builtin_vsx_disassemble_pair __builtin_mma_disassemble_pair
 #endif
 #endif
 #if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
 #define __builtin_vsx_assemble_pair2(vp0, v0, v1) __builtin_vsx_assemble_pair(vp0, v1, v0)
 #else
 #define __builtin_vsx_assemble_pair2(vp0, v0, v1) __builtin_vsx_assemble_pair(vp0, v0, v1)
 #endif
 #define USE_VECTOR_PAIRS
 #endif
 typedef __vector IFLOAT        vec_bf16;
 typedef __vector FLOAT         vec_f32;
 typedef __vector unsigned char vec_uc8;
 #if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
 #define BF16_HI(data, zero)     (vec_f32)vec_mergeh(data, zero)
@ -70,108 +37,12 @@ typedef __vector unsigned char vec_uc8;
 #define BF16_LO(data, zero)     (vec_f32)vec_mergel(zero, data)
 #endif
 FORCEINLINE vec_uc8 vec_load_vec(void *src)
 {
  return vec_xl(0, (unsigned char *)(src));
 }
 FORCEINLINE void vec_load_pair(vec_f32 *dst, vec_f32 *src)
 {
 #ifdef USE_VECTOR_PAIRS
  __vector_pair vy0p;
  vy0p = *(__vector_pair *)(src);
  __builtin_vsx_disassemble_pair((void *)(dst), &vy0p);
 #else
  dst[0] = src[0];
  dst[1] = src[1];
 #endif
 }
 FORCEINLINE void vec_store_pair(vec_f32 *dst, vec_f32 *src)
 {
 #ifdef USE_VECTOR_PAIRS
  __vector_pair vy0p;
  __builtin_vsx_assemble_pair2(&vy0p, (vec_uc8)src[1], (vec_uc8)src[0]);
  *(__vector_pair *)(dst) = vy0p;
 #else
  dst[0] = src[0];
  dst[1] = src[1];
 #endif
 }
 FORCEINLINE vec_bf16 vec_loadN(void *src, BLASLONG n)
 {
  IFLOAT *src2 = (IFLOAT *)(src);
 #ifdef _ARCH_PWR9
  return vec_xl_len(src2, n * sizeof(IFLOAT));
 #else
  __attribute__((aligned(16))) IFLOAT data[sizeof(vec_bf16) / sizeof(IFLOAT)];
  memset(data, 0, sizeof(vec_bf16));
  if (n & 4) {
    memcpy(data, src2, sizeof(uint64_t));
  }
  if (n & 2) {
    BLASLONG n4 = n & 4;
    memcpy(data + n4, src2 + n4, sizeof(uint32_t));
  }
  if (n & 1) {
    BLASLONG n6 = n & 6;
    data[n6] = src2[n6];
  }
  return (vec_bf16)vec_load_vec(data);
 #endif
 }
 FORCEINLINE vec_f32 vec_loadNHi(void *src, BLASLONG n, vec_bf16 zero)
 {
  vec_bf16 data = vec_loadN(src, n);
  return BF16_HI(data, zero);
 }
 FORCEINLINE vec_f32 vec_loadN_f32(void *src, BLASLONG n)
 {
 #ifndef _ARCH_PWR9
  if (n & 4) {
    return (vec_f32)vec_load_vec(src);
  }
 #endif
  return (vec_f32)vec_loadN(src, n * (sizeof(FLOAT) / sizeof(IFLOAT)));
 }
 FORCEINLINE void vec_loadN2_f32(vec_f32 *data, vec_f32 *src, BLASLONG n)
 {
  data[0] = src[0];
  data[1] = vec_loadN_f32(&src[1], n);
 }
 FORCEINLINE void vec_storeN_f32(vec_f32 data, void *dst, BLASLONG n)
 {
  FLOAT *dst2 = (FLOAT *)(dst);
 #ifdef _ARCH_PWR9
  vec_xst_len(data, dst2, n * sizeof(FLOAT));
 #else
  if (n & 4) {
    vec_xst(data, 0, dst2);
    return;
  }
  __attribute__((aligned(16))) FLOAT data2[sizeof(vec_f32) / sizeof(FLOAT)];
  vec_xst(data, 0, data2);
  if (n & 2) {
    memcpy(dst2, data2, sizeof(uint64_t));
  }
  if (n & 1) {
    BLASLONG n2 = n & 2;
    dst2[n2] = data2[n2];
  }
 #endif
 }
 FORCEINLINE void vec_storeN2_f32(vec_f32 *data, vec_f32 *dst, BLASLONG n)
 {
  dst[0] = data[0];
  vec_storeN_f32(data[1], &dst[1], n);
 }
 FORCEINLINE vec_f32 vec_mult(vec_f32 *inp, vec_bf16 in0, vec_bf16 zero)
 {
  vec_f32 v_in00 = BF16_HI(in0, zero);
@ -297,7 +168,7 @@ FORCEINLINE void copy_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src, F
  }
 }
-FORCEINLINE void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest)
+FORCEINLINE void move_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest)
 {
  for (BLASLONG i = 0; i < n; i++) {
    *dest = *src++;
--- a/kernel/power/sbgemv_n.c
+++ b/kernel/power/sbgemv_n.c
@ -179,7 +179,7 @@ int CNAME(BLASLONG m, BLASLONG n, FLOAT alpha, IFLOAT *a, BLASLONG lda, IFLOAT *
    a += NB;
    if (inc_y != 1) {
-      add_y(NB, ybuffer, y_ptr, inc_y);
+      move_y(NB, ybuffer, y_ptr, inc_y);
      y_ptr += (NB * inc_y);
    } else {
      y_ptr += NB;
--- a/kernel/power/sbgemv_n_vsx.c
+++ b/kernel/power/sbgemv_n_vsx.c
@ -269,8 +269,7 @@ static void BF16GEMV_N_VSX_8(BLASLONG n, IFLOAT **ap, IFLOAT *xo, FLOAT *y, BLAS
    vec_loadN_mult2(v_x7, &vb3[i], n, zero, vy0);
    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n3);
-  } else
+  } else if (n) {
  if (n) {
    vec_f32 vy0 = vec_loadN_f32(&v_y[(i * 2) + 0], n);
    vy0 += vec_loadNHi_multi2(v_x0, &va0[i], n, zero);