optimized dgemv_n kernel for haswell

2015-04-30 12:11:39 +02:00 · 2015-04-30 12:11:39 +02:00 · 30f52d53df
parent 4c616173e4
commit 30f52d53df
3 changed files with 42 additions and 234 deletions
--- a/kernel/x86_64/dgemv_n_4.c
+++ b/kernel/x86_64/dgemv_n_4.c
@ -37,48 +37,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #define NBMAX 2048
 #ifndef HAVE_KERNEL_4x8
 static void dgemv_kernel_4x8(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, BLASLONG lda4, FLOAT *alpha)
 {
 	BLASLONG i;
 	FLOAT *a0,*a1,*a2,*a3;
 	FLOAT *b0,*b1,*b2,*b3;
 	FLOAT *x4;
 	FLOAT x[8];
 	a0 = ap[0];
 	a1 = ap[1];
 	a2 = ap[2];
 	a3 = ap[3];
 	b0 = a0 + lda4 ;
 	b1 = a1 + lda4 ;
 	b2 = a2 + lda4 ;
 	b3 = a3 + lda4 ;
 	x4 = x + 4;
 	for ( i=0; i<8; i++)
 		x[i] = xo[i] * *alpha;
 	for ( i=0; i< n; i+=4 )
 	{
 		y[i] += a0[i]*x[0] + a1[i]*x[1] + a2[i]*x[2] + a3[i]*x[3];		
 		y[i+1] += a0[i+1]*x[0] + a1[i+1]*x[1] + a2[i+1]*x[2] + a3[i+1]*x[3];		
 		y[i+2] += a0[i+2]*x[0] + a1[i+2]*x[1] + a2[i+2]*x[2] + a3[i+2]*x[3];		
 		y[i+3] += a0[i+3]*x[0] + a1[i+3]*x[1] + a2[i+3]*x[2] + a3[i+3]*x[3];		
 		y[i] += b0[i]*x4[0] + b1[i]*x4[1] + b2[i]*x4[2] + b3[i]*x4[3];		
 		y[i+1] += b0[i+1]*x4[0] + b1[i+1]*x4[1] + b2[i+1]*x4[2] + b3[i+1]*x4[3];		
 		y[i+2] += b0[i+2]*x4[0] + b1[i+2]*x4[1] + b2[i+2]*x4[2] + b3[i+2]*x4[3];		
 		y[i+3] += b0[i+3]*x4[0] + b1[i+3]*x4[1] + b2[i+3]*x4[2] + b3[i+3]*x4[3];		
 	}
 }
 #endif
 #ifndef HAVE_KERNEL_4x4
 static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
@ -257,7 +215,6 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO
 	BLASLONG m3;
 	BLASLONG n2;
 	BLASLONG lda4 =  lda << 2;
 	BLASLONG lda8 =  lda << 3;
 	FLOAT xbuffer[8],*ybuffer;
        if ( m < 1 ) return(0);
@ -265,23 +222,13 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO
 	ybuffer = buffer;
        if ( inc_x == 1 )
 	{
 		n1 = n >> 3 ;
 		n2 = n &  7 ;
 	}
 	else
 	{
 	n1 = n >> 2 ;
 	n2 = n &  3 ;
 	}
        m3 = m & 3  ;
        m1 = m & -4 ;
        m2 = (m & (NBMAX-1)) - m3 ;
 	y_ptr = y;
 	BLASLONG NB = NBMAX;
@ -314,22 +261,12 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO
 			for( i = 0; i < n1 ; i++)
 			{
 				dgemv_kernel_4x8(NB,ap,x_ptr,ybuffer,lda4,&alpha);
 				ap[0] += lda8; 
 				ap[1] += lda8; 
 				ap[2] += lda8; 
 				ap[3] += lda8; 
 				a_ptr += lda8;
 				x_ptr += 8;	
 			}
 			if ( n2 & 4 )
 			{
 				dgemv_kernel_4x4(NB,ap,x_ptr,ybuffer,&alpha);
 				ap[0] += lda4; 
 				ap[1] += lda4; 
 				ap[2] += lda4; 
 				ap[3] += lda4; 
 				a_ptr += lda4;
 				x_ptr += 4;	
 			}
--- a/kernel/x86_64/dgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/dgemv_n_microk_haswell-4.c
@ -27,128 +27,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #define HAVE_KERNEL_4x8 1
 static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLONG lda4, FLOAT *alpha) __attribute__ ((noinline));
 static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLONG lda4, FLOAT *alpha)
 {
 	BLASLONG register i = 0;
 	__asm__  __volatile__
 	(
 	"vzeroupper			 \n\t"
 	"vbroadcastsd    (%2), %%ymm12	 \n\t"	// x0 
 	"vbroadcastsd   8(%2), %%ymm13	 \n\t"	// x1 
 	"vbroadcastsd  16(%2), %%ymm14	 \n\t"	// x2 
 	"vbroadcastsd  24(%2), %%ymm15	 \n\t"	// x3 
 	"vbroadcastsd  32(%2), %%ymm0 	 \n\t"	// x4 
 	"vbroadcastsd  40(%2), %%ymm1 	 \n\t"	// x5 
 	"vbroadcastsd  48(%2), %%ymm2 	 \n\t"	// x6 
 	"vbroadcastsd  56(%2), %%ymm3 	 \n\t"	// x7 
 	"vbroadcastsd    (%9), %%ymm6 	 \n\t"	// alpha 
        "testq          $0x04, %1                      \n\t"
        "jz             2f                     \n\t"
 	"vmovupd	(%3,%0,8), %%ymm7	       \n\t"	// 4 * y
 	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
 	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
 	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm5      \n\t" 
 	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
 	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm5      \n\t" 
 	"vfmadd231pd   (%4,%8,8), %%ymm0 , %%ymm4      \n\t" 
 	"vfmadd231pd   (%5,%8,8), %%ymm1 , %%ymm5      \n\t" 
 	"vfmadd231pd   (%6,%8,8), %%ymm2 , %%ymm4      \n\t" 
 	"vfmadd231pd   (%7,%8,8), %%ymm3 , %%ymm5      \n\t" 
 	"vaddpd		%%ymm4 , %%ymm5 , %%ymm5       \n\t"
 	"vmulpd		%%ymm6 , %%ymm5 , %%ymm5       \n\t"
 	"vaddpd		%%ymm7 , %%ymm5 , %%ymm5       \n\t"
 	"vmovupd  %%ymm5,   (%3,%0,8)		       \n\t"	// 4 * y
        "addq		$4 , %8	  	 	       \n\t"
        "addq		$4 , %0	  	 	       \n\t"
 	"subq	        $4 , %1			       \n\t"		
        "2:                                   \n\t"
        "cmpq           $0, %1                         \n\t"
        "je             3f                      \n\t"
 	".align 16				 \n\t"
 	"1:				 \n\t"
 	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
 	"vmovupd	(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
 	"vmovupd      32(%3,%0,8), %%ymm9	       \n\t"	// 4 * y
 	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
 	"vfmadd231pd 32(%4,%0,8), %%ymm12, %%ymm5      \n\t" 
 	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm4      \n\t" 
 	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
 	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
 	"vfmadd231pd 32(%6,%0,8), %%ymm14, %%ymm5      \n\t" 
 	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm4      \n\t" 
 	"vfmadd231pd 32(%7,%0,8), %%ymm15, %%ymm5      \n\t" 
 	"vfmadd231pd   (%4,%8,8), %%ymm0 , %%ymm4      \n\t" 
        "addq		$8 , %0	  	 	       \n\t"
 	"vfmadd231pd 32(%4,%8,8), %%ymm0 , %%ymm5      \n\t" 
 	"vfmadd231pd   (%5,%8,8), %%ymm1 , %%ymm4      \n\t" 
 	"vfmadd231pd 32(%5,%8,8), %%ymm1 , %%ymm5      \n\t" 
 	"vfmadd231pd   (%6,%8,8), %%ymm2 , %%ymm4      \n\t" 
 	"vfmadd231pd 32(%6,%8,8), %%ymm2 , %%ymm5      \n\t" 
 	"vfmadd231pd   (%7,%8,8), %%ymm3 , %%ymm4      \n\t" 
 	"vfmadd231pd 32(%7,%8,8), %%ymm3 , %%ymm5      \n\t" 
 	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
 	"vfmadd231pd     %%ymm6 , %%ymm5 , %%ymm9      \n\t"
        "addq		$8 , %8	  	 	      \n\t"
 	"vmovupd  %%ymm8,-64(%3,%0,8)		      \n\t"	// 4 * y
 	"subq	        $8 , %1			      \n\t"		
 	"vmovupd  %%ymm9,-32(%3,%0,8)		      \n\t"	// 4 * y
 	"jnz		1b		      \n\t"
        "3:                             \n\t"
 	"vzeroupper			        \n\t"
 	:
        : 
          "r" (i),	// 0	
 	  "r" (n),  	// 1
          "r" (x),      // 2
          "r" (y),      // 3
          "r" (ap[0]),  // 4
          "r" (ap[1]),  // 5
          "r" (ap[2]),  // 6
          "r" (ap[3]),  // 7
          "r" (lda4),   // 8
          "r" (alpha)   // 9
 	: "cc", 
 	  "%xmm0", "%xmm1", 
 	  "%xmm2", "%xmm3", 
 	  "%xmm4", "%xmm5", 
 	  "%xmm6", "%xmm7", 
 	  "%xmm8", "%xmm9", 
 	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
 	  "memory"
 	);
 } 
 #define HAVE_KERNEL_4x4 1
 static void dgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
@ -159,68 +37,59 @@ static void dgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 	__asm__  __volatile__
 	(
 	"vzeroupper			 \n\t"
 	"vbroadcastsd    (%2), %%ymm12	 \n\t"	// x0 
 	"vbroadcastsd   8(%2), %%ymm13	 \n\t"	// x1 
 	"vbroadcastsd  16(%2), %%ymm14	 \n\t"	// x2 
 	"vbroadcastsd  24(%2), %%ymm15	 \n\t"	// x3 
 	"vmovups	(%4,%0,8), %%ymm0	 \n\t"
 	"vmovups	(%5,%0,8), %%ymm1	 \n\t"
 	"vmovups	(%6,%0,8), %%ymm2	 \n\t"
 	"vmovups	(%7,%0,8), %%ymm3	 \n\t"
 	"vbroadcastsd    (%8), %%ymm6 	 \n\t"	// alpha 
        "testq          $0x04, %1                      \n\t"
        "jz             2f                     \n\t"
 	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
 	"vmovupd	(%3,%0,8), %%ymm7	       \n\t"	// 4 * y
 	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
 	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm5      \n\t" 
 	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
 	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm5      \n\t" 
 	"vaddpd		%%ymm4 , %%ymm5 , %%ymm5       \n\t"
 	"vmulpd		%%ymm6 , %%ymm5 , %%ymm5       \n\t"
 	"vaddpd		%%ymm7 , %%ymm5 , %%ymm5       \n\t"
 	"vmovupd  %%ymm5,   (%3,%0,8)		       \n\t"	// 4 * y
        "addq		$4 , %0	  	 	      \n\t"
 	"subq	        $4 , %1			      \n\t"		
-
+	"jz		2f		      \n\t"
        "2:                                   \n\t"
        "cmpq           $0, %1                         \n\t"
        "je             3f                       \n\t"
 	".align 16				 \n\t"
 	"1:				 \n\t"
 	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
 	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
 	"vmovupd	(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
 	"vmovupd      32(%3,%0,8), %%ymm9	       \n\t"	// 4 * y
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
+	"vmulpd        %%ymm0 , %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%4,%0,8), %%ymm12, %%ymm5      \n\t" 
+	"vmulpd        %%ymm1 , %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm4      \n\t" 
+	"vmovups	(%4,%0,8), %%ymm0	 \n\t"
-	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
+	"vmovups	(%5,%0,8), %%ymm1	 \n\t"
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
+	"vfmadd231pd   %%ymm2 , %%ymm14, %%ymm4	     \n\t"
-	"vfmadd231pd 32(%6,%0,8), %%ymm14, %%ymm5      \n\t" 
+	"vfmadd231pd   %%ymm3 , %%ymm15, %%ymm5	     \n\t"
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm4      \n\t" 
+	"vmovups	(%6,%0,8), %%ymm2	 \n\t"
-	"vfmadd231pd 32(%7,%0,8), %%ymm15, %%ymm5      \n\t" 
+	"vmovups	(%7,%0,8), %%ymm3	 \n\t"
 	"vmovups	-32(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
 	"vaddpd		 %%ymm4 , %%ymm5 , %%ymm4      \n\t"
 	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
 	"vfmadd231pd     %%ymm6 , %%ymm5 , %%ymm9      \n\t"
-	"vmovupd  %%ymm8,   (%3,%0,8)		      \n\t"	// 4 * y
+	"vmovups         %%ymm8,   -32(%3,%0,8)	      \n\t"	// 4 * y
 	"vmovupd  %%ymm9, 32(%3,%0,8)		      \n\t"	// 4 * y
-        "addq		$8 , %0	  	 	      \n\t"
+        "addq		$4 , %0	  	 	      \n\t"
-	"subq	        $8 , %1			      \n\t"		
+	"subq	        $4 , %1			      \n\t"		
 	"jnz		1b		      \n\t"
-        "3:                                    \n\t"
+
 	"2:				 \n\t"
 	"vmulpd        %%ymm0 , %%ymm12, %%ymm4      \n\t" 
 	"vmulpd        %%ymm1 , %%ymm13, %%ymm5      \n\t" 
 	"vfmadd231pd   %%ymm2 , %%ymm14, %%ymm4	     \n\t"
 	"vfmadd231pd   %%ymm3 , %%ymm15, %%ymm5	     \n\t"
 	"vmovups	-32(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
 	"vaddpd		 %%ymm4 , %%ymm5 , %%ymm4      \n\t"
 	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
 	"vmovups  %%ymm8,   -32(%3,%0,8)	      \n\t"	// 4 * y
 	"vzeroupper			              \n\t"
 	:
--- a/kernel/x86_64/sgemv_n_4.c
+++ b/kernel/x86_64/sgemv_n_4.c
@ -376,6 +376,8 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO
 				sgemv_kernel_4x4(NB,ap,x_ptr,ybuffer,&alpha);
 				ap[0] += lda4; 
 				ap[1] += lda4; 
 				ap[2] += lda4; 
 				ap[3] += lda4; 
 				a_ptr += lda4;
 				x_ptr += 4;	
 			}