optimized dgemv_n kernel for haswell

2015-04-30 12:11:39 +02:00 · 2015-04-30 12:11:39 +02:00 · 30f52d53df
parent 4c616173e4
commit 30f52d53df
3 changed files with 42 additions and 234 deletions
--- a/kernel/x86_64/dgemv_n_4.c
+++ b/kernel/x86_64/dgemv_n_4.c
@ -37,48 +37,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.


 #define NBMAX 2048
-
-#ifndef HAVE_KERNEL_4x8
-
-static void dgemv_kernel_4x8(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, BLASLONG lda4, FLOAT *alpha)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	FLOAT *b0,*b1,*b2,*b3;
-	FLOAT *x4;
-	FLOAT x[8];
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-	b0 = a0 + lda4 ;
-	b1 = a1 + lda4 ;
-	b2 = a2 + lda4 ;
-	b3 = a3 + lda4 ;
-	x4 = x + 4;
-
-	for ( i=0; i<8; i++)
-		x[i] = xo[i] * *alpha;
-
-	for ( i=0; i< n; i+=4 )
-	{
-
-		y[i] += a0[i]*x[0] + a1[i]*x[1] + a2[i]*x[2] + a3[i]*x[3];		
-		y[i+1] += a0[i+1]*x[0] + a1[i+1]*x[1] + a2[i+1]*x[2] + a3[i+1]*x[3];		
-		y[i+2] += a0[i+2]*x[0] + a1[i+2]*x[1] + a2[i+2]*x[2] + a3[i+2]*x[3];		
-		y[i+3] += a0[i+3]*x[0] + a1[i+3]*x[1] + a2[i+3]*x[2] + a3[i+3]*x[3];		
-
-		y[i] += b0[i]*x4[0] + b1[i]*x4[1] + b2[i]*x4[2] + b3[i]*x4[3];		
-		y[i+1] += b0[i+1]*x4[0] + b1[i+1]*x4[1] + b2[i+1]*x4[2] + b3[i+1]*x4[3];		
-		y[i+2] += b0[i+2]*x4[0] + b1[i+2]*x4[1] + b2[i+2]*x4[2] + b3[i+2]*x4[3];		
-		y[i+3] += b0[i+3]*x4[0] + b1[i+3]*x4[1] + b2[i+3]*x4[2] + b3[i+3]*x4[3];		
-
-	}
-}
-	
-#endif
-
-
 #ifndef HAVE_KERNEL_4x4

 static void dgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *xo, FLOAT *y, FLOAT *alpha)
@ -257,7 +215,6 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO
 	BLASLONG m3;
 	BLASLONG n2;
 	BLASLONG lda4 =  lda << 2;
-	BLASLONG lda8 =  lda << 3;
 	FLOAT xbuffer[8],*ybuffer;

        if ( m < 1 ) return(0);
@ -265,23 +222,13 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO

 	ybuffer = buffer;
 	
-        if ( inc_x == 1 )
-	{
-		n1 = n >> 3 ;
-		n2 = n &  7 ;
-	}
-	else
-	{
-		n1 = n >> 2 ;
-		n2 = n &  3 ;
-
-	}
+	n1 = n >> 2 ;
+	n2 = n &  3 ;

        m3 = m & 3  ;
        m1 = m & -4 ;
        m2 = (m & (NBMAX-1)) - m3 ;

-
 	y_ptr = y;

 	BLASLONG NB = NBMAX;
@ -314,22 +261,12 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO


 			for( i = 0; i < n1 ; i++)
-			{
-				dgemv_kernel_4x8(NB,ap,x_ptr,ybuffer,lda4,&alpha);
-				ap[0] += lda8; 
-				ap[1] += lda8; 
-				ap[2] += lda8; 
-				ap[3] += lda8; 
-				a_ptr += lda8;
-				x_ptr += 8;	
-			}
-
-
-			if ( n2 & 4 )
 			{
 				dgemv_kernel_4x4(NB,ap,x_ptr,ybuffer,&alpha);
 				ap[0] += lda4; 
 				ap[1] += lda4; 
+				ap[2] += lda4; 
+				ap[3] += lda4; 
 				a_ptr += lda4;
 				x_ptr += 4;	
 			}
--- a/kernel/x86_64/dgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/dgemv_n_microk_haswell-4.c
@ -27,128 +27,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.



-#define HAVE_KERNEL_4x8 1
-static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLONG lda4, FLOAT *alpha) __attribute__ ((noinline));
-
-static void dgemv_kernel_4x8( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, BLASLONG lda4, FLOAT *alpha)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-	"vbroadcastsd    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastsd   8(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastsd  16(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastsd  24(%2), %%ymm15	 \n\t"	// x3 
-	"vbroadcastsd  32(%2), %%ymm0 	 \n\t"	// x4 
-	"vbroadcastsd  40(%2), %%ymm1 	 \n\t"	// x5 
-	"vbroadcastsd  48(%2), %%ymm2 	 \n\t"	// x6 
-	"vbroadcastsd  56(%2), %%ymm3 	 \n\t"	// x7 
-
-	"vbroadcastsd    (%9), %%ymm6 	 \n\t"	// alpha 
-
-        "testq          $0x04, %1                      \n\t"
-        "jz             2f                     \n\t"
-
-	"vmovupd	(%3,%0,8), %%ymm7	       \n\t"	// 4 * y
-	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
-	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
-
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm5      \n\t" 
-
-	"vfmadd231pd   (%4,%8,8), %%ymm0 , %%ymm4      \n\t" 
-	"vfmadd231pd   (%5,%8,8), %%ymm1 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%8,8), %%ymm2 , %%ymm4      \n\t" 
-	"vfmadd231pd   (%7,%8,8), %%ymm3 , %%ymm5      \n\t" 
-
-	"vaddpd		%%ymm4 , %%ymm5 , %%ymm5       \n\t"
-	"vmulpd		%%ymm6 , %%ymm5 , %%ymm5       \n\t"
-	"vaddpd		%%ymm7 , %%ymm5 , %%ymm5       \n\t"
-
-
-	"vmovupd  %%ymm5,   (%3,%0,8)		       \n\t"	// 4 * y
-
-        "addq		$4 , %8	  	 	       \n\t"
-        "addq		$4 , %0	  	 	       \n\t"
-	"subq	        $4 , %1			       \n\t"		
-
-        "2:                                   \n\t"
-
-        "cmpq           $0, %1                         \n\t"
-        "je             3f                      \n\t"
-
-
-	".align 16				 \n\t"
-	"1:				 \n\t"
-
-	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
-	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
-	"vmovupd	(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
-	"vmovupd      32(%3,%0,8), %%ymm9	       \n\t"	// 4 * y
-
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%4,%0,8), %%ymm12, %%ymm5      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%6,%0,8), %%ymm14, %%ymm5      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%7,%0,8), %%ymm15, %%ymm5      \n\t" 
-
-	"vfmadd231pd   (%4,%8,8), %%ymm0 , %%ymm4      \n\t" 
-        "addq		$8 , %0	  	 	       \n\t"
-	"vfmadd231pd 32(%4,%8,8), %%ymm0 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%5,%8,8), %%ymm1 , %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%8,8), %%ymm1 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%8,8), %%ymm2 , %%ymm4      \n\t" 
-	"vfmadd231pd 32(%6,%8,8), %%ymm2 , %%ymm5      \n\t" 
-	"vfmadd231pd   (%7,%8,8), %%ymm3 , %%ymm4      \n\t" 
-	"vfmadd231pd 32(%7,%8,8), %%ymm3 , %%ymm5      \n\t" 
-
-	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
-	"vfmadd231pd     %%ymm6 , %%ymm5 , %%ymm9      \n\t"
-
-        "addq		$8 , %8	  	 	      \n\t"
-	"vmovupd  %%ymm8,-64(%3,%0,8)		      \n\t"	// 4 * y
-	"subq	        $8 , %1			      \n\t"		
-	"vmovupd  %%ymm9,-32(%3,%0,8)		      \n\t"	// 4 * y
-
-	"jnz		1b		      \n\t"
-
-        "3:                             \n\t"
-	"vzeroupper			        \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3]),  // 7
-          "r" (lda4),   // 8
-          "r" (alpha)   // 9
-	: "cc", 
-	  "%xmm0", "%xmm1", 
-	  "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
-
 #define HAVE_KERNEL_4x4 1
 static void dgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));

@ -159,68 +37,59 @@ static void dgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT

 	__asm__  __volatile__
 	(
-	"vzeroupper			 \n\t"
 	"vbroadcastsd    (%2), %%ymm12	 \n\t"	// x0 
 	"vbroadcastsd   8(%2), %%ymm13	 \n\t"	// x1 
 	"vbroadcastsd  16(%2), %%ymm14	 \n\t"	// x2 
 	"vbroadcastsd  24(%2), %%ymm15	 \n\t"	// x3 

+	"vmovups	(%4,%0,8), %%ymm0	 \n\t"
+	"vmovups	(%5,%0,8), %%ymm1	 \n\t"
+	"vmovups	(%6,%0,8), %%ymm2	 \n\t"
+	"vmovups	(%7,%0,8), %%ymm3	 \n\t"
 	"vbroadcastsd    (%8), %%ymm6 	 \n\t"	// alpha 

-        "testq          $0x04, %1                      \n\t"
-        "jz             2f                     \n\t"
-
-	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
-	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
-	"vmovupd	(%3,%0,8), %%ymm7	       \n\t"	// 4 * y
-
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm5      \n\t" 
-
-	"vaddpd		%%ymm4 , %%ymm5 , %%ymm5       \n\t"
-	"vmulpd		%%ymm6 , %%ymm5 , %%ymm5       \n\t"
-	"vaddpd		%%ymm7 , %%ymm5 , %%ymm5       \n\t"
-
-	"vmovupd  %%ymm5,   (%3,%0,8)		       \n\t"	// 4 * y
-
-        "addq		$4 , %0	  	 	       \n\t"
-	"subq	        $4 , %1			       \n\t"		
-
-        "2:                                   \n\t"
-
-        "cmpq           $0, %1                         \n\t"
-        "je             3f                       \n\t"
-
+        "addq		$4 , %0	  	 	      \n\t"
+	"subq	        $4 , %1			      \n\t"		
+	"jz		2f		      \n\t"

 	".align 16				 \n\t"
 	"1:				 \n\t"
-	"vxorpd		%%ymm4 , %%ymm4, %%ymm4        \n\t"
-	"vxorpd		%%ymm5 , %%ymm5, %%ymm5        \n\t"
-	"vmovupd	(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
-	"vmovupd      32(%3,%0,8), %%ymm9	       \n\t"	// 4 * y

-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%4,%0,8), %%ymm12, %%ymm5      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%6,%0,8), %%ymm14, %%ymm5      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%7,%0,8), %%ymm15, %%ymm5      \n\t" 
+	"vmulpd        %%ymm0 , %%ymm12, %%ymm4      \n\t" 
+	"vmulpd        %%ymm1 , %%ymm13, %%ymm5      \n\t" 
+	"vmovups	(%4,%0,8), %%ymm0	 \n\t"
+	"vmovups	(%5,%0,8), %%ymm1	 \n\t"
+	"vfmadd231pd   %%ymm2 , %%ymm14, %%ymm4	     \n\t"
+	"vfmadd231pd   %%ymm3 , %%ymm15, %%ymm5	     \n\t"
+	"vmovups	(%6,%0,8), %%ymm2	 \n\t"
+	"vmovups	(%7,%0,8), %%ymm3	 \n\t"

+	"vmovups	-32(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
+	"vaddpd		 %%ymm4 , %%ymm5 , %%ymm4      \n\t"
 	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
-	"vfmadd231pd     %%ymm6 , %%ymm5 , %%ymm9      \n\t"

-	"vmovupd  %%ymm8,   (%3,%0,8)		      \n\t"	// 4 * y
-	"vmovupd  %%ymm9, 32(%3,%0,8)		      \n\t"	// 4 * y
+	"vmovups         %%ymm8,   -32(%3,%0,8)	      \n\t"	// 4 * y

-        "addq		$8 , %0	  	 	      \n\t"
-	"subq	        $8 , %1			      \n\t"		
+        "addq		$4 , %0	  	 	      \n\t"
+	"subq	        $4 , %1			      \n\t"		
 	"jnz		1b		      \n\t"
 	
-        "3:                                    \n\t"
+
+	"2:				 \n\t"
+
+	"vmulpd        %%ymm0 , %%ymm12, %%ymm4      \n\t" 
+	"vmulpd        %%ymm1 , %%ymm13, %%ymm5      \n\t" 
+	"vfmadd231pd   %%ymm2 , %%ymm14, %%ymm4	     \n\t"
+	"vfmadd231pd   %%ymm3 , %%ymm15, %%ymm5	     \n\t"
+
+
+	"vmovups	-32(%3,%0,8), %%ymm8	       \n\t"	// 4 * y
+	"vaddpd		 %%ymm4 , %%ymm5 , %%ymm4      \n\t"
+	"vfmadd231pd     %%ymm6 , %%ymm4 , %%ymm8      \n\t"
+
+	"vmovups  %%ymm8,   -32(%3,%0,8)	      \n\t"	// 4 * y
+
+
 	"vzeroupper			              \n\t"

 	:
--- a/kernel/x86_64/sgemv_n_4.c
+++ b/kernel/x86_64/sgemv_n_4.c
@ -376,6 +376,8 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLO
 				sgemv_kernel_4x4(NB,ap,x_ptr,ybuffer,&alpha);
 				ap[0] += lda4; 
 				ap[1] += lda4; 
+				ap[2] += lda4; 
+				ap[3] += lda4; 
 				a_ptr += lda4;
 				x_ptr += 4;	
 			}