From 4aa534ae93ee50558c07172beaea68964a356926 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Wed, 10 Sep 2014 13:45:13 +0200
Subject: [PATCH 01/24] added cgemv_n kernel, optimized for small sizes

---
 kernel/x86_64/cgemv_n_4.c | 531 ++++++++++++++++++++++++++++++++++++++
 1 file changed, 531 insertions(+)
 create mode 100644 kernel/x86_64/cgemv_n_4.c

diff --git a/kernel/x86_64/cgemv_n_4.c b/kernel/x86_64/cgemv_n_4.c
new file mode 100644
index 000000000..162b7d99f
--- /dev/null
+++ b/kernel/x86_64/cgemv_n_4.c
@@ -0,0 +1,531 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include <stdlib.h>
+#include <stdio.h>
+#include "common.h"
+
+#if defined(HASWELL)
+#include "cgemv_n_microk_haswell-2.c"
+#endif
+
+
+#define NBMAX 2048
+
+#ifndef HAVE_KERNEL_4x4
+
+static void cgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1,*a2,*a3;
+	a0 = ap[0];
+	a1 = ap[1];
+	a2 = ap[2];
+	a3 = ap[3];
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] - a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] + a1[i+1] * x[2];
+		y[i]   += a2[i]*x[4] - a2[i+1] * x[5];
+		y[i+1] += a2[i]*x[5] + a2[i+1] * x[4];
+		y[i]   += a3[i]*x[6] - a3[i+1] * x[7];
+		y[i+1] += a3[i]*x[7] + a3[i+1] * x[6];
+#else 
+		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] + a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] - a1[i+1] * x[2];
+		y[i]   += a2[i]*x[4] + a2[i+1] * x[5];
+		y[i+1] += a2[i]*x[5] - a2[i+1] * x[4];
+		y[i]   += a3[i]*x[6] + a3[i+1] * x[7];
+		y[i+1] += a3[i]*x[7] - a3[i+1] * x[6];
+#endif
+	}
+}
+	
+#endif
+
+static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
+{
+	BLASLONG i;
+	FLOAT *a0;
+	a0 = ap;
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
+#else 
+		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
+#endif
+
+	}
+}
+	
+
+static void zero_y(BLASLONG n, FLOAT *dest)
+{
+	BLASLONG i;
+	for ( i=0; i<2*n; i++ )
+	{
+		*dest = 0.0;
+		dest++;
+	}
+}
+
+
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
+{
+	BLASLONG i;
+	FLOAT temp_r;
+	FLOAT temp_i;
+	for ( i=0; i<n; i++ )
+	{
+#if !defined(XCONJ) 
+		temp_r = alpha_r * src[0] - alpha_i * src[1];
+		temp_i = alpha_r * src[1] + alpha_i * src[0];
+#else
+		temp_r =  alpha_r * src[0] + alpha_i * src[1];
+		temp_i = -alpha_r * src[1] + alpha_i * src[0];
+#endif
+
+		*dest += temp_r;
+		*(dest+1) += temp_i;
+
+		src+=2;
+		dest += inc_dest;
+	}
+}
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r,FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
+{
+	BLASLONG i;
+	BLASLONG j;
+	FLOAT *a_ptr;
+	FLOAT *x_ptr;
+	FLOAT *y_ptr;
+	FLOAT *ap[4];
+	BLASLONG n1;
+	BLASLONG m1;
+	BLASLONG m2;
+	BLASLONG m3;
+	BLASLONG n2;
+	BLASLONG lda4;
+	FLOAT xbuffer[8],*ybuffer;
+
+
+#if 0
+printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x,inc_y);
+#endif
+
+	if ( m < 1 ) return(0);
+	if ( n < 1 ) return(0);
+
+	ybuffer = buffer;
+	
+	inc_x *= 2;
+	inc_y *= 2;
+	lda   *= 2;
+	lda4  = 4 * lda;
+
+	n1 = n / 4 ;
+	n2 = n % 4 ;
+	
+	m3 = m % 4;
+	m1 = m - ( m % 4 );
+	m2 = (m % NBMAX) - (m % 4) ;
+	
+	y_ptr = y;
+
+	BLASLONG NB = NBMAX;
+
+	while ( NB == NBMAX )
+	{
+		
+		m1 -= NB;
+		if ( m1 < 0)
+		{
+			if ( m2 == 0 ) break;	
+			NB = m2;
+		}
+		
+		a_ptr = a;
+		ap[0] = a_ptr;
+		ap[1] = a_ptr + lda;
+		ap[2] = ap[1] + lda;
+		ap[3] = ap[2] + lda;
+		x_ptr = x;
+		zero_y(NB,ybuffer);
+
+		if ( inc_x == 2 )
+		{
+
+			for( i = 0; i < n1 ; i++)
+			{
+				cgemv_kernel_4x4(NB,ap,x_ptr,ybuffer);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+				x_ptr += 8;	
+			}
+
+			for( i = 0; i < n2 ; i++)
+			{
+				cgemv_kernel_4x1(NB,a_ptr,x_ptr,ybuffer);
+				x_ptr += 2;	
+				a_ptr += lda;
+
+			}
+		}
+		else
+		{
+
+			for( i = 0; i < n1 ; i++)
+			{
+
+				xbuffer[0] = x_ptr[0];
+				xbuffer[1] = x_ptr[1];
+				x_ptr += inc_x;	
+				xbuffer[2] = x_ptr[0];
+				xbuffer[3] = x_ptr[1];
+				x_ptr += inc_x;	
+				xbuffer[4] = x_ptr[0];
+				xbuffer[5] = x_ptr[1];
+				x_ptr += inc_x;	
+				xbuffer[6] = x_ptr[0];
+				xbuffer[7] = x_ptr[1];
+				x_ptr += inc_x;	
+
+				cgemv_kernel_4x4(NB,ap,xbuffer,ybuffer);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+			}
+
+			for( i = 0; i < n2 ; i++)
+			{
+				xbuffer[0] = x_ptr[0];
+				xbuffer[1] = x_ptr[1];
+				x_ptr += inc_x;	
+				cgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer);
+				a_ptr += 1 * lda;
+
+			}
+
+		}
+
+		add_y(NB,ybuffer,y_ptr,inc_y,alpha_r,alpha_i);
+		a     += 2 * NB;
+		y_ptr += NB * inc_y;
+	}
+
+	if ( m3 == 0 ) return(0);
+
+	if ( m3 == 1 )
+	{
+		a_ptr = a;
+		x_ptr = x;
+		FLOAT temp_r = 0.0;
+		FLOAT temp_i = 0.0;
+
+		if ( lda == 2 && inc_x == 2 )
+		{
+
+
+			for( i=0 ; i < (n & -2); i+=2 )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r += a_ptr[2] * x_ptr[2] - a_ptr[3] * x_ptr[3];
+				temp_i += a_ptr[2] * x_ptr[3] + a_ptr[3] * x_ptr[2];
+#else
+				temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r += a_ptr[2] * x_ptr[2] + a_ptr[3] * x_ptr[3];
+				temp_i += a_ptr[2] * x_ptr[3] - a_ptr[3] * x_ptr[2];
+#endif
+
+				a_ptr += 4;
+				x_ptr += 4;
+			}
+
+
+
+			for( ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+#else
+				temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+#endif
+
+				a_ptr += 2;
+				x_ptr += 2;
+			}
+
+
+		}
+		else
+		{
+
+			for( i = 0; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+#else
+				temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+#endif
+
+				a_ptr += lda;
+				x_ptr += inc_x;
+			}
+
+		}
+#if !defined(XCONJ) 
+		y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+		y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#else
+		y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+		y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+#endif
+		return(0);
+	}
+
+	if ( m3 == 2 )
+	{
+		a_ptr = a;
+		x_ptr = x;
+		FLOAT temp_r0 = 0.0;
+		FLOAT temp_i0 = 0.0;
+		FLOAT temp_r1 = 0.0;
+		FLOAT temp_i1 = 0.0;
+
+		if ( lda == 4 && inc_x == 2 )
+		{
+
+			for( i = 0; i < (n & -2); i+=2 )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+
+				temp_r0 += a_ptr[4] * x_ptr[2] - a_ptr[5] * x_ptr[3];
+				temp_i0 += a_ptr[4] * x_ptr[3] + a_ptr[5] * x_ptr[2];
+				temp_r1 += a_ptr[6] * x_ptr[2] - a_ptr[7] * x_ptr[3];
+				temp_i1 += a_ptr[6] * x_ptr[3] + a_ptr[7] * x_ptr[2];
+
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+
+				temp_r0 += a_ptr[4] * x_ptr[2] + a_ptr[5] * x_ptr[3];
+				temp_i0 += a_ptr[4] * x_ptr[3] - a_ptr[5] * x_ptr[2];
+				temp_r1 += a_ptr[6] * x_ptr[2] + a_ptr[7] * x_ptr[3];
+				temp_i1 += a_ptr[6] * x_ptr[3] - a_ptr[7] * x_ptr[2];
+
+#endif
+
+				a_ptr += 8;
+				x_ptr += 4;
+			}
+
+
+			for( ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+#endif
+
+				a_ptr += 4;
+				x_ptr += 2;
+			}
+
+
+		}
+		else
+		{
+
+			for( i=0 ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+#endif
+
+				a_ptr += lda;
+				x_ptr += inc_x;
+			}
+
+
+		}
+#if !defined(XCONJ) 
+		y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+		y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+		y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+#else
+		y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+		y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+		y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+#endif
+		return(0);
+	}
+
+
+	if ( m3 == 3 )
+	{
+		a_ptr = a;
+		x_ptr = x;
+		FLOAT temp_r0 = 0.0;
+		FLOAT temp_i0 = 0.0;
+		FLOAT temp_r1 = 0.0;
+		FLOAT temp_i1 = 0.0;
+		FLOAT temp_r2 = 0.0;
+		FLOAT temp_i2 = 0.0;
+
+		if ( lda == 6 && inc_x == 2 )
+		{
+
+			for( i=0 ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+#endif
+
+				a_ptr += 6;
+				x_ptr += 2;
+			}
+
+
+		}
+		else
+		{
+
+			for( i = 0; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+#endif
+
+				a_ptr += lda;
+				x_ptr += inc_x;
+			}
+
+		}
+#if !defined(XCONJ) 
+		y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+		y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+		y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r2 - alpha_i * temp_i2;
+		y_ptr[1] += alpha_r * temp_i2 + alpha_i * temp_r2;
+#else
+		y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+		y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+		y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r2 + alpha_i * temp_i2;
+		y_ptr[1] -= alpha_r * temp_i2 - alpha_i * temp_r2;
+#endif
+		return(0);
+	}
+
+
+
+
+
+	return(0);
+}
+
+

From be95700b30b1ea68ae656177a552fb06e51663eb Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Wed, 10 Sep 2014 14:11:24 +0200
Subject: [PATCH 02/24] added optimized cgemv_kernel for haswell

---
 kernel/x86_64/cgemv_n_microk_haswell-4.c | 182 +++++++++++++++++++++++
 1 file changed, 182 insertions(+)
 create mode 100644 kernel/x86_64/cgemv_n_microk_haswell-4.c

diff --git a/kernel/x86_64/cgemv_n_microk_haswell-4.c b/kernel/x86_64/cgemv_n_microk_haswell-4.c
new file mode 100644
index 000000000..991c1dc59
--- /dev/null
+++ b/kernel/x86_64/cgemv_n_microk_haswell-4.c
@@ -0,0 +1,182 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#define HAVE_KERNEL_4x4 1
+static void cgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void cgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+	BLASLONG register n1 = n & -8 ;
+	BLASLONG register n2 = n &  4 ;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastss	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastss	 4(%2), %%ymm1                  \n\t"  // imag part x0
+	"vbroadcastss	 8(%2), %%ymm2                  \n\t"  // real part x1
+	"vbroadcastss	12(%2), %%ymm3                  \n\t"  // imag part x1
+	"vbroadcastss	16(%2), %%ymm4                  \n\t"  // real part x2
+	"vbroadcastss	20(%2), %%ymm5                  \n\t"  // imag part x2
+	"vbroadcastss	24(%2), %%ymm6                  \n\t"  // real part x3
+	"vbroadcastss	28(%2), %%ymm7                  \n\t"  // imag part x3
+
+	"cmpq		$0 , %1				\n\t"
+	"je		.L01END%=		        \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      320(%4,%0,4)			\n\t"
+	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
+	"vmovups      32(%4,%0,4), %%ymm9	        \n\t" // 4 complex values form a0
+
+	"prefetcht0      320(%5,%0,4)			\n\t"
+	"vmovups	(%5,%0,4), %%ymm10              \n\t" // 4 complex values form a1
+	"vmovups      32(%5,%0,4), %%ymm11              \n\t" // 4 complex values form a1
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulps      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulps      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      320(%6,%0,4)			\n\t"
+	"vmovups	(%6,%0,4), %%ymm8	        \n\t" // 4 complex values form a2
+	"vmovups      32(%6,%0,4), %%ymm9	        \n\t" // 4 complex values form a2
+
+	"vfmadd231ps      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231ps      %%ymm11, %%ymm2, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231ps      %%ymm11, %%ymm3, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      320(%7,%0,4)			\n\t"
+	"vmovups	(%7,%0,4), %%ymm10              \n\t" // 4 complex values form a3
+	"vmovups      32(%7,%0,4), %%ymm11              \n\t" // 4 complex values form a3
+
+	"vfmadd231ps      %%ymm8 , %%ymm4, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm8 , %%ymm5, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231ps      %%ymm9 , %%ymm4, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231ps      %%ymm9 , %%ymm5, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"vfmadd231ps      %%ymm10, %%ymm6, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm10, %%ymm7, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231ps      %%ymm11, %%ymm6, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231ps      %%ymm11, %%ymm7, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      320(%3,%0,4)			\n\t"
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,4),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubps      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubps      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
+
+        "addq		$16, %0	  	 	        \n\t"
+	"subq	        $8 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+	".L01END%=:				        \n\t"
+
+	"cmpq		$4, %8				\n\t"
+	"jne		.L02END%=			\n\t"
+
+	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
+	"vmovups	(%5,%0,4), %%ymm10              \n\t" // 4 complex values form a1
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vfmadd231ps      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vmovups	(%6,%0,4), %%ymm8	        \n\t" // 4 complex values form a2
+	"vmovups	(%7,%0,4), %%ymm10              \n\t" // 4 complex values form a3
+
+	"vfmadd231ps      %%ymm8 , %%ymm4, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm8 , %%ymm5, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vfmadd231ps      %%ymm10, %%ymm6, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm10, %%ymm7, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+
+	".L02END%=:				        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n1),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (ap[2]),  // 6
+          "r" (ap[3]),  // 7
+          "r" (n2)      // 8
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+

From f98e1244c45dd446275829064692274c7df5a90a Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Wed, 10 Sep 2014 19:26:14 +0200
Subject: [PATCH 03/24] optimized cgemv_n_4.c

---
 kernel/x86_64/cgemv_n_4.c | 138 +++++++++++++++++++++++++++++++-------
 1 file changed, 113 insertions(+), 25 deletions(-)

diff --git a/kernel/x86_64/cgemv_n_4.c b/kernel/x86_64/cgemv_n_4.c
index 162b7d99f..2a5afd5b3 100644
--- a/kernel/x86_64/cgemv_n_4.c
+++ b/kernel/x86_64/cgemv_n_4.c
@@ -30,7 +30,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #include "common.h"
 
 #if defined(HASWELL)
-#include "cgemv_n_microk_haswell-2.c"
+#include "cgemv_n_microk_haswell-4.c"
 #endif
 
 
@@ -73,6 +73,41 @@ static void cgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
 	
 #endif
 
+
+
+#ifndef HAVE_KERNEL_4x2
+
+static void cgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1;
+	a0 = ap[0];
+	a1 = ap[1];
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] - a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] + a1[i+1] * x[2];
+#else 
+		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] + a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] - a1[i+1] * x[2];
+#endif
+	}
+}
+	
+#endif
+
+
+
+
+#ifndef HAVE_KERNEL_4x1
+
+
 static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 {
 	BLASLONG i;
@@ -91,41 +126,85 @@ static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 
 	}
 }
-	
-
-static void zero_y(BLASLONG n, FLOAT *dest)
-{
-	BLASLONG i;
-	for ( i=0; i<2*n; i++ )
-	{
-		*dest = 0.0;
-		dest++;
-	}
-}
 
 
+#endif
+
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)  __attribute__ ((noinline));
 
 static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
 {
 	BLASLONG i;
-	FLOAT temp_r;
-	FLOAT temp_i;
-	for ( i=0; i<n; i++ )
+
+	if ( inc_dest != 2 )
 	{
+
+		FLOAT temp_r;
+		FLOAT temp_i;
+		for ( i=0; i<n; i++ )
+		{
 #if !defined(XCONJ) 
-		temp_r = alpha_r * src[0] - alpha_i * src[1];
-		temp_i = alpha_r * src[1] + alpha_i * src[0];
+			temp_r = alpha_r * src[0] - alpha_i * src[1];
+			temp_i = alpha_r * src[1] + alpha_i * src[0];
 #else
-		temp_r =  alpha_r * src[0] + alpha_i * src[1];
-		temp_i = -alpha_r * src[1] + alpha_i * src[0];
+			temp_r =  alpha_r * src[0] + alpha_i * src[1];
+			temp_i = -alpha_r * src[1] + alpha_i * src[0];
 #endif
 
-		*dest += temp_r;
-		*(dest+1) += temp_i;
+			*dest += temp_r;
+			*(dest+1) += temp_i;
 
-		src+=2;
-		dest += inc_dest;
+			src+=2;
+			dest += inc_dest;
+		}
+		return;
 	}
+
+	FLOAT temp_r0;
+	FLOAT temp_i0;
+	FLOAT temp_r1;
+	FLOAT temp_i1;
+	FLOAT temp_r2;
+	FLOAT temp_i2;
+	FLOAT temp_r3;
+	FLOAT temp_i3;
+	for ( i=0; i<n; i+=4 )
+	{
+#if !defined(XCONJ) 
+		temp_r0 = alpha_r * src[0] - alpha_i * src[1];
+		temp_i0 = alpha_r * src[1] + alpha_i * src[0];
+		temp_r1 = alpha_r * src[2] - alpha_i * src[3];
+		temp_i1 = alpha_r * src[3] + alpha_i * src[2];
+		temp_r2 = alpha_r * src[4] - alpha_i * src[5];
+		temp_i2 = alpha_r * src[5] + alpha_i * src[4];
+		temp_r3 = alpha_r * src[6] - alpha_i * src[7];
+		temp_i3 = alpha_r * src[7] + alpha_i * src[6];
+#else
+		temp_r0 =  alpha_r * src[0] + alpha_i * src[1];
+		temp_i0 = -alpha_r * src[1] + alpha_i * src[0];
+		temp_r1 =  alpha_r * src[2] + alpha_i * src[3];
+		temp_i1 = -alpha_r * src[3] + alpha_i * src[2];
+		temp_r2 =  alpha_r * src[4] + alpha_i * src[5];
+		temp_i2 = -alpha_r * src[5] + alpha_i * src[4];
+		temp_r3 =  alpha_r * src[6] + alpha_i * src[7];
+		temp_i3 = -alpha_r * src[7] + alpha_i * src[6];
+#endif
+
+		dest[0]   += temp_r0;
+		dest[1]   += temp_i0;
+		dest[2]   += temp_r1;
+		dest[3]   += temp_i1;
+		dest[4]   += temp_r2;
+		dest[5]   += temp_i2;
+		dest[6]   += temp_r3;
+		dest[7]   += temp_i3;
+
+		src  += 8;
+		dest += 8;
+	}
+	return;
+
 }
 
 int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r,FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
@@ -186,7 +265,8 @@ printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x
 		ap[2] = ap[1] + lda;
 		ap[3] = ap[2] + lda;
 		x_ptr = x;
-		zero_y(NB,ybuffer);
+		//zero_y(NB,ybuffer);
+		memset(ybuffer,0,NB*8);
 
 		if ( inc_x == 2 )
 		{
@@ -202,7 +282,15 @@ printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x
 				x_ptr += 8;	
 			}
 
-			for( i = 0; i < n2 ; i++)
+			if ( n2 & 2 )
+			{
+				cgemv_kernel_4x2(NB,ap,x_ptr,ybuffer);
+				x_ptr += 4;	
+				a_ptr += 2 * lda;
+
+			}
+
+			if ( n2 & 1 )
 			{
 				cgemv_kernel_4x1(NB,a_ptr,x_ptr,ybuffer);
 				x_ptr += 2;	

From ac8f232b2a8f365e0d7b5bb6975f73dd427d4389 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Thu, 11 Sep 2014 10:25:48 +0200
Subject: [PATCH 04/24] more optimizations

---
 kernel/x86_64/cgemv_n_4.c                |   4 +
 kernel/x86_64/cgemv_n_microk_haswell-4.c | 360 +++++++++++++++++++++++
 2 files changed, 364 insertions(+)

diff --git a/kernel/x86_64/cgemv_n_4.c b/kernel/x86_64/cgemv_n_4.c
index 2a5afd5b3..ff8058549 100644
--- a/kernel/x86_64/cgemv_n_4.c
+++ b/kernel/x86_64/cgemv_n_4.c
@@ -131,6 +131,8 @@ static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 #endif
 
 
+#ifndef HAVE_KERNEL_ADDY
+
 static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)  __attribute__ ((noinline));
 
 static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
@@ -207,6 +209,8 @@ static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT a
 
 }
 
+#endif
+
 int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r,FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
 {
 	BLASLONG i;
diff --git a/kernel/x86_64/cgemv_n_microk_haswell-4.c b/kernel/x86_64/cgemv_n_microk_haswell-4.c
index 991c1dc59..40a8432c4 100644
--- a/kernel/x86_64/cgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/cgemv_n_microk_haswell-4.c
@@ -180,3 +180,363 @@ static void cgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
 } 
 
 
+#define HAVE_KERNEL_4x2 1
+static void cgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void cgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+	BLASLONG register n1 = n & -8 ;
+	BLASLONG register n2 = n &  4 ;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastss	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastss	 4(%2), %%ymm1                  \n\t"  // imag part x0
+	"vbroadcastss	 8(%2), %%ymm2                  \n\t"  // real part x1
+	"vbroadcastss	12(%2), %%ymm3                  \n\t"  // imag part x1
+
+	"cmpq		$0 , %1				\n\t"
+	"je		.L01END%=		        \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      320(%4,%0,4)			\n\t"
+	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
+	"vmovups      32(%4,%0,4), %%ymm9	        \n\t" // 4 complex values form a0
+
+	"prefetcht0      320(%5,%0,4)			\n\t"
+	"vmovups	(%5,%0,4), %%ymm10              \n\t" // 4 complex values form a1
+	"vmovups      32(%5,%0,4), %%ymm11              \n\t" // 4 complex values form a1
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulps      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulps      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"vfmadd231ps      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231ps      %%ymm11, %%ymm2, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231ps      %%ymm11, %%ymm3, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      320(%3,%0,4)			\n\t"
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,4),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubps      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubps      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
+
+        "addq		$16, %0	  	 	        \n\t"
+	"subq	        $8 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+	".L01END%=:				        \n\t"
+
+	"cmpq		$4, %6				\n\t"
+	"jne		.L02END%=			\n\t"
+
+	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
+	"vmovups	(%5,%0,4), %%ymm10              \n\t" // 4 complex values form a1
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vfmadd231ps      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231ps      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+
+	".L02END%=:				        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n1),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (n2)      // 6
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_4x1 1
+static void cgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void cgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+	BLASLONG register n1 = n & -8 ;
+	BLASLONG register n2 = n &  4 ;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastss	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastss	 4(%2), %%ymm1                  \n\t"  // imag part x0
+
+	"cmpq		$0 , %1				\n\t"
+	"je		.L01END%=		        \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      320(%4,%0,4)			\n\t"
+	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
+	"vmovups      32(%4,%0,4), %%ymm9	        \n\t" // 4 complex values form a0
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulps      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulps      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      320(%3,%0,4)			\n\t"
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,4),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubps      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubps      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
+
+        "addq		$16, %0	  	 	        \n\t"
+	"subq	        $8 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+	".L01END%=:				        \n\t"
+
+	"cmpq		$4, %5				\n\t"
+	"jne		.L02END%=			\n\t"
+
+	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+
+	".L02END%=:				        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n1),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap),     // 4
+          "r" (n2)      // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_ADDY 1
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)  __attribute__ ((noinline));
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
+{
+	BLASLONG i;
+
+	if ( inc_dest != 2 )
+	{
+
+		FLOAT temp_r;
+		FLOAT temp_i;
+		for ( i=0; i<n; i++ )
+		{
+#if !defined(XCONJ) 
+			temp_r = alpha_r * src[0] - alpha_i * src[1];
+			temp_i = alpha_r * src[1] + alpha_i * src[0];
+#else
+			temp_r =  alpha_r * src[0] + alpha_i * src[1];
+			temp_i = -alpha_r * src[1] + alpha_i * src[0];
+#endif
+
+			*dest += temp_r;
+			*(dest+1) += temp_i;
+
+			src+=2;
+			dest += inc_dest;
+		}
+		return;
+	}
+
+	i=0;
+	BLASLONG register n1 = n & -8 ;
+	BLASLONG register n2 = n &  4 ;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastss	  (%4), %%ymm0                  \n\t"  // alpha_r
+	"vbroadcastss	  (%5), %%ymm1                  \n\t"  // alpha_i
+
+	"cmpq		$0 , %1				\n\t"
+	"je		.L01END%=		        \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"vmovups	(%2,%0,4), %%ymm8	        \n\t" // 4 complex values from src
+	"vmovups      32(%2,%0,4), %%ymm9	        \n\t" 
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulps      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulps      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t" // 4 complex values from dest
+	"vmovups	32(%3,%0,4),  %%ymm11           \n\t"
+
+#if  !defined(XCONJ)  
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubps      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubps      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
+
+        "addq		$16, %0	  	 	        \n\t"
+	"subq	        $8 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+	".L01END%=:				        \n\t"
+
+	"cmpq		$4, %6				\n\t"
+	"jne		.L02END%=			\n\t"
+
+	"vmovups	(%2,%0,4), %%ymm8	        \n\t" // 4 complex values src
+
+	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+
+	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+#endif
+
+        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
+
+	".L02END%=:				        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	      // 0	
+	  "r" (n1),  	      // 1
+          "r" (src),          // 2
+          "r" (dest),         // 3
+          "r" (&alpha_r),     // 4
+          "r" (&alpha_i),     // 5
+          "r" (n2)            // 6
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+	return;
+
+}
+

From cafba99b6b0508706271eb2fe5a1615e589896d9 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Thu, 11 Sep 2014 11:12:44 +0200
Subject: [PATCH 05/24] bufix in cgemv_n_microk_haswell-4.c

---
 kernel/x86_64/cgemv_n_microk_haswell-4.c | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/kernel/x86_64/cgemv_n_microk_haswell-4.c b/kernel/x86_64/cgemv_n_microk_haswell-4.c
index 40a8432c4..24417ba36 100644
--- a/kernel/x86_64/cgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/cgemv_n_microk_haswell-4.c
@@ -351,14 +351,14 @@ static void cgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
         "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
 #endif
 
+        "addq		$16, %0	  	 	        \n\t"
         "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
         "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
 
-	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
-	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
-
-        "addq		$16, %0	  	 	        \n\t"
 	"subq	        $8 , %1			        \n\t"		
+	"vmovups  %%ymm12,-64(%3,%0,4)		        \n\t" // 4 complex values to y	
+	"vmovups  %%ymm13,-32(%3,%0,4)		        \n\t"	
+
 	"jnz		.L01LOOP%=		        \n\t"
 
 	".L01END%=:				        \n\t"
@@ -481,14 +481,14 @@ static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT a
         "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
 #endif
 
+        "addq		$16, %0	  	 	        \n\t"
         "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
         "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
 
-	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
-	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
-
-        "addq		$16, %0	  	 	        \n\t"
 	"subq	        $8 , %1			        \n\t"		
+	"vmovups  %%ymm12,-64(%3,%0,4)		        \n\t" // 4 complex values to y	
+	"vmovups  %%ymm13,-32(%3,%0,4)		        \n\t"	
+
 	"jnz		.L01LOOP%=		        \n\t"
 
 	".L01END%=:				        \n\t"
@@ -503,7 +503,7 @@ static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT a
 
 	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
 
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+#if !defined(XCONJ)
         "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
         "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
 #else

From bced4594bbee999af84a5c99cdf8835fbc612a46 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Thu, 11 Sep 2014 12:34:57 +0200
Subject: [PATCH 06/24] added optimized zgemv_n kernel

---
 kernel/x86_64/zgemv_n_4.c                | 623 +++++++++++++++++++++++
 kernel/x86_64/zgemv_n_microk_haswell-4.c | 297 +++++++++++
 2 files changed, 920 insertions(+)
 create mode 100644 kernel/x86_64/zgemv_n_4.c
 create mode 100644 kernel/x86_64/zgemv_n_microk_haswell-4.c

diff --git a/kernel/x86_64/zgemv_n_4.c b/kernel/x86_64/zgemv_n_4.c
new file mode 100644
index 000000000..43adb6c05
--- /dev/null
+++ b/kernel/x86_64/zgemv_n_4.c
@@ -0,0 +1,623 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#include <stdlib.h>
+#include <stdio.h>
+#include "common.h"
+
+#if defined(HASWELL)
+#include "zgemv_n_microk_haswell-4.c"
+#endif
+
+
+#define NBMAX 1024
+
+#ifndef HAVE_KERNEL_4x4
+
+static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1,*a2,*a3;
+	a0 = ap[0];
+	a1 = ap[1];
+	a2 = ap[2];
+	a3 = ap[3];
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] - a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] + a1[i+1] * x[2];
+		y[i]   += a2[i]*x[4] - a2[i+1] * x[5];
+		y[i+1] += a2[i]*x[5] + a2[i+1] * x[4];
+		y[i]   += a3[i]*x[6] - a3[i+1] * x[7];
+		y[i+1] += a3[i]*x[7] + a3[i+1] * x[6];
+#else 
+		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] + a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] - a1[i+1] * x[2];
+		y[i]   += a2[i]*x[4] + a2[i+1] * x[5];
+		y[i+1] += a2[i]*x[5] - a2[i+1] * x[4];
+		y[i]   += a3[i]*x[6] + a3[i+1] * x[7];
+		y[i+1] += a3[i]*x[7] - a3[i+1] * x[6];
+#endif
+	}
+}
+	
+#endif
+
+
+
+#ifndef HAVE_KERNEL_4x2
+
+static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1;
+	a0 = ap[0];
+	a1 = ap[1];
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] - a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] + a1[i+1] * x[2];
+#else 
+		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
+		y[i]   += a1[i]*x[2] + a1[i+1] * x[3];
+		y[i+1] += a1[i]*x[3] - a1[i+1] * x[2];
+#endif
+	}
+}
+	
+#endif
+
+
+
+
+#ifndef HAVE_KERNEL_4x1
+
+
+static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
+{
+	BLASLONG i;
+	FLOAT *a0;
+	a0 = ap;
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
+#else 
+		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
+		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
+#endif
+
+	}
+}
+
+
+#endif
+
+
+#ifndef HAVE_KERNEL_ADDY
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)  __attribute__ ((noinline));
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
+{
+	BLASLONG i;
+
+	if ( inc_dest != 2 )
+	{
+
+		FLOAT temp_r;
+		FLOAT temp_i;
+		for ( i=0; i<n; i++ )
+		{
+#if !defined(XCONJ) 
+			temp_r = alpha_r * src[0] - alpha_i * src[1];
+			temp_i = alpha_r * src[1] + alpha_i * src[0];
+#else
+			temp_r =  alpha_r * src[0] + alpha_i * src[1];
+			temp_i = -alpha_r * src[1] + alpha_i * src[0];
+#endif
+
+			*dest += temp_r;
+			*(dest+1) += temp_i;
+
+			src+=2;
+			dest += inc_dest;
+		}
+		return;
+	}
+
+	FLOAT temp_r0;
+	FLOAT temp_i0;
+	FLOAT temp_r1;
+	FLOAT temp_i1;
+	FLOAT temp_r2;
+	FLOAT temp_i2;
+	FLOAT temp_r3;
+	FLOAT temp_i3;
+	for ( i=0; i<n; i+=4 )
+	{
+#if !defined(XCONJ) 
+		temp_r0 = alpha_r * src[0] - alpha_i * src[1];
+		temp_i0 = alpha_r * src[1] + alpha_i * src[0];
+		temp_r1 = alpha_r * src[2] - alpha_i * src[3];
+		temp_i1 = alpha_r * src[3] + alpha_i * src[2];
+		temp_r2 = alpha_r * src[4] - alpha_i * src[5];
+		temp_i2 = alpha_r * src[5] + alpha_i * src[4];
+		temp_r3 = alpha_r * src[6] - alpha_i * src[7];
+		temp_i3 = alpha_r * src[7] + alpha_i * src[6];
+#else
+		temp_r0 =  alpha_r * src[0] + alpha_i * src[1];
+		temp_i0 = -alpha_r * src[1] + alpha_i * src[0];
+		temp_r1 =  alpha_r * src[2] + alpha_i * src[3];
+		temp_i1 = -alpha_r * src[3] + alpha_i * src[2];
+		temp_r2 =  alpha_r * src[4] + alpha_i * src[5];
+		temp_i2 = -alpha_r * src[5] + alpha_i * src[4];
+		temp_r3 =  alpha_r * src[6] + alpha_i * src[7];
+		temp_i3 = -alpha_r * src[7] + alpha_i * src[6];
+#endif
+
+		dest[0]   += temp_r0;
+		dest[1]   += temp_i0;
+		dest[2]   += temp_r1;
+		dest[3]   += temp_i1;
+		dest[4]   += temp_r2;
+		dest[5]   += temp_i2;
+		dest[6]   += temp_r3;
+		dest[7]   += temp_i3;
+
+		src  += 8;
+		dest += 8;
+	}
+	return;
+
+}
+
+#endif
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r,FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
+{
+	BLASLONG i;
+	BLASLONG j;
+	FLOAT *a_ptr;
+	FLOAT *x_ptr;
+	FLOAT *y_ptr;
+	FLOAT *ap[4];
+	BLASLONG n1;
+	BLASLONG m1;
+	BLASLONG m2;
+	BLASLONG m3;
+	BLASLONG n2;
+	BLASLONG lda4;
+	FLOAT xbuffer[8],*ybuffer;
+
+
+#if 0
+printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x,inc_y);
+#endif
+
+	if ( m < 1 ) return(0);
+	if ( n < 1 ) return(0);
+
+	ybuffer = buffer;
+	
+	inc_x *= 2;
+	inc_y *= 2;
+	lda   *= 2;
+	lda4  = 4 * lda;
+
+	n1 = n / 4 ;
+	n2 = n % 4 ;
+	
+	m3 = m % 4;
+	m1 = m - ( m % 4 );
+	m2 = (m % NBMAX) - (m % 4) ;
+	
+	y_ptr = y;
+
+	BLASLONG NB = NBMAX;
+
+	while ( NB == NBMAX )
+	{
+		
+		m1 -= NB;
+		if ( m1 < 0)
+		{
+			if ( m2 == 0 ) break;	
+			NB = m2;
+		}
+		
+		a_ptr = a;
+		ap[0] = a_ptr;
+		ap[1] = a_ptr + lda;
+		ap[2] = ap[1] + lda;
+		ap[3] = ap[2] + lda;
+		x_ptr = x;
+		//zero_y(NB,ybuffer);
+		memset(ybuffer,0,NB*8);
+
+		if ( inc_x == 2 )
+		{
+
+			for( i = 0; i < n1 ; i++)
+			{
+				zgemv_kernel_4x4(NB,ap,x_ptr,ybuffer);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+				x_ptr += 8;	
+			}
+
+			if ( n2 & 2 )
+			{
+				zgemv_kernel_4x2(NB,ap,x_ptr,ybuffer);
+				x_ptr += 4;	
+				a_ptr += 2 * lda;
+
+			}
+
+			if ( n2 & 1 )
+			{
+				zgemv_kernel_4x1(NB,a_ptr,x_ptr,ybuffer);
+				x_ptr += 2;	
+				a_ptr += lda;
+
+			}
+		}
+		else
+		{
+
+			for( i = 0; i < n1 ; i++)
+			{
+
+				xbuffer[0] = x_ptr[0];
+				xbuffer[1] = x_ptr[1];
+				x_ptr += inc_x;	
+				xbuffer[2] = x_ptr[0];
+				xbuffer[3] = x_ptr[1];
+				x_ptr += inc_x;	
+				xbuffer[4] = x_ptr[0];
+				xbuffer[5] = x_ptr[1];
+				x_ptr += inc_x;	
+				xbuffer[6] = x_ptr[0];
+				xbuffer[7] = x_ptr[1];
+				x_ptr += inc_x;	
+
+				zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+			}
+
+			for( i = 0; i < n2 ; i++)
+			{
+				xbuffer[0] = x_ptr[0];
+				xbuffer[1] = x_ptr[1];
+				x_ptr += inc_x;	
+				zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer);
+				a_ptr += 1 * lda;
+
+			}
+
+		}
+
+		add_y(NB,ybuffer,y_ptr,inc_y,alpha_r,alpha_i);
+		a     += 2 * NB;
+		y_ptr += NB * inc_y;
+	}
+
+	if ( m3 == 0 ) return(0);
+
+	if ( m3 == 1 )
+	{
+		a_ptr = a;
+		x_ptr = x;
+		FLOAT temp_r = 0.0;
+		FLOAT temp_i = 0.0;
+
+		if ( lda == 2 && inc_x == 2 )
+		{
+
+
+			for( i=0 ; i < (n & -2); i+=2 )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r += a_ptr[2] * x_ptr[2] - a_ptr[3] * x_ptr[3];
+				temp_i += a_ptr[2] * x_ptr[3] + a_ptr[3] * x_ptr[2];
+#else
+				temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r += a_ptr[2] * x_ptr[2] + a_ptr[3] * x_ptr[3];
+				temp_i += a_ptr[2] * x_ptr[3] - a_ptr[3] * x_ptr[2];
+#endif
+
+				a_ptr += 4;
+				x_ptr += 4;
+			}
+
+
+
+			for( ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+#else
+				temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+#endif
+
+				a_ptr += 2;
+				x_ptr += 2;
+			}
+
+
+		}
+		else
+		{
+
+			for( i = 0; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+#else
+				temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+#endif
+
+				a_ptr += lda;
+				x_ptr += inc_x;
+			}
+
+		}
+#if !defined(XCONJ) 
+		y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+		y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#else
+		y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+		y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+#endif
+		return(0);
+	}
+
+	if ( m3 == 2 )
+	{
+		a_ptr = a;
+		x_ptr = x;
+		FLOAT temp_r0 = 0.0;
+		FLOAT temp_i0 = 0.0;
+		FLOAT temp_r1 = 0.0;
+		FLOAT temp_i1 = 0.0;
+
+		if ( lda == 4 && inc_x == 2 )
+		{
+
+			for( i = 0; i < (n & -2); i+=2 )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+
+				temp_r0 += a_ptr[4] * x_ptr[2] - a_ptr[5] * x_ptr[3];
+				temp_i0 += a_ptr[4] * x_ptr[3] + a_ptr[5] * x_ptr[2];
+				temp_r1 += a_ptr[6] * x_ptr[2] - a_ptr[7] * x_ptr[3];
+				temp_i1 += a_ptr[6] * x_ptr[3] + a_ptr[7] * x_ptr[2];
+
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+
+				temp_r0 += a_ptr[4] * x_ptr[2] + a_ptr[5] * x_ptr[3];
+				temp_i0 += a_ptr[4] * x_ptr[3] - a_ptr[5] * x_ptr[2];
+				temp_r1 += a_ptr[6] * x_ptr[2] + a_ptr[7] * x_ptr[3];
+				temp_i1 += a_ptr[6] * x_ptr[3] - a_ptr[7] * x_ptr[2];
+
+#endif
+
+				a_ptr += 8;
+				x_ptr += 4;
+			}
+
+
+			for( ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+#endif
+
+				a_ptr += 4;
+				x_ptr += 2;
+			}
+
+
+		}
+		else
+		{
+
+			for( i=0 ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+#endif
+
+				a_ptr += lda;
+				x_ptr += inc_x;
+			}
+
+
+		}
+#if !defined(XCONJ) 
+		y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+		y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+		y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+#else
+		y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+		y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+		y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+#endif
+		return(0);
+	}
+
+
+	if ( m3 == 3 )
+	{
+		a_ptr = a;
+		x_ptr = x;
+		FLOAT temp_r0 = 0.0;
+		FLOAT temp_i0 = 0.0;
+		FLOAT temp_r1 = 0.0;
+		FLOAT temp_i1 = 0.0;
+		FLOAT temp_r2 = 0.0;
+		FLOAT temp_i2 = 0.0;
+
+		if ( lda == 6 && inc_x == 2 )
+		{
+
+			for( i=0 ; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+#endif
+
+				a_ptr += 6;
+				x_ptr += 2;
+			}
+
+
+		}
+		else
+		{
+
+			for( i = 0; i < n; i++ )
+			{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+				temp_r0 += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] - a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] + a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] - a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] + a_ptr[5] * x_ptr[0];
+#else
+				temp_r0 += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
+				temp_i0 += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
+				temp_r1 += a_ptr[2] * x_ptr[0] + a_ptr[3] * x_ptr[1];
+				temp_i1 += a_ptr[2] * x_ptr[1] - a_ptr[3] * x_ptr[0];
+				temp_r2 += a_ptr[4] * x_ptr[0] + a_ptr[5] * x_ptr[1];
+				temp_i2 += a_ptr[4] * x_ptr[1] - a_ptr[5] * x_ptr[0];
+#endif
+
+				a_ptr += lda;
+				x_ptr += inc_x;
+			}
+
+		}
+#if !defined(XCONJ) 
+		y_ptr[0] += alpha_r * temp_r0 - alpha_i * temp_i0;
+		y_ptr[1] += alpha_r * temp_i0 + alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 - alpha_i * temp_i1;
+		y_ptr[1] += alpha_r * temp_i1 + alpha_i * temp_r1;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r2 - alpha_i * temp_i2;
+		y_ptr[1] += alpha_r * temp_i2 + alpha_i * temp_r2;
+#else
+		y_ptr[0] += alpha_r * temp_r0 + alpha_i * temp_i0;
+		y_ptr[1] -= alpha_r * temp_i0 - alpha_i * temp_r0;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r1 + alpha_i * temp_i1;
+		y_ptr[1] -= alpha_r * temp_i1 - alpha_i * temp_r1;
+		y_ptr    += inc_y;
+		y_ptr[0] += alpha_r * temp_r2 + alpha_i * temp_i2;
+		y_ptr[1] -= alpha_r * temp_i2 - alpha_i * temp_r2;
+#endif
+		return(0);
+	}
+
+
+
+
+
+	return(0);
+}
+
+
diff --git a/kernel/x86_64/zgemv_n_microk_haswell-4.c b/kernel/x86_64/zgemv_n_microk_haswell-4.c
new file mode 100644
index 000000000..fd6fb5027
--- /dev/null
+++ b/kernel/x86_64/zgemv_n_microk_haswell-4.c
@@ -0,0 +1,297 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#define HAVE_KERNEL_4x4 1
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
+	"vbroadcastsd	16(%2), %%ymm2                  \n\t"  // real part x1
+	"vbroadcastsd	24(%2), %%ymm3                  \n\t"  // imag part x1
+	"vbroadcastsd	32(%2), %%ymm4                  \n\t"  // real part x2
+	"vbroadcastsd	40(%2), %%ymm5                  \n\t"  // imag part x2
+	"vbroadcastsd	48(%2), %%ymm6                  \n\t"  // real part x3
+	"vbroadcastsd	56(%2), %%ymm7                  \n\t"  // imag part x3
+
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      192(%4,%0,8)			\n\t"
+	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"prefetcht0      192(%5,%0,8)			\n\t"
+	"vmovups	(%5,%0,8), %%ymm10              \n\t" // 2 complex values form a1
+	"vmovups      32(%5,%0,8), %%ymm11              \n\t" // 2 complex values form a1
+
+	"vmulpd      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulpd      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      192(%6,%0,8)			\n\t"
+	"vmovups	(%6,%0,8), %%ymm8	        \n\t" // 2 complex values form a2
+	"vmovups      32(%6,%0,8), %%ymm9	        \n\t" // 2 complex values form a2
+
+	"vfmadd231pd      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231pd      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231pd      %%ymm11, %%ymm2, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231pd      %%ymm11, %%ymm3, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      192(%7,%0,8)			\n\t"
+	"vmovups	(%7,%0,8), %%ymm10              \n\t" // 2 complex values form a3
+	"vmovups      32(%7,%0,8), %%ymm11              \n\t" // 2 complex values form a3
+
+	"vfmadd231pd      %%ymm8 , %%ymm4, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231pd      %%ymm8 , %%ymm5, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231pd      %%ymm9 , %%ymm4, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231pd      %%ymm9 , %%ymm5, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"vfmadd231pd      %%ymm10, %%ymm6, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231pd      %%ymm10, %%ymm7, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231pd      %%ymm11, %%ymm6, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231pd      %%ymm11, %%ymm7, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      192(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (ap[2]),  // 6
+          "r" (ap[3])   // 7
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+#define HAVE_KERNEL_4x2 1
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
+	"vbroadcastsd	16(%2), %%ymm2                  \n\t"  // real part x1
+	"vbroadcastsd	24(%2), %%ymm3                  \n\t"  // imag part x1
+
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      192(%4,%0,8)			\n\t"
+	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"prefetcht0      192(%5,%0,8)			\n\t"
+	"vmovups	(%5,%0,8), %%ymm10              \n\t" // 2 complex values form a1
+	"vmovups      32(%5,%0,8), %%ymm11              \n\t" // 2 complex values form a1
+
+	"vmulpd      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulpd      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"vfmadd231pd      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vfmadd231pd      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vfmadd231pd      %%ymm11, %%ymm2, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vfmadd231pd      %%ymm11, %%ymm3, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+
+	"prefetcht0      192(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1])   // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_4x1 1
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      192(%4,%0,8)			\n\t"
+	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"vmulpd      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulpd      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      192(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap)      // 4
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+

From e0192a6914a13cbf5836f59583df816ca31a14c3 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Thu, 11 Sep 2014 13:18:00 +0200
Subject: [PATCH 07/24] bugfix in zgemv_n_4.c

---
 kernel/x86_64/KERNEL.HASWELL | 4 ++--
 kernel/x86_64/zgemv_n_4.c    | 3 ++-
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/kernel/x86_64/KERNEL.HASWELL b/kernel/x86_64/KERNEL.HASWELL
index 8aab560c4..fc4a4c7f8 100644
--- a/kernel/x86_64/KERNEL.HASWELL
+++ b/kernel/x86_64/KERNEL.HASWELL
@@ -4,10 +4,10 @@ SGEMVTKERNEL = sgemv_t_4.c
 DGEMVNKERNEL = dgemv_n_4.c
 DGEMVTKERNEL = dgemv_t_4.c
 
-ZGEMVNKERNEL = zgemv_n.c
+ZGEMVNKERNEL = zgemv_n_4.c
 ZGEMVTKERNEL = zgemv_t.c
 
-CGEMVNKERNEL = cgemv_n.c
+CGEMVNKERNEL = cgemv_n_4.c
 CGEMVTKERNEL = cgemv_t.c
 
 SGEMMKERNEL    =  sgemm_kernel_16x4_haswell.S
diff --git a/kernel/x86_64/zgemv_n_4.c b/kernel/x86_64/zgemv_n_4.c
index 43adb6c05..c9b5b570e 100644
--- a/kernel/x86_64/zgemv_n_4.c
+++ b/kernel/x86_64/zgemv_n_4.c
@@ -29,6 +29,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #include <stdio.h>
 #include "common.h"
 
+
 #if defined(HASWELL)
 #include "zgemv_n_microk_haswell-4.c"
 #endif
@@ -270,7 +271,7 @@ printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x
 		ap[3] = ap[2] + lda;
 		x_ptr = x;
 		//zero_y(NB,ybuffer);
-		memset(ybuffer,0,NB*8);
+		memset(ybuffer,0,NB*16);
 
 		if ( inc_x == 2 )
 		{

From bb8d698335080383e50947f44cd5dac136c130a2 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Thu, 11 Sep 2014 13:44:55 +0200
Subject: [PATCH 08/24] optimized zgemv_n_microk_haswell-4.c for small size

---
 kernel/x86_64/zgemv_n_microk_haswell-4.c | 103 +++++++++++++++++++++++
 1 file changed, 103 insertions(+)

diff --git a/kernel/x86_64/zgemv_n_microk_haswell-4.c b/kernel/x86_64/zgemv_n_microk_haswell-4.c
index fd6fb5027..61358508a 100644
--- a/kernel/x86_64/zgemv_n_microk_haswell-4.c
+++ b/kernel/x86_64/zgemv_n_microk_haswell-4.c
@@ -295,3 +295,106 @@ static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 
 
 
+
+#define HAVE_KERNEL_ADDY 1
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)  __attribute__ ((noinline));
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
+{
+	BLASLONG i;
+
+	if ( inc_dest != 2 )
+	{
+
+		FLOAT temp_r;
+		FLOAT temp_i;
+		for ( i=0; i<n; i++ )
+		{
+#if !defined(XCONJ) 
+			temp_r = alpha_r * src[0] - alpha_i * src[1];
+			temp_i = alpha_r * src[1] + alpha_i * src[0];
+#else
+			temp_r =  alpha_r * src[0] + alpha_i * src[1];
+			temp_i = -alpha_r * src[1] + alpha_i * src[0];
+#endif
+
+			*dest += temp_r;
+			*(dest+1) += temp_i;
+
+			src+=2;
+			dest += inc_dest;
+		}
+		return;
+	}
+
+	i=0;
+
+	__asm__  __volatile__
+	(
+
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%4), %%ymm0                  \n\t"  // alpha_r
+	"vbroadcastsd	  (%5), %%ymm1                  \n\t"  // alpha_i
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      192(%2,%0,8)			\n\t"
+	"vmovups	(%2,%0,8), %%ymm8	        \n\t" // 2 complex values from src
+	"vmovups      32(%2,%0,8), %%ymm9	        \n\t" 
+
+	"vmulpd      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulpd      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      192(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t" // 2 complex values from dest
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if !defined(XCONJ)
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	      // 0	
+	  "r" (n),  	      // 1
+          "r" (src),          // 2
+          "r" (dest),         // 3
+          "r" (&alpha_r),     // 4
+          "r" (&alpha_i)      // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+	return;
+
+}
+

From 107c3ea7d56f933c6fdf350cab96f5f17086a73f Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 12:35:20 +0200
Subject: [PATCH 09/24] added optimized zgemv_t routine

---
 kernel/x86_64/zgemv_t_4.c | 492 ++++++++++++++++++++++++++++++++++++++
 1 file changed, 492 insertions(+)
 create mode 100644 kernel/x86_64/zgemv_t_4.c

diff --git a/kernel/x86_64/zgemv_t_4.c b/kernel/x86_64/zgemv_t_4.c
new file mode 100644
index 000000000..3ffcf64b4
--- /dev/null
+++ b/kernel/x86_64/zgemv_t_4.c
@@ -0,0 +1,492 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+
+#include "common.h"
+
+/*
+#if defined(BULLDOZER) || defined(PILEDRIVER)
+#include "zgemv_t_microk_bulldozer-2.c"
+#elif defined(HASWELL)
+#include "zgemv_t_microk_haswell-2.c"
+#endif
+*/
+
+#define NBMAX 1028
+
+#ifndef HAVE_KERNEL_4x4
+
+static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1,*a2,*a3;
+	a0 = ap[0];
+	a1 = ap[1];
+	a2 = ap[2];
+	a3 = ap[3];
+	FLOAT alpha_r = alpha[0];
+	FLOAT alpha_i = alpha[1];
+	FLOAT temp_r0 = 0.0;
+	FLOAT temp_r1 = 0.0;
+	FLOAT temp_r2 = 0.0;
+	FLOAT temp_r3 = 0.0;
+	FLOAT temp_i0 = 0.0;
+	FLOAT temp_i1 = 0.0;
+	FLOAT temp_i2 = 0.0;
+	FLOAT temp_i3 = 0.0;
+
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   - a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] + a1[i+1]*x[i];		
+		temp_r2 += a2[i]*x[i]   - a2[i+1]*x[i+1];		
+		temp_i2 += a2[i]*x[i+1] + a2[i+1]*x[i];		
+		temp_r3 += a3[i]*x[i]   - a3[i+1]*x[i+1];		
+		temp_i3 += a3[i]*x[i+1] + a3[i+1]*x[i];		
+#else
+		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   + a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] - a1[i+1]*x[i];		
+		temp_r2 += a2[i]*x[i]   + a2[i+1]*x[i+1];		
+		temp_i2 += a2[i]*x[i+1] - a2[i+1]*x[i];		
+		temp_r3 += a3[i]*x[i]   + a3[i+1]*x[i+1];		
+		temp_i3 += a3[i]*x[i+1] - a3[i+1]*x[i];		
+#endif
+	}
+
+#if !defined(XCONJ)
+
+	y[0] +=  alpha_r * temp_r0 - alpha_i * temp_i0;
+	y[1] +=  alpha_r * temp_i0 + alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 - alpha_i * temp_i1;
+	y[3] +=  alpha_r * temp_i1 + alpha_i * temp_r1;
+	y[4] +=  alpha_r * temp_r2 - alpha_i * temp_i2;
+	y[5] +=  alpha_r * temp_i2 + alpha_i * temp_r2;
+	y[6] +=  alpha_r * temp_r3 - alpha_i * temp_i3;
+	y[7] +=  alpha_r * temp_i3 + alpha_i * temp_r3;
+
+#else
+
+	y[0] +=  alpha_r * temp_r0 + alpha_i * temp_i0;
+	y[1] -=  alpha_r * temp_i0 - alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 + alpha_i * temp_i1;
+	y[3] -=  alpha_r * temp_i1 - alpha_i * temp_r1;
+	y[4] +=  alpha_r * temp_r2 + alpha_i * temp_i2;
+	y[5] -=  alpha_r * temp_i2 - alpha_i * temp_r2;
+	y[6] +=  alpha_r * temp_r3 + alpha_i * temp_i3;
+	y[7] -=  alpha_r * temp_i3 - alpha_i * temp_r3;
+
+#endif
+}
+	
+#endif
+
+#ifndef HAVE_KERNEL_4x1
+
+static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+	BLASLONG i;
+	FLOAT *a0;
+	a0 = ap;
+	FLOAT alpha_r = alpha[0];
+	FLOAT alpha_i = alpha[1];
+	FLOAT temp_r0 = 0.0;
+	FLOAT temp_i0 = 0.0;
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
+#else
+		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
+#endif
+	}
+
+#if !defined(XCONJ)
+
+	y[0] +=  alpha_r * temp_r0 - alpha_i * temp_i0;
+	y[1] +=  alpha_r * temp_i0 + alpha_i * temp_r0;
+
+#else
+
+	y[0] +=  alpha_r * temp_r0 + alpha_i * temp_i0;
+	y[1] -=  alpha_r * temp_i0 - alpha_i * temp_r0;
+
+#endif
+
+
+}
+
+#endif
+
+
+static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src)
+{
+        BLASLONG i;
+        for ( i=0; i<n; i++ )
+        {
+                *dest     = *src;
+                *(dest+1) = *(src+1);
+                dest+=2;
+                src += inc_src;
+        }
+}
+
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
+{
+	BLASLONG i;
+	BLASLONG j;
+	FLOAT *a_ptr;
+	FLOAT *x_ptr;
+	FLOAT *y_ptr;
+	FLOAT *ap[8];
+	BLASLONG n1;
+	BLASLONG m1;
+	BLASLONG m2;
+	BLASLONG m3;
+	BLASLONG n2;
+	BLASLONG lda4;
+	FLOAT ybuffer[8],*xbuffer;
+	FLOAT alpha[2];
+
+        if ( m < 1 ) return(0);
+        if ( n < 1 ) return(0);
+
+        inc_x *= 2;
+        inc_y *= 2;
+        lda   *= 2;
+	lda4   = 4 * lda;
+
+	xbuffer = buffer;
+	
+	n1 = n / 4 ;
+	n2 = n % 4 ;
+	
+	m3 = m % 4 ;
+	m1 = m - ( m % 4 );
+	m2 = (m % NBMAX) - (m % 4) ;
+	
+	alpha[0] = alpha_r;
+	alpha[1] = alpha_i;
+
+	BLASLONG NB = NBMAX;
+
+	while ( NB == NBMAX )
+	{
+		
+		m1 -= NB;
+		if ( m1 < 0)
+		{
+			if ( m2 == 0 ) break;	
+			NB = m2;
+		}
+		
+		y_ptr = y;
+		a_ptr = a;
+		x_ptr = x;
+		ap[0] = a_ptr;
+		ap[1] = a_ptr + lda;
+		ap[2] = ap[1] + lda;
+		ap[3] = ap[2] + lda;
+		copy_x(NB,x_ptr,xbuffer,inc_x);
+		for( i = 0; i < n1 ; i++)
+		{
+			memset(ybuffer,0,64);
+			zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
+			ap[0] += lda4;
+			ap[1] += lda4;
+			ap[2] += lda4;
+			ap[3] += lda4;
+			a_ptr += lda4;
+
+			y_ptr[0] += ybuffer[0];
+			y_ptr[1] += ybuffer[1];
+			y_ptr  += inc_y;
+			y_ptr[0] += ybuffer[2];
+			y_ptr[1] += ybuffer[3];
+			y_ptr  += inc_y;
+			y_ptr[0] += ybuffer[4];
+			y_ptr[1] += ybuffer[5];
+			y_ptr  += inc_y;
+			y_ptr[0] += ybuffer[6];
+			y_ptr[1] += ybuffer[7];
+			y_ptr  += inc_y;
+
+		}
+
+		for( i = 0; i < n2 ; i++)
+		{
+			memset(ybuffer,0,64);
+			zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
+			a_ptr += lda;
+			y_ptr[0] += ybuffer[0];
+			y_ptr[1] += ybuffer[1];
+			y_ptr  += inc_y;
+
+		}
+		a += 2* NB;
+		x += NB * inc_x;	
+	}
+
+
+
+	if ( m3 == 0 ) return(0);
+
+        x_ptr = x;
+        copy_x(m3,x_ptr,xbuffer,inc_x);
+        j=0;
+        a_ptr = a;
+        y_ptr = y;
+
+	if ( m3 == 3 )
+	{
+
+                FLOAT temp_r ;
+                FLOAT temp_i ;
+		FLOAT x0 = x_ptr[0];
+		FLOAT x1 = x_ptr[1];
+		x_ptr += inc_x;
+		FLOAT x2 = x_ptr[0];
+		FLOAT x3 = x_ptr[1];
+		x_ptr += inc_x;
+		FLOAT x4 = x_ptr[0];
+		FLOAT x5 = x_ptr[1];
+	        while ( j < n)
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 + a_ptr[3] * x2; 
+                       	temp_r += a_ptr[4] * x4 - a_ptr[5] * x5;
+                       	temp_i += a_ptr[4] * x5 + a_ptr[5] * x4;
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 - a_ptr[3] * x2; 
+                       	temp_r += a_ptr[4] * x4 + a_ptr[5] * x5;
+                       	temp_i += a_ptr[4] * x5 - a_ptr[5] * x4;
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+                	y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#else
+                	y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+                	y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j++;
+        	}
+        	return(0);
+	}
+
+
+	if ( m3 == 2 )
+	{
+
+                FLOAT temp_r ;
+                FLOAT temp_i ;
+                FLOAT temp_r1 ;
+                FLOAT temp_i1 ;
+		FLOAT x0 = x_ptr[0];
+		FLOAT x1 = x_ptr[1];
+		x_ptr += inc_x;
+		FLOAT x2 = x_ptr[0];
+		FLOAT x3 = x_ptr[1];
+		FLOAT ar = alpha[0];
+		FLOAT ai = alpha[1];
+
+	        while ( j < ( n & -2 ))
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 + a_ptr[3] * x2; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r1 += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i1 += a_ptr[2] * x3 + a_ptr[3] * x2; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 - a_ptr[3] * x2; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r1 += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i1 += a_ptr[2] * x3 - a_ptr[3] * x2; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+                	y_ptr[1] += ar * temp_i1 + ai * temp_r1;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+                	y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j+=2;
+        	}
+
+
+	        while ( j < n)
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 + a_ptr[3] * x2; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 - a_ptr[3] * x2; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j++;
+        	}
+
+        	return(0);
+	}
+
+
+	if ( m3 == 1 )
+	{
+
+                FLOAT temp_r ;
+                FLOAT temp_i ;
+                FLOAT temp_r1 ;
+                FLOAT temp_i1 ;
+		FLOAT x0 = x_ptr[0];
+		FLOAT x1 = x_ptr[1];
+		FLOAT ar = alpha[0];
+		FLOAT ai = alpha[1];
+
+	        while ( j < ( n & -2 ))
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+                	y_ptr[1] += ar * temp_i1 + ai * temp_r1;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+                	y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j+=2;
+        	}
+
+	        while ( j < n)
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j++;
+        	}
+        	return(0);
+	}
+
+	return(0);
+
+
+}
+
+

From 564be4eb7299b21a74aaae1ddfa771f1ceeec442 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 13:38:01 +0200
Subject: [PATCH 10/24] added optimized cgemv_t kernel

---
 kernel/x86_64/cgemv_t_4.c | 583 ++++++++++++++++++++++++++++++++++++++
 kernel/x86_64/zgemv_t_4.c | 171 ++++++++---
 2 files changed, 714 insertions(+), 40 deletions(-)
 create mode 100644 kernel/x86_64/cgemv_t_4.c

diff --git a/kernel/x86_64/cgemv_t_4.c b/kernel/x86_64/cgemv_t_4.c
new file mode 100644
index 000000000..f8a471ec3
--- /dev/null
+++ b/kernel/x86_64/cgemv_t_4.c
@@ -0,0 +1,583 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+
+#include "common.h"
+
+/*
+#if defined(BULLDOZER) || defined(PILEDRIVER)
+#include "zgemv_t_microk_bulldozer-2.c"
+#elif defined(HASWELL)
+#include "zgemv_t_microk_haswell-2.c"
+#endif
+*/
+
+#define NBMAX 1028
+
+#ifndef HAVE_KERNEL_4x4
+
+static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1,*a2,*a3;
+	a0 = ap[0];
+	a1 = ap[1];
+	a2 = ap[2];
+	a3 = ap[3];
+	FLOAT alpha_r = alpha[0];
+	FLOAT alpha_i = alpha[1];
+	FLOAT temp_r0 = 0.0;
+	FLOAT temp_r1 = 0.0;
+	FLOAT temp_r2 = 0.0;
+	FLOAT temp_r3 = 0.0;
+	FLOAT temp_i0 = 0.0;
+	FLOAT temp_i1 = 0.0;
+	FLOAT temp_i2 = 0.0;
+	FLOAT temp_i3 = 0.0;
+
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   - a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] + a1[i+1]*x[i];		
+		temp_r2 += a2[i]*x[i]   - a2[i+1]*x[i+1];		
+		temp_i2 += a2[i]*x[i+1] + a2[i+1]*x[i];		
+		temp_r3 += a3[i]*x[i]   - a3[i+1]*x[i+1];		
+		temp_i3 += a3[i]*x[i+1] + a3[i+1]*x[i];		
+#else
+		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   + a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] - a1[i+1]*x[i];		
+		temp_r2 += a2[i]*x[i]   + a2[i+1]*x[i+1];		
+		temp_i2 += a2[i]*x[i+1] - a2[i+1]*x[i];		
+		temp_r3 += a3[i]*x[i]   + a3[i+1]*x[i+1];		
+		temp_i3 += a3[i]*x[i+1] - a3[i+1]*x[i];		
+#endif
+	}
+
+#if !defined(XCONJ)
+
+	y[0] +=  alpha_r * temp_r0 - alpha_i * temp_i0;
+	y[1] +=  alpha_r * temp_i0 + alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 - alpha_i * temp_i1;
+	y[3] +=  alpha_r * temp_i1 + alpha_i * temp_r1;
+	y[4] +=  alpha_r * temp_r2 - alpha_i * temp_i2;
+	y[5] +=  alpha_r * temp_i2 + alpha_i * temp_r2;
+	y[6] +=  alpha_r * temp_r3 - alpha_i * temp_i3;
+	y[7] +=  alpha_r * temp_i3 + alpha_i * temp_r3;
+
+#else
+
+	y[0] +=  alpha_r * temp_r0 + alpha_i * temp_i0;
+	y[1] -=  alpha_r * temp_i0 - alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 + alpha_i * temp_i1;
+	y[3] -=  alpha_r * temp_i1 - alpha_i * temp_r1;
+	y[4] +=  alpha_r * temp_r2 + alpha_i * temp_i2;
+	y[5] -=  alpha_r * temp_i2 - alpha_i * temp_r2;
+	y[6] +=  alpha_r * temp_r3 + alpha_i * temp_i3;
+	y[7] -=  alpha_r * temp_i3 - alpha_i * temp_r3;
+
+#endif
+}
+	
+#endif
+
+#ifndef HAVE_KERNEL_4x2
+
+static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1;
+	a0 = ap[0];
+	a1 = ap[1];
+	FLOAT alpha_r = alpha[0];
+	FLOAT alpha_i = alpha[1];
+	FLOAT temp_r0 = 0.0;
+	FLOAT temp_r1 = 0.0;
+	FLOAT temp_i0 = 0.0;
+	FLOAT temp_i1 = 0.0;
+
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   - a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] + a1[i+1]*x[i];		
+#else
+		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   + a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] - a1[i+1]*x[i];		
+#endif
+	}
+
+#if !defined(XCONJ)
+
+	y[0] +=  alpha_r * temp_r0 - alpha_i * temp_i0;
+	y[1] +=  alpha_r * temp_i0 + alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 - alpha_i * temp_i1;
+	y[3] +=  alpha_r * temp_i1 + alpha_i * temp_r1;
+
+#else
+
+	y[0] +=  alpha_r * temp_r0 + alpha_i * temp_i0;
+	y[1] -=  alpha_r * temp_i0 - alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 + alpha_i * temp_i1;
+	y[3] -=  alpha_r * temp_i1 - alpha_i * temp_r1;
+
+#endif
+}
+	
+#endif
+
+
+#ifndef HAVE_KERNEL_4x1
+
+static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+	BLASLONG i;
+	FLOAT *a0;
+	a0 = ap;
+	FLOAT alpha_r = alpha[0];
+	FLOAT alpha_i = alpha[1];
+	FLOAT temp_r0 = 0.0;
+	FLOAT temp_i0 = 0.0;
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
+#else
+		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
+#endif
+	}
+
+#if !defined(XCONJ)
+
+	y[0] +=  alpha_r * temp_r0 - alpha_i * temp_i0;
+	y[1] +=  alpha_r * temp_i0 + alpha_i * temp_r0;
+
+#else
+
+	y[0] +=  alpha_r * temp_r0 + alpha_i * temp_i0;
+	y[1] -=  alpha_r * temp_i0 - alpha_i * temp_r0;
+
+#endif
+
+
+}
+
+#endif
+
+
+static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src)
+{
+        BLASLONG i;
+        for ( i=0; i<n; i++ )
+        {
+                *dest     = *src;
+                *(dest+1) = *(src+1);
+                dest+=2;
+                src += inc_src;
+        }
+}
+
+
+int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
+{
+	BLASLONG i;
+	BLASLONG j;
+	FLOAT *a_ptr;
+	FLOAT *x_ptr;
+	FLOAT *y_ptr;
+	FLOAT *ap[8];
+	BLASLONG n1;
+	BLASLONG m1;
+	BLASLONG m2;
+	BLASLONG m3;
+	BLASLONG n2;
+	BLASLONG lda4;
+	FLOAT ybuffer[8],*xbuffer;
+	FLOAT alpha[2];
+
+        if ( m < 1 ) return(0);
+        if ( n < 1 ) return(0);
+
+        inc_x <<= 1;
+        inc_y <<= 1;
+        lda   <<= 1;
+	lda4    = lda << 2;
+
+	xbuffer = buffer;
+	
+	n1 = n  >> 2 ;
+	n2 = n  &  3 ;
+	
+	m3 = m & 3 ;
+	m1 = m - m3;
+	m2 = (m % (NBMAX-1)) - m3 ;
+	
+	alpha[0] = alpha_r;
+	alpha[1] = alpha_i;
+
+	BLASLONG NB = NBMAX;
+
+	while ( NB == NBMAX )
+	{
+		
+		m1 -= NB;
+		if ( m1 < 0)
+		{
+			if ( m2 == 0 ) break;	
+			NB = m2;
+		}
+		
+		y_ptr = y;
+		a_ptr = a;
+		x_ptr = x;
+		ap[0] = a_ptr;
+		ap[1] = a_ptr + lda;
+		ap[2] = ap[1] + lda;
+		ap[3] = ap[2] + lda;
+		if ( inc_x != 2 )
+			copy_x(NB,x_ptr,xbuffer,inc_x);
+		else
+			xbuffer = x_ptr;
+		
+		if ( inc_y == 2 )
+		{
+
+			for( i = 0; i < n1 ; i++)
+			{
+				zgemv_kernel_4x4(NB,ap,xbuffer,y_ptr,alpha);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+				y_ptr += 8;
+				
+			}
+
+			if ( n2 & 2 )
+			{
+				zgemv_kernel_4x2(NB,ap,xbuffer,y_ptr,alpha);
+				a_ptr += lda * 2;
+				y_ptr += 4;
+
+			}
+
+			if ( n2 & 1 )
+			{
+				zgemv_kernel_4x1(NB,a_ptr,xbuffer,y_ptr,alpha);
+				a_ptr += lda;
+				y_ptr += 2;
+
+			}
+
+		}
+		else
+		{
+
+			for( i = 0; i < n1 ; i++)
+			{
+				memset(ybuffer,0,64);
+				zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+
+				y_ptr[0] += ybuffer[0];
+				y_ptr[1] += ybuffer[1];
+				y_ptr  += inc_y;
+				y_ptr[0] += ybuffer[2];
+				y_ptr[1] += ybuffer[3];
+				y_ptr  += inc_y;
+				y_ptr[0] += ybuffer[4];
+				y_ptr[1] += ybuffer[5];
+				y_ptr  += inc_y;
+				y_ptr[0] += ybuffer[6];
+				y_ptr[1] += ybuffer[7];
+				y_ptr  += inc_y;
+
+			}
+
+			for( i = 0; i < n2 ; i++)
+			{
+				memset(ybuffer,0,64);
+				zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
+				a_ptr += lda;
+				y_ptr[0] += ybuffer[0];
+				y_ptr[1] += ybuffer[1];
+				y_ptr  += inc_y;
+
+			}
+
+		}
+		a += 2 * NB;
+		x += NB * inc_x;	
+	}
+
+
+
+	if ( m3 == 0 ) return(0);
+
+        x_ptr = x;
+        j=0;
+        a_ptr = a;
+        y_ptr = y;
+
+	if ( m3 == 3 )
+	{
+
+                FLOAT temp_r ;
+                FLOAT temp_i ;
+		FLOAT x0 = x_ptr[0];
+		FLOAT x1 = x_ptr[1];
+		x_ptr += inc_x;
+		FLOAT x2 = x_ptr[0];
+		FLOAT x3 = x_ptr[1];
+		x_ptr += inc_x;
+		FLOAT x4 = x_ptr[0];
+		FLOAT x5 = x_ptr[1];
+	        while ( j < n)
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 + a_ptr[3] * x2; 
+                       	temp_r += a_ptr[4] * x4 - a_ptr[5] * x5;
+                       	temp_i += a_ptr[4] * x5 + a_ptr[5] * x4;
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 - a_ptr[3] * x2; 
+                       	temp_r += a_ptr[4] * x4 + a_ptr[5] * x5;
+                       	temp_i += a_ptr[4] * x5 - a_ptr[5] * x4;
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
+                	y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
+#else
+                	y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
+                	y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j++;
+        	}
+        	return(0);
+	}
+
+
+	if ( m3 == 2 )
+	{
+
+                FLOAT temp_r ;
+                FLOAT temp_i ;
+                FLOAT temp_r1 ;
+                FLOAT temp_i1 ;
+		FLOAT x0 = x_ptr[0];
+		FLOAT x1 = x_ptr[1];
+		x_ptr += inc_x;
+		FLOAT x2 = x_ptr[0];
+		FLOAT x3 = x_ptr[1];
+		FLOAT ar = alpha[0];
+		FLOAT ai = alpha[1];
+
+	        while ( j < ( n & -2 ))
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 + a_ptr[3] * x2; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r1 += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i1 += a_ptr[2] * x3 + a_ptr[3] * x2; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 - a_ptr[3] * x2; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r1 += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i1 += a_ptr[2] * x3 - a_ptr[3] * x2; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+                	y_ptr[1] += ar * temp_i1 + ai * temp_r1;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+                	y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j+=2;
+        	}
+
+
+	        while ( j < n)
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 - a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 + a_ptr[3] * x2; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                       	temp_r += a_ptr[2] * x2 + a_ptr[3] * x3; 
+                       	temp_i += a_ptr[2] * x3 - a_ptr[3] * x2; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j++;
+        	}
+
+        	return(0);
+	}
+
+
+	if ( m3 == 1 )
+	{
+
+                FLOAT temp_r ;
+                FLOAT temp_i ;
+                FLOAT temp_r1 ;
+                FLOAT temp_i1 ;
+		FLOAT x0 = x_ptr[0];
+		FLOAT x1 = x_ptr[1];
+		FLOAT ar = alpha[0];
+		FLOAT ai = alpha[1];
+
+	        while ( j < ( n & -2 ))
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+                	a_ptr += lda;
+                       	temp_r1  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i1  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 - ai * temp_i1;
+                	y_ptr[1] += ar * temp_i1 + ai * temp_r1;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+                	y_ptr += inc_y;
+                	y_ptr[0] += ar * temp_r1 + ai * temp_i1;
+                	y_ptr[1] -= ar * temp_i1 - ai * temp_r1;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j+=2;
+        	}
+
+	        while ( j < n)
+        	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+                       	temp_r  = a_ptr[0] * x0 - a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 + a_ptr[1] * x0; 
+#else
+
+                       	temp_r  = a_ptr[0] * x0 + a_ptr[1] * x1; 
+                       	temp_i  = a_ptr[0] * x1 - a_ptr[1] * x0; 
+#endif
+
+#if !defined(XCONJ) 
+                	y_ptr[0] += ar * temp_r - ai * temp_i;
+                	y_ptr[1] += ar * temp_i + ai * temp_r;
+#else
+                	y_ptr[0] += ar * temp_r + ai * temp_i;
+                	y_ptr[1] -= ar * temp_i - ai * temp_r;
+#endif
+
+                	a_ptr += lda;
+                	y_ptr += inc_y;
+                	j++;
+        	}
+        	return(0);
+	}
+
+	return(0);
+
+
+}
+
+
diff --git a/kernel/x86_64/zgemv_t_4.c b/kernel/x86_64/zgemv_t_4.c
index 3ffcf64b4..f8a471ec3 100644
--- a/kernel/x86_64/zgemv_t_4.c
+++ b/kernel/x86_64/zgemv_t_4.c
@@ -110,6 +110,57 @@ static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *
 	
 #endif
 
+#ifndef HAVE_KERNEL_4x2
+
+static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+	BLASLONG i;
+	FLOAT *a0,*a1;
+	a0 = ap[0];
+	a1 = ap[1];
+	FLOAT alpha_r = alpha[0];
+	FLOAT alpha_i = alpha[1];
+	FLOAT temp_r0 = 0.0;
+	FLOAT temp_r1 = 0.0;
+	FLOAT temp_i0 = 0.0;
+	FLOAT temp_i1 = 0.0;
+
+
+	for ( i=0; i< 2*n; i+=2 )
+	{
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   - a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] + a1[i+1]*x[i];		
+#else
+		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
+		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
+		temp_r1 += a1[i]*x[i]   + a1[i+1]*x[i+1];		
+		temp_i1 += a1[i]*x[i+1] - a1[i+1]*x[i];		
+#endif
+	}
+
+#if !defined(XCONJ)
+
+	y[0] +=  alpha_r * temp_r0 - alpha_i * temp_i0;
+	y[1] +=  alpha_r * temp_i0 + alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 - alpha_i * temp_i1;
+	y[3] +=  alpha_r * temp_i1 + alpha_i * temp_r1;
+
+#else
+
+	y[0] +=  alpha_r * temp_r0 + alpha_i * temp_i0;
+	y[1] -=  alpha_r * temp_i0 - alpha_i * temp_r0;
+	y[2] +=  alpha_r * temp_r1 + alpha_i * temp_i1;
+	y[3] -=  alpha_r * temp_i1 - alpha_i * temp_r1;
+
+#endif
+}
+	
+#endif
+
+
 #ifndef HAVE_KERNEL_4x1
 
 static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
@@ -184,19 +235,19 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
         if ( m < 1 ) return(0);
         if ( n < 1 ) return(0);
 
-        inc_x *= 2;
-        inc_y *= 2;
-        lda   *= 2;
-	lda4   = 4 * lda;
+        inc_x <<= 1;
+        inc_y <<= 1;
+        lda   <<= 1;
+	lda4    = lda << 2;
 
 	xbuffer = buffer;
 	
-	n1 = n / 4 ;
-	n2 = n % 4 ;
+	n1 = n  >> 2 ;
+	n2 = n  &  3 ;
 	
-	m3 = m % 4 ;
-	m1 = m - ( m % 4 );
-	m2 = (m % NBMAX) - (m % 4) ;
+	m3 = m & 3 ;
+	m1 = m - m3;
+	m2 = (m % (NBMAX-1)) - m3 ;
 	
 	alpha[0] = alpha_r;
 	alpha[1] = alpha_i;
@@ -220,43 +271,84 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 		ap[1] = a_ptr + lda;
 		ap[2] = ap[1] + lda;
 		ap[3] = ap[2] + lda;
-		copy_x(NB,x_ptr,xbuffer,inc_x);
-		for( i = 0; i < n1 ; i++)
+		if ( inc_x != 2 )
+			copy_x(NB,x_ptr,xbuffer,inc_x);
+		else
+			xbuffer = x_ptr;
+		
+		if ( inc_y == 2 )
 		{
-			memset(ybuffer,0,64);
-			zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
-			ap[0] += lda4;
-			ap[1] += lda4;
-			ap[2] += lda4;
-			ap[3] += lda4;
-			a_ptr += lda4;
 
-			y_ptr[0] += ybuffer[0];
-			y_ptr[1] += ybuffer[1];
-			y_ptr  += inc_y;
-			y_ptr[0] += ybuffer[2];
-			y_ptr[1] += ybuffer[3];
-			y_ptr  += inc_y;
-			y_ptr[0] += ybuffer[4];
-			y_ptr[1] += ybuffer[5];
-			y_ptr  += inc_y;
-			y_ptr[0] += ybuffer[6];
-			y_ptr[1] += ybuffer[7];
-			y_ptr  += inc_y;
+			for( i = 0; i < n1 ; i++)
+			{
+				zgemv_kernel_4x4(NB,ap,xbuffer,y_ptr,alpha);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+				y_ptr += 8;
+				
+			}
+
+			if ( n2 & 2 )
+			{
+				zgemv_kernel_4x2(NB,ap,xbuffer,y_ptr,alpha);
+				a_ptr += lda * 2;
+				y_ptr += 4;
+
+			}
+
+			if ( n2 & 1 )
+			{
+				zgemv_kernel_4x1(NB,a_ptr,xbuffer,y_ptr,alpha);
+				a_ptr += lda;
+				y_ptr += 2;
+
+			}
 
 		}
-
-		for( i = 0; i < n2 ; i++)
+		else
 		{
-			memset(ybuffer,0,64);
-			zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
-			a_ptr += lda;
-			y_ptr[0] += ybuffer[0];
-			y_ptr[1] += ybuffer[1];
-			y_ptr  += inc_y;
+
+			for( i = 0; i < n1 ; i++)
+			{
+				memset(ybuffer,0,64);
+				zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
+				ap[0] += lda4;
+				ap[1] += lda4;
+				ap[2] += lda4;
+				ap[3] += lda4;
+				a_ptr += lda4;
+
+				y_ptr[0] += ybuffer[0];
+				y_ptr[1] += ybuffer[1];
+				y_ptr  += inc_y;
+				y_ptr[0] += ybuffer[2];
+				y_ptr[1] += ybuffer[3];
+				y_ptr  += inc_y;
+				y_ptr[0] += ybuffer[4];
+				y_ptr[1] += ybuffer[5];
+				y_ptr  += inc_y;
+				y_ptr[0] += ybuffer[6];
+				y_ptr[1] += ybuffer[7];
+				y_ptr  += inc_y;
+
+			}
+
+			for( i = 0; i < n2 ; i++)
+			{
+				memset(ybuffer,0,64);
+				zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
+				a_ptr += lda;
+				y_ptr[0] += ybuffer[0];
+				y_ptr[1] += ybuffer[1];
+				y_ptr  += inc_y;
+
+			}
 
 		}
-		a += 2* NB;
+		a += 2 * NB;
 		x += NB * inc_x;	
 	}
 
@@ -265,7 +357,6 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 	if ( m3 == 0 ) return(0);
 
         x_ptr = x;
-        copy_x(m3,x_ptr,xbuffer,inc_x);
         j=0;
         a_ptr = a;
         y_ptr = y;

From 44c11165d5146552fe091066b2db2d86d238a829 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 14:12:24 +0200
Subject: [PATCH 11/24] bugfix in cgemv_t_4.c

---
 kernel/x86_64/cgemv_t_4.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/kernel/x86_64/cgemv_t_4.c b/kernel/x86_64/cgemv_t_4.c
index f8a471ec3..208279842 100644
--- a/kernel/x86_64/cgemv_t_4.c
+++ b/kernel/x86_64/cgemv_t_4.c
@@ -36,7 +36,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #endif
 */
 
-#define NBMAX 1028
+#define NBMAX 2048
 
 #ifndef HAVE_KERNEL_4x4
 
@@ -313,7 +313,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 
 			for( i = 0; i < n1 ; i++)
 			{
-				memset(ybuffer,0,64);
+				memset(ybuffer,0,32);
 				zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
 				ap[0] += lda4;
 				ap[1] += lda4;
@@ -338,7 +338,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 
 			for( i = 0; i < n2 ; i++)
 			{
-				memset(ybuffer,0,64);
+				memset(ybuffer,0,32);
 				zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
 				a_ptr += lda;
 				y_ptr[0] += ybuffer[0];

From a0fb68ab42b4bc9259bba31e366dc2fc3de6d310 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 17:04:22 +0200
Subject: [PATCH 12/24] added optimized zgemv_t kernel for bulldozer

---
 kernel/x86_64/cgemv_t_4.c                  |   2 +-
 kernel/x86_64/zgemv_t_4.c                  |  10 +-
 kernel/x86_64/zgemv_t_microk_bulldozer-4.c | 223 +++++++++++++++++++++
 3 files changed, 229 insertions(+), 6 deletions(-)
 create mode 100644 kernel/x86_64/zgemv_t_microk_bulldozer-4.c

diff --git a/kernel/x86_64/cgemv_t_4.c b/kernel/x86_64/cgemv_t_4.c
index 208279842..513c585ec 100644
--- a/kernel/x86_64/cgemv_t_4.c
+++ b/kernel/x86_64/cgemv_t_4.c
@@ -247,7 +247,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 	
 	m3 = m & 3 ;
 	m1 = m - m3;
-	m2 = (m % (NBMAX-1)) - m3 ;
+	m2 = (m & (NBMAX-1)) - m3 ;
 	
 	alpha[0] = alpha_r;
 	alpha[1] = alpha_i;
diff --git a/kernel/x86_64/zgemv_t_4.c b/kernel/x86_64/zgemv_t_4.c
index f8a471ec3..a4c5fe76b 100644
--- a/kernel/x86_64/zgemv_t_4.c
+++ b/kernel/x86_64/zgemv_t_4.c
@@ -28,15 +28,15 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #include "common.h"
 
-/*
+
 #if defined(BULLDOZER) || defined(PILEDRIVER)
-#include "zgemv_t_microk_bulldozer-2.c"
+#include "zgemv_t_microk_bulldozer-4.c"
 #elif defined(HASWELL)
 #include "zgemv_t_microk_haswell-2.c"
 #endif
-*/
 
-#define NBMAX 1028
+
+#define NBMAX 1024
 
 #ifndef HAVE_KERNEL_4x4
 
@@ -247,7 +247,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 	
 	m3 = m & 3 ;
 	m1 = m - m3;
-	m2 = (m % (NBMAX-1)) - m3 ;
+	m2 = (m & (NBMAX-1)) - m3 ;
 	
 	alpha[0] = alpha_r;
 	alpha[1] = alpha_i;
diff --git a/kernel/x86_64/zgemv_t_microk_bulldozer-4.c b/kernel/x86_64/zgemv_t_microk_bulldozer-4.c
new file mode 100644
index 000000000..7d635317d
--- /dev/null
+++ b/kernel/x86_64/zgemv_t_microk_bulldozer-4.c
@@ -0,0 +1,223 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary froms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary from must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#define HAVE_KERNEL_4x4 1
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	if ( n < 4 ) return;
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorpd		%%xmm8 , %%xmm8 , %%xmm8 	\n\t" // temp
+	"vxorpd		%%xmm9 , %%xmm9 , %%xmm9 	\n\t" // temp
+	"vxorpd		%%xmm10, %%xmm10, %%xmm10	\n\t" // temp
+	"vxorpd		%%xmm11, %%xmm11, %%xmm11	\n\t" // temp
+	"vxorpd		%%xmm12, %%xmm12, %%xmm12	\n\t" // temp
+	"vxorpd		%%xmm13, %%xmm13, %%xmm13	\n\t"
+	"vxorpd		%%xmm14, %%xmm14, %%xmm14	\n\t"
+	"vxorpd		%%xmm15, %%xmm15, %%xmm15	\n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"prefetcht0  192(%4,%0,8)                       \n\t"
+	"vmovups	(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"prefetcht0  192(%5,%0,8)                       \n\t"
+	"vmovups	(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+	"prefetcht0  192(%6,%0,8)                       \n\t"
+	"vmovups	(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
+	"prefetcht0  192(%7,%0,8)                       \n\t"
+	"vmovups	(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 16(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 24(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vmovups      16(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      16(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+	"vmovups      16(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
+	"vmovups      16(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vmovups      32(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      32(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+	"vmovups      32(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
+	"vmovups      32(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 48(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 56(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vmovups      48(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      48(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+	"vmovups      48(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
+	"vmovups      48(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+	"vmovddup               (%8)  , %%xmm0                \n\t"  // value from alpha
+	"vmovddup	       8(%8)  , %%xmm1                \n\t"  // value from alpha
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
+        "vpermilpd      $0x1 , %%xmm13, %%xmm13               \n\t"
+        "vpermilpd      $0x1 , %%xmm15, %%xmm15               \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
+        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
+        "vaddsubpd      %%xmm13, %%xmm12, %%xmm12             \n\t"
+        "vaddsubpd      %%xmm15, %%xmm14, %%xmm14             \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vaddsubpd      %%xmm12, %%xmm13, %%xmm12             \n\t"
+        "vaddsubpd      %%xmm14, %%xmm15, %%xmm14             \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
+#endif
+
+	"vmulpd		%%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+	"vmulpd		%%xmm10, %%xmm1 , %%xmm11             \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm10, %%xmm0 , %%xmm10             \n\t"  // t_r * alpha_r , t_i * alpha_r
+	"vmulpd		%%xmm12, %%xmm1 , %%xmm13             \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm12, %%xmm0 , %%xmm12             \n\t"  // t_r * alpha_r , t_i * alpha_r
+	"vmulpd		%%xmm14, %%xmm1 , %%xmm15             \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm14, %%xmm0 , %%xmm14             \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ) 
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
+        "vpermilpd      $0x1 , %%xmm13, %%xmm13               \n\t"
+        "vpermilpd      $0x1 , %%xmm15, %%xmm15               \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
+        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
+        "vaddsubpd      %%xmm13, %%xmm12, %%xmm12             \n\t"
+        "vaddsubpd      %%xmm15, %%xmm14, %%xmm14             \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vaddsubpd      %%xmm12, %%xmm13, %%xmm12             \n\t"
+        "vaddsubpd      %%xmm14, %%xmm15, %%xmm14             \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
+#endif
+
+	"vaddpd           (%3) , %%xmm8 , %%xmm8              \n\t"
+	"vaddpd         16(%3) , %%xmm10, %%xmm10             \n\t"
+	"vaddpd         32(%3) , %%xmm12, %%xmm12             \n\t"
+	"vaddpd         48(%3) , %%xmm14, %%xmm14             \n\t"
+
+	"vmovups	%%xmm8 ,   (%3)			\n\t"
+	"vmovups	%%xmm10, 16(%3)			\n\t"
+	"vmovups	%%xmm12, 32(%3)			\n\t"
+	"vmovups	%%xmm14, 48(%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (ap[2]),  // 6
+          "r" (ap[3]),  // 7
+          "r" (alpha)   // 8
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+

From a8b0812feb9d388feb0f3a8499d2520ec4d77599 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 17:42:25 +0200
Subject: [PATCH 13/24] optimized zgemv_t for bulldozer

---
 kernel/x86_64/zgemv_t_microk_bulldozer-4.c | 238 ++++++++++++++++++++-
 1 file changed, 236 insertions(+), 2 deletions(-)

diff --git a/kernel/x86_64/zgemv_t_microk_bulldozer-4.c b/kernel/x86_64/zgemv_t_microk_bulldozer-4.c
index 7d635317d..006db226b 100644
--- a/kernel/x86_64/zgemv_t_microk_bulldozer-4.c
+++ b/kernel/x86_64/zgemv_t_microk_bulldozer-4.c
@@ -31,8 +31,6 @@ static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
 {
 
-	if ( n < 4 ) return;
-
 	BLASLONG register i = 0;
 
 	__asm__  __volatile__
@@ -220,4 +218,240 @@ static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 
 } 
 
+#define HAVE_KERNEL_4x2 1
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorpd		%%xmm8 , %%xmm8 , %%xmm8 	\n\t" // temp
+	"vxorpd		%%xmm9 , %%xmm9 , %%xmm9 	\n\t" // temp
+	"vxorpd		%%xmm10, %%xmm10, %%xmm10	\n\t" // temp
+	"vxorpd		%%xmm11, %%xmm11, %%xmm11	\n\t" // temp
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"prefetcht0  192(%4,%0,8)                       \n\t"
+	"vmovups	(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"prefetcht0  192(%5,%0,8)                       \n\t"
+	"vmovups	(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 16(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 24(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vmovups      16(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      16(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vmovups      32(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      32(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 48(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 56(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vmovups      48(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      48(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
+	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+	"vmovddup               (%6)  , %%xmm0                \n\t"  // value from alpha
+	"vmovddup	       8(%6)  , %%xmm1                \n\t"  // value from alpha
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
+        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+#endif
+
+	"vmulpd		%%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+	"vmulpd		%%xmm10, %%xmm1 , %%xmm11             \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm10, %%xmm0 , %%xmm10             \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ) 
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
+        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+#endif
+
+	"vaddpd           (%3) , %%xmm8 , %%xmm8              \n\t"
+	"vaddpd         16(%3) , %%xmm10, %%xmm10             \n\t"
+
+	"vmovups	%%xmm8 ,   (%3)			\n\t"
+	"vmovups	%%xmm10, 16(%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (alpha)   // 6
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+
+#define HAVE_KERNEL_4x1 1
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorpd		%%xmm8 , %%xmm8 , %%xmm8 	\n\t" // temp
+	"vxorpd		%%xmm9 , %%xmm9 , %%xmm9 	\n\t" // temp
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"prefetcht0  192(%4,%0,8)                       \n\t"
+	"vmovups	(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      16(%4,%0,8), %%xmm5	        \n\t" // 1 complex values from a0
+
+	"vmovddup	 16(%2,%0,8), %%xmm2            \n\t"  // real value from x0
+	"vmovddup	 24(%2,%0,8), %%xmm3            \n\t"  // imag value from x0
+
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+
+	"vfmaddpd   %%xmm8 ,   %%xmm5 , %%xmm2, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm5 , %%xmm3, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+
+	"vmovups      32(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
+	"vmovups      48(%4,%0,8), %%xmm5	        \n\t" // 1 complex values from a0
+
+	"vmovddup	 48(%2,%0,8), %%xmm2            \n\t"  // real value from x0
+	"vmovddup	 56(%2,%0,8), %%xmm3            \n\t"  // imag value from x0
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+
+	"subq	        $4 , %1			        \n\t"		
+	"vfmaddpd   %%xmm8 ,   %%xmm5 , %%xmm2, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
+	"vfmaddpd   %%xmm9 ,   %%xmm5 , %%xmm3, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
+
+	"jnz		.L01LOOP%=		        \n\t"
+
+	"vmovddup               (%5)  , %%xmm0                \n\t"  // value from alpha
+	"vmovddup	       8(%5)  , %%xmm1                \n\t"  // value from alpha
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+#endif
+
+	"vmulpd		%%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+	"vmulpd		%%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ) 
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+#endif
+
+	"vaddpd           (%3) , %%xmm8 , %%xmm8              \n\t"
+
+	"vmovups	%%xmm8 ,   (%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap),     // 4
+          "r" (alpha)   // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
 

From 0a1390f2d8064921fcd1286667d3f49262bc9f76 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 17:43:47 +0200
Subject: [PATCH 14/24] enabled optimized zgemv_t kernel for bulldozer

---
 kernel/x86_64/KERNEL.BULLDOZER | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/kernel/x86_64/KERNEL.BULLDOZER b/kernel/x86_64/KERNEL.BULLDOZER
index 0fd7ac35f..289529772 100644
--- a/kernel/x86_64/KERNEL.BULLDOZER
+++ b/kernel/x86_64/KERNEL.BULLDOZER
@@ -14,7 +14,7 @@ SGEMVNKERNEL = sgemv_n_4.c
 SGEMVTKERNEL = sgemv_t_4.c
 
 ZGEMVNKERNEL = zgemv_n_dup.S
-ZGEMVTKERNEL = zgemv_t.c
+ZGEMVTKERNEL = zgemv_t_4.c
 
 DGEMVNKERNEL = dgemv_n_bulldozer.S
 DGEMVTKERNEL = dgemv_t_bulldozer.S

From fd2478c9e2eeb2ec26eda6aec6a9293eb2f96151 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Fri, 12 Sep 2014 19:18:23 +0200
Subject: [PATCH 15/24] optimized interface/zgemv.c for multithreading

---
 interface/zgemv.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/interface/zgemv.c b/interface/zgemv.c
index 50513a8e4..704034aaf 100644
--- a/interface/zgemv.c
+++ b/interface/zgemv.c
@@ -238,7 +238,7 @@ void CNAME(enum CBLAS_ORDER order,
   int  nthreads_avail = nthreads_max;
 
   double MNK = (double) m * (double) n;
-  if ( MNK <= (80.0 * 20.0  * (double) GEMM_MULTITHREAD_THRESHOLD)  )
+  if ( MNK <= ( 256.0  * (double) (GEMM_MULTITHREAD_THRESHOLD * GEMM_MULTITHREAD_THRESHOLD)  ))
         nthreads_max = 1;
 
   if ( nthreads_max > nthreads_avail )

From 8a39cdb1c16940dfb3f1d0c28eb47828c27bb913 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 13 Sep 2014 09:47:07 +0200
Subject: [PATCH 16/24] added optimized zgemv_t kernel for haswell

---
 kernel/x86_64/KERNEL.PILEDRIVER          |   2 +-
 kernel/x86_64/zgemv_t_microk_haswell-4.c | 428 +++++++++++++++++++++++
 2 files changed, 429 insertions(+), 1 deletion(-)
 create mode 100644 kernel/x86_64/zgemv_t_microk_haswell-4.c

diff --git a/kernel/x86_64/KERNEL.PILEDRIVER b/kernel/x86_64/KERNEL.PILEDRIVER
index 4f15e5a36..fab34efd3 100644
--- a/kernel/x86_64/KERNEL.PILEDRIVER
+++ b/kernel/x86_64/KERNEL.PILEDRIVER
@@ -2,7 +2,7 @@ SGEMVNKERNEL = sgemv_n_4.c
 SGEMVTKERNEL = sgemv_t_4.c
 
 ZGEMVNKERNEL = zgemv_n_dup.S
-ZGEMVTKERNEL = zgemv_t.S
+ZGEMVTKERNEL = zgemv_t_4.S
 
 DGEMVNKERNEL = dgemv_n_bulldozer.S
 DGEMVTKERNEL = dgemv_t_bulldozer.S
diff --git a/kernel/x86_64/zgemv_t_microk_haswell-4.c b/kernel/x86_64/zgemv_t_microk_haswell-4.c
new file mode 100644
index 000000000..c87b5ce0f
--- /dev/null
+++ b/kernel/x86_64/zgemv_t_microk_haswell-4.c
@@ -0,0 +1,428 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary froms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary from must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#define HAVE_KERNEL_4x4 1
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorpd		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
+	"vxorpd		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
+	"vxorpd		%%ymm10, %%ymm10, %%ymm10	\n\t" // temp
+	"vxorpd		%%ymm11, %%ymm11, %%ymm11	\n\t" // temp
+	"vxorpd		%%ymm12, %%ymm12, %%ymm12	\n\t" // temp
+	"vxorpd		%%ymm13, %%ymm13, %%ymm13	\n\t"
+	"vxorpd		%%ymm14, %%ymm14, %%ymm14	\n\t"
+	"vxorpd		%%ymm15, %%ymm15, %%ymm15	\n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+        "prefetcht0      192(%2,%0,8)                   \n\t"
+	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
+        "prefetcht0      192(%4,%0,8)                   \n\t"
+	"vmovups	(%5,%0,8), %%ymm5               \n\t" // 2 complex values from a1
+	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+	"vmovups	(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
+        "prefetcht0      192(%5,%0,8)                   \n\t"
+	"vmovddup	 16(%2,%0,8), %%xmm2            \n\t"  // real value from x1
+        "prefetcht0      192(%6,%0,8)                   \n\t"
+	"vmovups	(%6,%0,8), %%ymm6	        \n\t" // 2 complex values from a2
+	"vmovddup	 24(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
+        "prefetcht0      192(%7,%0,8)                   \n\t"
+	"vmovups	(%7,%0,8), %%ymm7               \n\t" // 2 complex values from a3
+	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
+	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
+
+	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+	"vmovups       32(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
+	"vmovups       32(%5,%0,8), %%ymm5              \n\t" // 2 complex values from a1
+	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+	"vmovddup	 48(%2,%0,8), %%xmm2            \n\t"  // real value from x1
+	"vmovddup	 56(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
+	"vmovups       32(%6,%0,8), %%ymm6	        \n\t" // 2 complex values from a2
+	"vmovups       32(%7,%0,8), %%ymm7               \n\t" // 2 complex values from a3
+	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
+	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
+
+	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+        "vmovddup               (%8)  , %%xmm0                \n\t"  // value from alpha
+        "vmovddup              8(%8)  , %%xmm1                \n\t"  // value from alpha
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+        "vpermilpd      $0x5 , %%ymm11, %%ymm11               \n\t"
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm9 , %%ymm8, %%ymm8               \n\t" 
+        "vaddsubpd      %%ymm11, %%ymm10, %%ymm10             \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm12             \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm14             \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm10, %%ymm10               \n\t"
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm8 , %%ymm9 , %%ymm8              \n\t"
+        "vaddsubpd      %%ymm10, %%ymm11, %%ymm10             \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm12             \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm14             \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm10, %%ymm10               \n\t"
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+#endif
+
+	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
+	"vextractf128   $1, %%ymm10, %%xmm11	      	      \n\t"
+	"vextractf128   $1, %%ymm12, %%xmm13		      \n\t"
+	"vextractf128   $1, %%ymm14, %%xmm15		      \n\t"
+
+	"vaddpd		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+	"vaddpd		%%xmm10, %%xmm11, %%xmm10      \n\t"
+	"vaddpd		%%xmm12, %%xmm13, %%xmm12      \n\t"
+	"vaddpd		%%xmm14, %%xmm15, %%xmm14      \n\t"
+
+        "vmulpd         %%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulpd         %%xmm10, %%xmm1 , %%xmm11             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm10, %%xmm0 , %%xmm10             \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulpd         %%xmm12, %%xmm1 , %%xmm13             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm12, %%xmm0 , %%xmm12             \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulpd         %%xmm14, %%xmm1 , %%xmm15             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm14, %%xmm0 , %%xmm14             \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ) 
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
+        "vpermilpd      $0x1 , %%xmm13, %%xmm13               \n\t"
+        "vpermilpd      $0x1 , %%xmm15, %%xmm15               \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t"
+        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
+        "vaddsubpd      %%xmm13, %%xmm12, %%xmm12             \n\t"
+        "vaddsubpd      %%xmm15, %%xmm14, %%xmm14             \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vaddsubpd      %%xmm12, %%xmm13, %%xmm12             \n\t"
+        "vaddsubpd      %%xmm14, %%xmm15, %%xmm14             \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
+#endif
+
+        "vaddpd           (%3) , %%xmm8 , %%xmm8              \n\t"
+        "vaddpd         16(%3) , %%xmm10, %%xmm10             \n\t"
+        "vaddpd         32(%3) , %%xmm12, %%xmm12             \n\t"
+        "vaddpd         48(%3) , %%xmm14, %%xmm14             \n\t"
+
+	"vmovups	%%xmm8 ,   (%3)			\n\t"
+	"vmovups	%%xmm10, 16(%3)			\n\t"
+	"vmovups	%%xmm12, 32(%3)			\n\t"
+	"vmovups	%%xmm14, 48(%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (ap[2]),  // 6
+          "r" (ap[3]),  // 7
+          "r" (alpha)   // 8
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_4x2 1
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorpd		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
+	"vxorpd		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
+	"vxorpd		%%ymm10, %%ymm10, %%ymm10	\n\t" // temp
+	"vxorpd		%%ymm11, %%ymm11, %%ymm11	\n\t" // temp
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+        "prefetcht0      192(%2,%0,8)                   \n\t"
+	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
+        "prefetcht0      192(%4,%0,8)                   \n\t"
+	"vmovups	(%5,%0,8), %%ymm5               \n\t" // 2 complex values from a1
+	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+	"vmovups	(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
+        "prefetcht0      192(%5,%0,8)                   \n\t"
+	"vmovddup	 16(%2,%0,8), %%xmm2            \n\t"  // real value from x1
+	"vmovddup	 24(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
+	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
+	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
+
+	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+	"vmovups       32(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
+	"vmovups       32(%5,%0,8), %%ymm5              \n\t" // 2 complex values from a1
+	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+	"vmovddup	 48(%2,%0,8), %%xmm2            \n\t"  // real value from x1
+	"vmovddup	 56(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
+	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
+	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
+
+	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231pd      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+        "vmovddup               (%6)  , %%xmm0                \n\t"  // value from alpha
+        "vmovddup              8(%6)  , %%xmm1                \n\t"  // value from alpha
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+        "vpermilpd      $0x5 , %%ymm11, %%ymm11               \n\t"
+        "vaddsubpd      %%ymm9 , %%ymm8, %%ymm8               \n\t" 
+        "vaddsubpd      %%ymm11, %%ymm10, %%ymm10             \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm10, %%ymm10               \n\t"
+        "vaddsubpd      %%ymm8 , %%ymm9 , %%ymm8              \n\t"
+        "vaddsubpd      %%ymm10, %%ymm11, %%ymm10             \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm10, %%ymm10               \n\t"
+#endif
+
+	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
+	"vextractf128   $1, %%ymm10, %%xmm11	      	      \n\t"
+
+	"vaddpd		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+	"vaddpd		%%xmm10, %%xmm11, %%xmm10      \n\t"
+
+        "vmulpd         %%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulpd         %%xmm10, %%xmm1 , %%xmm11             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm10, %%xmm0 , %%xmm10             \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ) 
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t"
+        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
+#endif
+
+        "vaddpd           (%3) , %%xmm8 , %%xmm8              \n\t"
+        "vaddpd         16(%3) , %%xmm10, %%xmm10             \n\t"
+
+	"vmovups	%%xmm8 ,   (%3)			\n\t"
+	"vmovups	%%xmm10, 16(%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (alpha)   // 6
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+#define HAVE_KERNEL_4x1 1
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorpd		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
+	"vxorpd		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+        "prefetcht0      192(%2,%0,8)                   \n\t"
+	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
+        "prefetcht0      192(%4,%0,8)                   \n\t"
+	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+	"vmovups	(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
+	"vmovddup	 16(%2,%0,8), %%xmm2            \n\t"  // real value from x1
+	"vmovddup	 24(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
+	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
+	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
+
+	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+	"vmovups       32(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
+	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
+	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
+	"vmovddup	 48(%2,%0,8), %%xmm2            \n\t"  // real value from x1
+	"vmovddup	 56(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
+	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
+	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
+
+	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+        "vmovddup               (%5)  , %%xmm0                \n\t"  // value from alpha
+        "vmovddup              8(%5)  , %%xmm1                \n\t"  // value from alpha
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+        "vaddsubpd      %%ymm9 , %%ymm8, %%ymm8               \n\t" 
+#else
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vaddsubpd      %%ymm8 , %%ymm9 , %%ymm8              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+#endif
+
+	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
+
+	"vaddpd		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+
+        "vmulpd         %%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulpd         %%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ) 
+        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
+        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t"
+#else
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
+#endif
+
+        "vaddpd           (%3) , %%xmm8 , %%xmm8              \n\t"
+
+	"vmovups	%%xmm8 ,   (%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap),     // 4
+          "r" (alpha)   // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+

From 5194818d4b1a2dc7d5a4768eadecb0f6c29432ec Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 13 Sep 2014 09:48:34 +0200
Subject: [PATCH 17/24] updated zgemv_t_4.c

---
 kernel/x86_64/zgemv_t_4.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/kernel/x86_64/zgemv_t_4.c b/kernel/x86_64/zgemv_t_4.c
index a4c5fe76b..84cf4e2e8 100644
--- a/kernel/x86_64/zgemv_t_4.c
+++ b/kernel/x86_64/zgemv_t_4.c
@@ -32,7 +32,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #if defined(BULLDOZER) || defined(PILEDRIVER)
 #include "zgemv_t_microk_bulldozer-4.c"
 #elif defined(HASWELL)
-#include "zgemv_t_microk_haswell-2.c"
+#include "zgemv_t_microk_haswell-4.c"
 #endif
 
 

From 1a352b24e64b403a39f7a376cb014da97e287c30 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 13 Sep 2014 12:23:27 +0200
Subject: [PATCH 18/24] updated KERNEL.HASWELL

---
 kernel/x86_64/KERNEL.HASWELL | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/kernel/x86_64/KERNEL.HASWELL b/kernel/x86_64/KERNEL.HASWELL
index fc4a4c7f8..6e7d71e51 100644
--- a/kernel/x86_64/KERNEL.HASWELL
+++ b/kernel/x86_64/KERNEL.HASWELL
@@ -5,7 +5,7 @@ DGEMVNKERNEL = dgemv_n_4.c
 DGEMVTKERNEL = dgemv_t_4.c
 
 ZGEMVNKERNEL = zgemv_n_4.c
-ZGEMVTKERNEL = zgemv_t.c
+ZGEMVTKERNEL = zgemv_t_4.c
 
 CGEMVNKERNEL = cgemv_n_4.c
 CGEMVTKERNEL = cgemv_t.c

From 53b5726b0495dfe443260c050fc817f39e7f52ea Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 13 Sep 2014 15:14:12 +0200
Subject: [PATCH 19/24] added optimized cgemv_t kernel for haswell

---
 kernel/x86_64/cgemv_t_4.c                |  24 +--
 kernel/x86_64/cgemv_t_microk_haswell-4.c | 253 +++++++++++++++++++++++
 2 files changed, 263 insertions(+), 14 deletions(-)
 create mode 100644 kernel/x86_64/cgemv_t_microk_haswell-4.c

diff --git a/kernel/x86_64/cgemv_t_4.c b/kernel/x86_64/cgemv_t_4.c
index 513c585ec..b383a4869 100644
--- a/kernel/x86_64/cgemv_t_4.c
+++ b/kernel/x86_64/cgemv_t_4.c
@@ -28,19 +28,15 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #include "common.h"
 
-/*
-#if defined(BULLDOZER) || defined(PILEDRIVER)
-#include "zgemv_t_microk_bulldozer-2.c"
-#elif defined(HASWELL)
-#include "zgemv_t_microk_haswell-2.c"
+#if defined(HASWELL)
+#include "cgemv_t_microk_haswell-4.c"
 #endif
-*/
 
 #define NBMAX 2048
 
 #ifndef HAVE_KERNEL_4x4
 
-static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+static void cgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
 {
 	BLASLONG i;
 	FLOAT *a0,*a1,*a2,*a3;
@@ -112,7 +108,7 @@ static void zgemv_kernel_4x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *
 
 #ifndef HAVE_KERNEL_4x2
 
-static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+static void cgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
 {
 	BLASLONG i;
 	FLOAT *a0,*a1;
@@ -163,7 +159,7 @@ static void zgemv_kernel_4x2(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *
 
 #ifndef HAVE_KERNEL_4x1
 
-static void zgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+static void cgemv_kernel_4x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
 {
 	BLASLONG i;
 	FLOAT *a0;
@@ -281,7 +277,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 
 			for( i = 0; i < n1 ; i++)
 			{
-				zgemv_kernel_4x4(NB,ap,xbuffer,y_ptr,alpha);
+				cgemv_kernel_4x4(NB,ap,xbuffer,y_ptr,alpha);
 				ap[0] += lda4;
 				ap[1] += lda4;
 				ap[2] += lda4;
@@ -293,7 +289,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 
 			if ( n2 & 2 )
 			{
-				zgemv_kernel_4x2(NB,ap,xbuffer,y_ptr,alpha);
+				cgemv_kernel_4x2(NB,ap,xbuffer,y_ptr,alpha);
 				a_ptr += lda * 2;
 				y_ptr += 4;
 
@@ -301,7 +297,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 
 			if ( n2 & 1 )
 			{
-				zgemv_kernel_4x1(NB,a_ptr,xbuffer,y_ptr,alpha);
+				cgemv_kernel_4x1(NB,a_ptr,xbuffer,y_ptr,alpha);
 				a_ptr += lda;
 				y_ptr += 2;
 
@@ -314,7 +310,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 			for( i = 0; i < n1 ; i++)
 			{
 				memset(ybuffer,0,32);
-				zgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
+				cgemv_kernel_4x4(NB,ap,xbuffer,ybuffer,alpha);
 				ap[0] += lda4;
 				ap[1] += lda4;
 				ap[2] += lda4;
@@ -339,7 +335,7 @@ int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i,
 			for( i = 0; i < n2 ; i++)
 			{
 				memset(ybuffer,0,32);
-				zgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
+				cgemv_kernel_4x1(NB,a_ptr,xbuffer,ybuffer,alpha);
 				a_ptr += lda;
 				y_ptr[0] += ybuffer[0];
 				y_ptr[1] += ybuffer[1];
diff --git a/kernel/x86_64/cgemv_t_microk_haswell-4.c b/kernel/x86_64/cgemv_t_microk_haswell-4.c
new file mode 100644
index 000000000..e0e876edd
--- /dev/null
+++ b/kernel/x86_64/cgemv_t_microk_haswell-4.c
@@ -0,0 +1,253 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary froms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary from must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#define HAVE_KERNEL_4x4 1
+static void cgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void cgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorps		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
+	"vxorps		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
+	"vxorps		%%ymm10, %%ymm10, %%ymm10	\n\t" // temp
+	"vxorps		%%ymm11, %%ymm11, %%ymm11	\n\t" // temp
+	"vxorps		%%ymm12, %%ymm12, %%ymm12	\n\t" // temp
+	"vxorps		%%ymm13, %%ymm13, %%ymm13	\n\t"
+	"vxorps		%%ymm14, %%ymm14, %%ymm14	\n\t"
+	"vxorps		%%ymm15, %%ymm15, %%ymm15	\n\t"
+
+        "testq          $0x04, %1                      \n\t"
+        "jz             .L08LABEL%=                    \n\t"
+
+	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+	"vmovups	(%5,%0,4), %%ymm5               \n\t" // 4 complex values from a1
+
+	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+	
+	"vmovups	(%6,%0,4), %%ymm6	        \n\t" // 4 complex values from a2
+	"vmovups	(%7,%0,4), %%ymm7               \n\t" // 4 complex values from a3
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	
+        "addq		$8  , %0	  	 	        \n\t"
+	"subq	        $4  , %1			        \n\t"		
+
+        ".L08LABEL%=:                                  \n\t"
+	"cmpq           $0, %1                         \n\t"
+        "je             .L08END%=                      \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+        "prefetcht0      192(%4,%0,4)                   \n\t"
+	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+        "prefetcht0      192(%5,%0,4)                   \n\t"
+	"vmovups	(%5,%0,4), %%ymm5               \n\t" // 4 complex values from a1
+
+        "prefetcht0      192(%2,%0,4)                   \n\t"
+	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+	
+        "prefetcht0      192(%6,%0,4)                   \n\t"
+	"vmovups	(%6,%0,4), %%ymm6	        \n\t" // 4 complex values from a2
+        "prefetcht0      192(%7,%0,4)                   \n\t"
+	"vmovups	(%7,%0,4), %%ymm7               \n\t" // 4 complex values from a3
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+	"vmovups       32(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+	"vmovups       32(%5,%0,4), %%ymm5              \n\t" // 4 complex values from a1
+
+	"vmovups	  32(%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+
+	"vmovups       32(%6,%0,4), %%ymm6	        \n\t" // 4 complex values from a2
+	"vmovups       32(%7,%0,4), %%ymm7              \n\t" // 4 complex values from a3
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+        "addq		$16 , %0	  	 	        \n\t"
+	"subq	        $8  , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+        ".L08END%=:                                   \n\t"
+
+        "vbroadcastss    (%8)  , %%xmm0                \n\t"  // value from alpha
+        "vbroadcastss   4(%8)  , %%xmm1                \n\t"  // value from alpha
+
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+        "vpermilps      $0xb1 , %%ymm11, %%ymm11               \n\t"
+        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
+        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubps      %%ymm9 , %%ymm8, %%ymm8                \n\t" 
+        "vaddsubps      %%ymm11, %%ymm10, %%ymm10              \n\t"
+        "vaddsubps      %%ymm13, %%ymm12, %%ymm12              \n\t"
+        "vaddsubps      %%ymm15, %%ymm14, %%ymm14              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm10, %%ymm10               \n\t"
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubps      %%ymm8 , %%ymm9 , %%ymm8               \n\t"
+        "vaddsubps      %%ymm10, %%ymm11, %%ymm10              \n\t"
+        "vaddsubps      %%ymm12, %%ymm13, %%ymm12              \n\t"
+        "vaddsubps      %%ymm14, %%ymm15, %%ymm14              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm10, %%ymm10               \n\t"
+        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
+        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
+#endif
+
+	"vmovsd         (%3), %%xmm4			\n\t" // read y
+	"vmovsd        8(%3), %%xmm5			\n\t"
+	"vmovsd       16(%3), %%xmm6			\n\t"
+	"vmovsd       24(%3), %%xmm7			\n\t"
+
+	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
+	"vextractf128   $1, %%ymm10, %%xmm11	      	      \n\t"
+	"vextractf128   $1, %%ymm12, %%xmm13		      \n\t"
+	"vextractf128   $1, %%ymm14, %%xmm15		      \n\t"
+
+	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+	"vaddps		%%xmm10, %%xmm11, %%xmm10      \n\t"
+	"vaddps		%%xmm12, %%xmm13, %%xmm12      \n\t"
+	"vaddps		%%xmm14, %%xmm15, %%xmm14      \n\t"
+
+	"vshufpd        $0x1, %%xmm8 , %%xmm8 , %%xmm9   \n\t"
+	"vshufpd        $0x1, %%xmm10, %%xmm10, %%xmm11  \n\t"
+	"vshufpd        $0x1, %%xmm12, %%xmm12, %%xmm13  \n\t"
+	"vshufpd        $0x1, %%xmm14, %%xmm14, %%xmm15  \n\t"
+
+	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+	"vaddps		%%xmm10, %%xmm11, %%xmm10      \n\t"
+	"vaddps		%%xmm12, %%xmm13, %%xmm12      \n\t"
+	"vaddps		%%xmm14, %%xmm15, %%xmm14      \n\t"
+
+
+        "vmulps         %%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulps         %%xmm10, %%xmm1 , %%xmm11             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm10, %%xmm0 , %%xmm10             \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulps         %%xmm12, %%xmm1 , %%xmm13             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm12, %%xmm0 , %%xmm12             \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulps         %%xmm14, %%xmm1 , %%xmm15             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm14, %%xmm0 , %%xmm14             \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ)
+        "vpermilps      $0xb1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilps      $0xb1 , %%xmm11, %%xmm11               \n\t"
+        "vpermilps      $0xb1 , %%xmm13, %%xmm13               \n\t"
+        "vpermilps      $0xb1 , %%xmm15, %%xmm15               \n\t"
+        "vaddsubps      %%xmm9 , %%xmm8, %%xmm8               \n\t"
+        "vaddsubps      %%xmm11, %%xmm10, %%xmm10             \n\t"
+        "vaddsubps      %%xmm13, %%xmm12, %%xmm12             \n\t"
+        "vaddsubps      %%xmm15, %%xmm14, %%xmm14             \n\t"
+#else
+        "vpermilps      $0xb1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilps      $0xb1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilps      $0xb1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilps      $0xb1 , %%xmm14, %%xmm14               \n\t"
+        "vaddsubps      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubps      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vaddsubps      %%xmm12, %%xmm13, %%xmm12             \n\t"
+        "vaddsubps      %%xmm14, %%xmm15, %%xmm14             \n\t"
+        "vpermilps      $0xb1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilps      $0xb1 , %%xmm10, %%xmm10               \n\t"
+        "vpermilps      $0xb1 , %%xmm12, %%xmm12               \n\t"
+        "vpermilps      $0xb1 , %%xmm14, %%xmm14               \n\t"
+#endif
+
+
+	"vaddps		%%xmm8 , %%xmm4 , %%xmm8       \n\t"
+	"vaddps		%%xmm10, %%xmm5 , %%xmm10      \n\t"
+	"vaddps		%%xmm12, %%xmm6 , %%xmm12      \n\t"
+	"vaddps		%%xmm14, %%xmm7 , %%xmm14      \n\t"
+
+	"vmovsd	%%xmm8 ,   (%3)			\n\t"
+	"vmovsd	%%xmm10,  8(%3)			\n\t"
+	"vmovsd	%%xmm12, 16(%3)			\n\t"
+	"vmovsd	%%xmm14, 24(%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (ap[2]),  // 6
+          "r" (ap[3]),  // 7
+          "r" (alpha)   // 8
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+

From 8f100a14f2a00ce33e407308d39b36fecdeafd8f Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 13 Sep 2014 16:13:27 +0200
Subject: [PATCH 20/24] optimized cgemv_t kernel for haswell

---
 kernel/x86_64/KERNEL.HASWELL             |   2 +-
 kernel/x86_64/cgemv_t_microk_haswell-4.c | 286 +++++++++++++++++++++++
 2 files changed, 287 insertions(+), 1 deletion(-)

diff --git a/kernel/x86_64/KERNEL.HASWELL b/kernel/x86_64/KERNEL.HASWELL
index 6e7d71e51..a621b4484 100644
--- a/kernel/x86_64/KERNEL.HASWELL
+++ b/kernel/x86_64/KERNEL.HASWELL
@@ -8,7 +8,7 @@ ZGEMVNKERNEL = zgemv_n_4.c
 ZGEMVTKERNEL = zgemv_t_4.c
 
 CGEMVNKERNEL = cgemv_n_4.c
-CGEMVTKERNEL = cgemv_t.c
+CGEMVTKERNEL = cgemv_t_4.c
 
 SGEMMKERNEL    =  sgemm_kernel_16x4_haswell.S
 SGEMMINCOPY    =  ../generic/gemm_ncopy_16.c
diff --git a/kernel/x86_64/cgemv_t_microk_haswell-4.c b/kernel/x86_64/cgemv_t_microk_haswell-4.c
index e0e876edd..2c506c9e9 100644
--- a/kernel/x86_64/cgemv_t_microk_haswell-4.c
+++ b/kernel/x86_64/cgemv_t_microk_haswell-4.c
@@ -251,3 +251,289 @@ static void cgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT
 } 
 
 
+#define HAVE_KERNEL_4x2 1
+static void cgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void cgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorps		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
+	"vxorps		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
+	"vxorps		%%ymm10, %%ymm10, %%ymm10	\n\t" // temp
+	"vxorps		%%ymm11, %%ymm11, %%ymm11	\n\t" // temp
+
+        "testq          $0x04, %1                      \n\t"
+        "jz             .L08LABEL%=                    \n\t"
+
+	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+	"vmovups	(%5,%0,4), %%ymm5               \n\t" // 4 complex values from a1
+
+	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+	
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	
+        "addq		$8  , %0	  	 	        \n\t"
+	"subq	        $4  , %1			        \n\t"		
+
+        ".L08LABEL%=:                                  \n\t"
+	"cmpq           $0, %1                         \n\t"
+        "je             .L08END%=                      \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+        "prefetcht0      192(%4,%0,4)                   \n\t"
+	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+        "prefetcht0      192(%5,%0,4)                   \n\t"
+	"vmovups	(%5,%0,4), %%ymm5               \n\t" // 4 complex values from a1
+
+        "prefetcht0      192(%2,%0,4)                   \n\t"
+	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+	
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+	"vmovups       32(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+	"vmovups       32(%5,%0,4), %%ymm5              \n\t" // 4 complex values from a1
+
+	"vmovups	  32(%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+        "addq		$16 , %0	  	 	        \n\t"
+	"subq	        $8  , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+        ".L08END%=:                                   \n\t"
+
+        "vbroadcastss    (%6)  , %%xmm0                \n\t"  // value from alpha
+        "vbroadcastss   4(%6)  , %%xmm1                \n\t"  // value from alpha
+
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+        "vpermilps      $0xb1 , %%ymm11, %%ymm11               \n\t"
+        "vaddsubps      %%ymm9 , %%ymm8, %%ymm8                \n\t" 
+        "vaddsubps      %%ymm11, %%ymm10, %%ymm10              \n\t"
+#else
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm10, %%ymm10               \n\t"
+        "vaddsubps      %%ymm8 , %%ymm9 , %%ymm8               \n\t"
+        "vaddsubps      %%ymm10, %%ymm11, %%ymm10              \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilps      $0xb1 , %%ymm10, %%ymm10               \n\t"
+#endif
+
+	"vmovsd         (%3), %%xmm4			\n\t" // read y
+	"vmovsd        8(%3), %%xmm5			\n\t"
+
+	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
+	"vextractf128   $1, %%ymm10, %%xmm11	      	      \n\t"
+
+	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+	"vaddps		%%xmm10, %%xmm11, %%xmm10      \n\t"
+
+	"vshufpd        $0x1, %%xmm8 , %%xmm8 , %%xmm9   \n\t"
+	"vshufpd        $0x1, %%xmm10, %%xmm10, %%xmm11  \n\t"
+
+	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+	"vaddps		%%xmm10, %%xmm11, %%xmm10      \n\t"
+
+        "vmulps         %%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+        "vmulps         %%xmm10, %%xmm1 , %%xmm11             \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm10, %%xmm0 , %%xmm10             \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ)
+        "vpermilps      $0xb1 , %%xmm9 , %%xmm9                \n\t"
+        "vpermilps      $0xb1 , %%xmm11, %%xmm11               \n\t"
+        "vaddsubps      %%xmm9 , %%xmm8, %%xmm8               \n\t"
+        "vaddsubps      %%xmm11, %%xmm10, %%xmm10             \n\t"
+#else
+        "vpermilps      $0xb1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilps      $0xb1 , %%xmm10, %%xmm10               \n\t"
+        "vaddsubps      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vaddsubps      %%xmm10, %%xmm11, %%xmm10             \n\t"
+        "vpermilps      $0xb1 , %%xmm8 , %%xmm8                \n\t"
+        "vpermilps      $0xb1 , %%xmm10, %%xmm10               \n\t"
+#endif
+
+
+	"vaddps		%%xmm8 , %%xmm4 , %%xmm8       \n\t"
+	"vaddps		%%xmm10, %%xmm5 , %%xmm10      \n\t"
+
+	"vmovsd	%%xmm8 ,   (%3)			\n\t"
+	"vmovsd	%%xmm10,  8(%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (alpha)   // 6
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_4x1 1
+static void cgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha) __attribute__ ((noinline));
+
+static void cgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y, FLOAT *alpha)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vxorps		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
+	"vxorps		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
+
+        "testq          $0x04, %1                      \n\t"
+        "jz             .L08LABEL%=                    \n\t"
+
+	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+
+	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+	
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+	
+        "addq		$8  , %0	  	 	        \n\t"
+	"subq	        $4  , %1			        \n\t"		
+
+        ".L08LABEL%=:                                  \n\t"
+	"cmpq           $0, %1                         \n\t"
+        "je             .L08END%=                      \n\t"
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+        "prefetcht0      192(%4,%0,4)                   \n\t"
+	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+
+        "prefetcht0      192(%2,%0,4)                   \n\t"
+	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+	
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+	"vmovups       32(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
+
+	"vmovups	  32(%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
+	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
+	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
+	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
+
+	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
+	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
+
+        "addq		$16 , %0	  	 	        \n\t"
+	"subq	        $8  , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+
+        ".L08END%=:                                   \n\t"
+
+        "vbroadcastss    (%5)  , %%xmm0                \n\t"  // value from alpha
+        "vbroadcastss   4(%5)  , %%xmm1                \n\t"  // value from alpha
+
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
+        "vaddsubps      %%ymm9 , %%ymm8, %%ymm8                \n\t" 
+#else
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+        "vaddsubps      %%ymm8 , %%ymm9 , %%ymm8               \n\t"
+        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
+#endif
+
+	"vmovsd         (%3), %%xmm4			\n\t" // read y
+
+	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
+
+	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+
+	"vshufpd        $0x1, %%xmm8 , %%xmm8 , %%xmm9   \n\t"
+
+	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
+
+        "vmulps         %%xmm8 , %%xmm1 , %%xmm9              \n\t"  // t_r * alpha_i , t_i * alpha_i
+        "vmulps         %%xmm8 , %%xmm0 , %%xmm8              \n\t"  // t_r * alpha_r , t_i * alpha_r
+
+#if !defined(XCONJ)
+        "vpermilps      $0xb1 , %%xmm9 , %%xmm9                \n\t"
+        "vaddsubps      %%xmm9 , %%xmm8, %%xmm8               \n\t"
+#else
+        "vpermilps      $0xb1 , %%xmm8 , %%xmm8                \n\t"
+        "vaddsubps      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
+        "vpermilps      $0xb1 , %%xmm8 , %%xmm8                \n\t"
+#endif
+
+
+	"vaddps		%%xmm8 , %%xmm4 , %%xmm8       \n\t"
+
+	"vmovsd	%%xmm8 ,   (%3)			\n\t"
+
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap),     // 4
+          "r" (alpha)   // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+

From 9908b6031cf3b95f61ec377e6969b6328fbd655f Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 13 Sep 2014 16:26:53 +0200
Subject: [PATCH 21/24] bugfix in KERNEL.PILEDRIVER

---
 kernel/x86_64/KERNEL.PILEDRIVER | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/kernel/x86_64/KERNEL.PILEDRIVER b/kernel/x86_64/KERNEL.PILEDRIVER
index fab34efd3..55285e3d3 100644
--- a/kernel/x86_64/KERNEL.PILEDRIVER
+++ b/kernel/x86_64/KERNEL.PILEDRIVER
@@ -2,10 +2,11 @@ SGEMVNKERNEL = sgemv_n_4.c
 SGEMVTKERNEL = sgemv_t_4.c
 
 ZGEMVNKERNEL = zgemv_n_dup.S
-ZGEMVTKERNEL = zgemv_t_4.S
+ZGEMVTKERNEL = zgemv_t_4.c
 
 DGEMVNKERNEL = dgemv_n_bulldozer.S
 DGEMVTKERNEL = dgemv_t_bulldozer.S
+
 DDOTKERNEL   = ddot_bulldozer.S
 DCOPYKERNEL  = dcopy_bulldozer.S
 

From 2ac1e076c1060300f4448d767c0796af418f6e12 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 14 Sep 2014 09:02:05 +0200
Subject: [PATCH 22/24] added optimized zgemv_n kernel for sandybridge

---
 kernel/x86_64/KERNEL.SANDYBRIDGE       |   2 +-
 kernel/x86_64/zgemv_n_4.c              |   2 +
 kernel/x86_64/zgemv_n_microk_sandy-4.c | 417 +++++++++++++++++++++++++
 3 files changed, 420 insertions(+), 1 deletion(-)
 create mode 100644 kernel/x86_64/zgemv_n_microk_sandy-4.c

diff --git a/kernel/x86_64/KERNEL.SANDYBRIDGE b/kernel/x86_64/KERNEL.SANDYBRIDGE
index dfc2882aa..61e13a116 100644
--- a/kernel/x86_64/KERNEL.SANDYBRIDGE
+++ b/kernel/x86_64/KERNEL.SANDYBRIDGE
@@ -1,7 +1,7 @@
 SGEMVNKERNEL = sgemv_n_4.c
 SGEMVTKERNEL = sgemv_t_4.c
 
-ZGEMVNKERNEL = zgemv_n.c
+ZGEMVNKERNEL = zgemv_n_4.c
 
 
 SGEMMKERNEL    =  sgemm_kernel_16x4_sandy.S
diff --git a/kernel/x86_64/zgemv_n_4.c b/kernel/x86_64/zgemv_n_4.c
index c9b5b570e..5ace6123b 100644
--- a/kernel/x86_64/zgemv_n_4.c
+++ b/kernel/x86_64/zgemv_n_4.c
@@ -32,6 +32,8 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #if defined(HASWELL)
 #include "zgemv_n_microk_haswell-4.c"
+#elif defined(SANDYBRIDGE)
+#include "zgemv_n_microk_sandy-4.c"
 #endif
 
 
diff --git a/kernel/x86_64/zgemv_n_microk_sandy-4.c b/kernel/x86_64/zgemv_n_microk_sandy-4.c
new file mode 100644
index 000000000..5567bae2b
--- /dev/null
+++ b/kernel/x86_64/zgemv_n_microk_sandy-4.c
@@ -0,0 +1,417 @@
+/***************************************************************************
+Copyright (c) 2014, The OpenBLAS Project
+All rights reserved.
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are
+met:
+1. Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+2. Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in
+the documentation and/or other materials provided with the
+distribution.
+3. Neither the name of the OpenBLAS project nor the names of
+its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
+AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
+IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
+ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
+LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
+DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
+SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
+OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
+USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*****************************************************************************/
+
+#define HAVE_KERNEL_4x4 1
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
+	"vbroadcastsd	16(%2), %%ymm2                  \n\t"  // real part x1
+	"vbroadcastsd	24(%2), %%ymm3                  \n\t"  // imag part x1
+	"vbroadcastsd	32(%2), %%ymm4                  \n\t"  // real part x2
+	"vbroadcastsd	40(%2), %%ymm5                  \n\t"  // imag part x2
+	"vbroadcastsd	48(%2), %%ymm6                  \n\t"  // real part x3
+	"vbroadcastsd	56(%2), %%ymm7                  \n\t"  // imag part x3
+
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+        "prefetcht0      256(%4,%0,8)                   \n\t"
+	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm1 , %%ymm13	\n\t"
+        "prefetcht0      256(%5,%0,8)                   \n\t"
+	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
+	"vmovups	(%5,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
+	"vmovups      32(%5,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"vmulpd		  %%ymm8 , %%ymm2 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
+        "prefetcht0      256(%6,%0,8)                   \n\t"
+	"vmulpd		  %%ymm9 , %%ymm2 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
+	"vmovups	(%6,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmulpd		  %%ymm9 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
+
+	"vmovups      32(%6,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"vmulpd		  %%ymm8 , %%ymm4 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm5 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
+        "prefetcht0      256(%7,%0,8)                   \n\t"
+	"vmulpd		  %%ymm9 , %%ymm4 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
+	"vmovups	(%7,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmulpd		  %%ymm9 , %%ymm5 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
+
+	"vmovups      32(%7,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"vmulpd		  %%ymm8 , %%ymm6 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm7 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
+	"vmulpd		  %%ymm9 , %%ymm6 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
+	"vmulpd		  %%ymm9 , %%ymm7 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
+
+	"prefetcht0      256(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1]),  // 5
+          "r" (ap[2]),  // 6
+          "r" (ap[3])   // 7
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_4x2 1
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
+	"vbroadcastsd	16(%2), %%ymm2                  \n\t"  // real part x1
+	"vbroadcastsd	24(%2), %%ymm3                  \n\t"  // imag part x1
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+        "prefetcht0      256(%4,%0,8)                   \n\t"
+	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm1 , %%ymm13	\n\t"
+
+        "prefetcht0      256(%5,%0,8)                   \n\t"
+	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
+	"vmovups	(%5,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
+	"vmovups      32(%5,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+
+	"vmulpd		  %%ymm8 , %%ymm2 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
+
+	"vmulpd		  %%ymm9 , %%ymm2 , %%ymm10	\n\t"
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
+	"vmulpd		  %%ymm9 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
+
+	
+	"prefetcht0      256(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap[0]),  // 4
+          "r" (ap[1])   // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+#define HAVE_KERNEL_4x1 1
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
+
+static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
+{
+
+	BLASLONG register i = 0;
+
+	__asm__  __volatile__
+	(
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
+	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+
+        "prefetcht0      256(%4,%0,8)                   \n\t"
+	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm1 , %%ymm13	\n\t"
+
+	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
+	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
+
+	"prefetcht0      256(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	// 0	
+	  "r" (n),  	// 1
+          "r" (x),      // 2
+          "r" (y),      // 3
+          "r" (ap)      // 4
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+} 
+
+
+
+#define HAVE_KERNEL_ADDY 1
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)  __attribute__ ((noinline));
+
+static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
+{
+	BLASLONG i;
+
+	if ( inc_dest != 2 )
+	{
+
+		FLOAT temp_r;
+		FLOAT temp_i;
+		for ( i=0; i<n; i++ )
+		{
+#if !defined(XCONJ) 
+			temp_r = alpha_r * src[0] - alpha_i * src[1];
+			temp_i = alpha_r * src[1] + alpha_i * src[0];
+#else
+			temp_r =  alpha_r * src[0] + alpha_i * src[1];
+			temp_i = -alpha_r * src[1] + alpha_i * src[0];
+#endif
+
+			*dest += temp_r;
+			*(dest+1) += temp_i;
+
+			src+=2;
+			dest += inc_dest;
+		}
+		return;
+	}
+
+	i=0;
+
+	__asm__  __volatile__
+	(
+
+	"vzeroupper			 \n\t"
+
+	"vbroadcastsd	  (%4), %%ymm0                  \n\t"  // alpha_r
+	"vbroadcastsd	  (%5), %%ymm1                  \n\t"  // alpha_i
+
+	".align 16				        \n\t"
+	".L01LOOP%=:				        \n\t"
+	"prefetcht0      192(%2,%0,8)			\n\t"
+	"vmovups	(%2,%0,8), %%ymm8	        \n\t" // 2 complex values from src
+	"vmovups      32(%2,%0,8), %%ymm9	        \n\t" 
+
+	"vmulpd      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
+	"vmulpd      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
+	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
+	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
+
+	"prefetcht0      192(%3,%0,8)			\n\t"
+	"vmovups	  (%3,%0,8),  %%ymm10           \n\t" // 2 complex values from dest
+	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
+
+#if !defined(XCONJ)
+        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
+        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
+        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
+#else
+        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
+        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
+        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
+        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
+        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
+        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
+#endif
+
+        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
+        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
+
+	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
+	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
+
+        "addq		$8 , %0	  	 	        \n\t"
+	"subq	        $4 , %1			        \n\t"		
+	"jnz		.L01LOOP%=		        \n\t"
+	"vzeroupper			 \n\t"
+
+	:
+        : 
+          "r" (i),	      // 0	
+	  "r" (n),  	      // 1
+          "r" (src),          // 2
+          "r" (dest),         // 3
+          "r" (&alpha_r),     // 4
+          "r" (&alpha_i)      // 5
+	: "cc", 
+	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
+	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
+	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
+	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+	  "memory"
+	);
+
+	return;
+
+}
+

From 6df1b0be81667d7edc0655a5b605e65c962fd294 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 14 Sep 2014 10:21:22 +0200
Subject: [PATCH 23/24] optimized zgemv_n_microk_sandy-4.c

---
 kernel/x86_64/zgemv_n_microk_sandy-4.c | 56 +++++++++++++-------------
 1 file changed, 28 insertions(+), 28 deletions(-)

diff --git a/kernel/x86_64/zgemv_n_microk_sandy-4.c b/kernel/x86_64/zgemv_n_microk_sandy-4.c
index 5567bae2b..009e4801e 100644
--- a/kernel/x86_64/zgemv_n_microk_sandy-4.c
+++ b/kernel/x86_64/zgemv_n_microk_sandy-4.c
@@ -50,54 +50,54 @@ static void zgemv_kernel_4x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
 	".align 16				        \n\t"
 	".L01LOOP%=:				        \n\t"
 
-        "prefetcht0      256(%4,%0,8)                   \n\t"
+        //"prefetcht0      256(%4,%0,8)                   \n\t"
 	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
 	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
 
 	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
 	"vmulpd		  %%ymm8 , %%ymm1 , %%ymm13	\n\t"
-        "prefetcht0      256(%5,%0,8)                   \n\t"
+        //"prefetcht0      256(%5,%0,8)                   \n\t"
 	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
 	"vmovups	(%5,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
 	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
 	"vmovups      32(%5,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
 
 	"vmulpd		  %%ymm8 , %%ymm2 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
 	"vmulpd		  %%ymm8 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
 	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
-        "prefetcht0      256(%6,%0,8)                   \n\t"
+        //"prefetcht0      256(%6,%0,8)                   \n\t"
 	"vmulpd		  %%ymm9 , %%ymm2 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
 	"vmovups	(%6,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
 	"vmulpd		  %%ymm9 , %%ymm3 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
 
 	"vmovups      32(%6,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
+	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
 
 	"vmulpd		  %%ymm8 , %%ymm4 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
 	"vmulpd		  %%ymm8 , %%ymm5 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
 	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
-        "prefetcht0      256(%7,%0,8)                   \n\t"
+        // "prefetcht0      256(%7,%0,8)                   \n\t"
 	"vmulpd		  %%ymm9 , %%ymm4 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
 	"vmovups	(%7,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
 	"vmulpd		  %%ymm9 , %%ymm5 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
 
 	"vmovups      32(%7,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
-
-	"vmulpd		  %%ymm8 , %%ymm6 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
-	"vmulpd		  %%ymm8 , %%ymm7 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
-	"vmulpd		  %%ymm9 , %%ymm6 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
-	"vmulpd		  %%ymm9 , %%ymm7 , %%ymm11	\n\t"
 	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
 
-	"prefetcht0      256(%3,%0,8)			\n\t"
+	"vmulpd		  %%ymm8 , %%ymm6 , %%ymm10	\n\t"
+	"vmulpd		  %%ymm8 , %%ymm7 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
+	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
+	"vmulpd		  %%ymm9 , %%ymm6 , %%ymm10	\n\t"
+	"vmulpd		  %%ymm9 , %%ymm7 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
+	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
+
+	// "prefetcht0      256(%3,%0,8)			\n\t"
 	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
 	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
 
@@ -167,30 +167,30 @@ static void zgemv_kernel_4x2( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
 	".align 16				        \n\t"
 	".L01LOOP%=:				        \n\t"
 
-        "prefetcht0      256(%4,%0,8)                   \n\t"
+        // "prefetcht0      256(%4,%0,8)                   \n\t"
 	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
 	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
 	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
 	"vmulpd		  %%ymm8 , %%ymm1 , %%ymm13	\n\t"
 
-        "prefetcht0      256(%5,%0,8)                   \n\t"
+        // "prefetcht0      256(%5,%0,8)                   \n\t"
 	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
 	"vmovups	(%5,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
 	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
 	"vmovups      32(%5,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
 
 	"vmulpd		  %%ymm8 , %%ymm2 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
 	"vmulpd		  %%ymm8 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
 	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
 
 	"vmulpd		  %%ymm9 , %%ymm2 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
 	"vmulpd		  %%ymm9 , %%ymm3 , %%ymm11	\n\t"
+	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
 	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
 
 	
-	"prefetcht0      256(%3,%0,8)			\n\t"
+	// "prefetcht0      256(%3,%0,8)			\n\t"
 	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
 	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
 
@@ -256,7 +256,7 @@ static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 	".align 16				        \n\t"
 	".L01LOOP%=:				        \n\t"
 
-        "prefetcht0      256(%4,%0,8)                   \n\t"
+        // "prefetcht0      256(%4,%0,8)                   \n\t"
 	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
 	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
 	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
@@ -265,7 +265,7 @@ static void zgemv_kernel_4x1( BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
 	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
 	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
 
-	"prefetcht0      256(%3,%0,8)			\n\t"
+	// "prefetcht0      256(%3,%0,8)			\n\t"
 	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
 	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
 
@@ -357,7 +357,7 @@ static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT a
 
 	".align 16				        \n\t"
 	".L01LOOP%=:				        \n\t"
-	"prefetcht0      192(%2,%0,8)			\n\t"
+	// "prefetcht0      192(%2,%0,8)			\n\t"
 	"vmovups	(%2,%0,8), %%ymm8	        \n\t" // 2 complex values from src
 	"vmovups      32(%2,%0,8), %%ymm9	        \n\t" 
 
@@ -366,7 +366,7 @@ static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT a
 	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
 	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
 
-	"prefetcht0      192(%3,%0,8)			\n\t"
+	// "prefetcht0      192(%3,%0,8)			\n\t"
 	"vmovups	  (%3,%0,8),  %%ymm10           \n\t" // 2 complex values from dest
 	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
 

From b7c9566eea9b19ae1834ba8f8b5ddb0517e8749b Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 14 Sep 2014 11:00:53 +0200
Subject: [PATCH 24/24] removed obsolete gemv kernel files

---
 kernel/x86_64/cgemv_n.c                    | 255 -------------------
 kernel/x86_64/cgemv_n_microk_haswell-2.c   | 137 -----------
 kernel/x86_64/cgemv_t.c                    | 265 --------------------
 kernel/x86_64/cgemv_t_microk_haswell-2.c   | 171 -------------
 kernel/x86_64/dgemv_n.c                    | 208 ----------------
 kernel/x86_64/dgemv_n_microk_haswell-2.c   |  89 -------
 kernel/x86_64/dgemv_n_microk_nehalem-2.c   | 137 -----------
 kernel/x86_64/dgemv_t.c                    | 191 ---------------
 kernel/x86_64/dgemv_t_microk_haswell-2.c   | 107 --------
 kernel/x86_64/sgemv_n.c                    |  11 -
 kernel/x86_64/sgemv_n_microk_bulldozer-2.c |  99 --------
 kernel/x86_64/sgemv_n_microk_haswell-2.c   |  88 -------
 kernel/x86_64/sgemv_n_microk_nehalem-2.c   | 144 -----------
 kernel/x86_64/sgemv_n_microk_sandy-2.c     |  97 --------
 kernel/x86_64/sgemv_t.c                    |  10 -
 kernel/x86_64/sgemv_t_microk_bulldozer-2.c | 109 ---------
 kernel/x86_64/sgemv_t_microk_haswell-2.c   | 112 ---------
 kernel/x86_64/sgemv_t_microk_nehalem-2.c   | 159 ------------
 kernel/x86_64/sgemv_t_microk_sandy-2.c     | 132 ----------
 kernel/x86_64/zgemv_n.c                    | 258 -------------------
 kernel/x86_64/zgemv_n_microk_haswell-2.c   | 137 -----------
 kernel/x86_64/zgemv_n_microk_sandy-2.c     | 149 -----------
 kernel/x86_64/zgemv_t.c                    | 272 ---------------------
 kernel/x86_64/zgemv_t_microk_bulldozer-2.c | 180 --------------
 kernel/x86_64/zgemv_t_microk_haswell-2.c   | 162 ------------
 25 files changed, 3679 deletions(-)
 delete mode 100644 kernel/x86_64/cgemv_n.c
 delete mode 100644 kernel/x86_64/cgemv_n_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/cgemv_t.c
 delete mode 100644 kernel/x86_64/cgemv_t_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/dgemv_n.c
 delete mode 100644 kernel/x86_64/dgemv_n_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/dgemv_n_microk_nehalem-2.c
 delete mode 100644 kernel/x86_64/dgemv_t.c
 delete mode 100644 kernel/x86_64/dgemv_t_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/sgemv_n_microk_bulldozer-2.c
 delete mode 100644 kernel/x86_64/sgemv_n_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/sgemv_n_microk_nehalem-2.c
 delete mode 100644 kernel/x86_64/sgemv_n_microk_sandy-2.c
 delete mode 100644 kernel/x86_64/sgemv_t_microk_bulldozer-2.c
 delete mode 100644 kernel/x86_64/sgemv_t_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/sgemv_t_microk_nehalem-2.c
 delete mode 100644 kernel/x86_64/sgemv_t_microk_sandy-2.c
 delete mode 100644 kernel/x86_64/zgemv_n.c
 delete mode 100644 kernel/x86_64/zgemv_n_microk_haswell-2.c
 delete mode 100644 kernel/x86_64/zgemv_n_microk_sandy-2.c
 delete mode 100644 kernel/x86_64/zgemv_t.c
 delete mode 100644 kernel/x86_64/zgemv_t_microk_bulldozer-2.c
 delete mode 100644 kernel/x86_64/zgemv_t_microk_haswell-2.c

diff --git a/kernel/x86_64/cgemv_n.c b/kernel/x86_64/cgemv_n.c
deleted file mode 100644
index 47ef0d447..000000000
--- a/kernel/x86_64/cgemv_n.c
+++ /dev/null
@@ -1,255 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#include <stdlib.h>
-#include <stdio.h>
-#include "common.h"
-
-#if defined(HASWELL)
-#include "cgemv_n_microk_haswell-2.c"
-#endif
-
-
-#define NBMAX 2048
-
-#ifndef HAVE_KERNEL_16x4
-
-static void cgemv_kernel_16x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
-		y[i]   += a1[i]*x[2] - a1[i+1] * x[3];
-		y[i+1] += a1[i]*x[3] + a1[i+1] * x[2];
-		y[i]   += a2[i]*x[4] - a2[i+1] * x[5];
-		y[i+1] += a2[i]*x[5] + a2[i+1] * x[4];
-		y[i]   += a3[i]*x[6] - a3[i+1] * x[7];
-		y[i+1] += a3[i]*x[7] + a3[i+1] * x[6];
-#else 
-		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
-		y[i]   += a1[i]*x[2] + a1[i+1] * x[3];
-		y[i+1] += a1[i]*x[3] - a1[i+1] * x[2];
-		y[i]   += a2[i]*x[4] + a2[i+1] * x[5];
-		y[i+1] += a2[i]*x[5] - a2[i+1] * x[4];
-		y[i]   += a3[i]*x[6] + a3[i+1] * x[7];
-		y[i+1] += a3[i]*x[7] - a3[i+1] * x[6];
-#endif
-	}
-}
-	
-#endif
-
-static void cgemv_kernel_16x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0;
-	a0 = ap;
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
-#else 
-		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
-#endif
-
-	}
-}
-	
-
-static void zero_y(BLASLONG n, FLOAT *dest)
-{
-	BLASLONG i;
-	for ( i=0; i<2*n; i++ )
-	{
-		*dest = 0.0;
-		dest++;
-	}
-}
-
-
-
-static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
-{
-	BLASLONG i;
-	FLOAT temp_r;
-	FLOAT temp_i;
-	for ( i=0; i<n; i++ )
-	{
-#if !defined(XCONJ) 
-		temp_r = alpha_r * src[0] - alpha_i * src[1];
-		temp_i = alpha_r * src[1] + alpha_i * src[0];
-#else
-		temp_r =  alpha_r * src[0] + alpha_i * src[1];
-		temp_i = -alpha_r * src[1] + alpha_i * src[0];
-#endif
-
-		*dest += temp_r;
-		*(dest+1) += temp_i;
-
-		src+=2;
-		dest += inc_dest;
-	}
-}
-
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r,FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-	BLASLONG i;
-	BLASLONG j;
-	FLOAT *a_ptr;
-	FLOAT *x_ptr;
-	FLOAT *y_ptr;
-	FLOAT *ap[4];
-	BLASLONG n1;
-	BLASLONG m1;
-	BLASLONG m2;
-	BLASLONG n2;
-	FLOAT xbuffer[8],*ybuffer;
-
-
-#if 0
-printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x,inc_y);
-#endif
-
-	if ( m < 1 ) return(0);
-	if ( n < 1 ) return(0);
-
-	ybuffer = buffer;
-	
-	inc_x *= 2;
-	inc_y *= 2;
-	lda   *= 2;
-
-	n1 = n / 4 ;
-	n2 = n % 4 ;
-	
-	m1 = m - ( m % 16 );
-	m2 = (m % NBMAX) - (m % 16) ;
-	
-	y_ptr = y;
-
-	BLASLONG NB = NBMAX;
-
-	while ( NB == NBMAX )
-	{
-		
-		m1 -= NB;
-		if ( m1 < 0)
-		{
-			if ( m2 == 0 ) break;	
-			NB = m2;
-		}
-		
-		a_ptr = a;
-		x_ptr = x;
-		zero_y(NB,ybuffer);
-		for( i = 0; i < n1 ; i++)
-		{
-
-			xbuffer[0] = x_ptr[0];
-			xbuffer[1] = x_ptr[1];
-			x_ptr += inc_x;	
-			xbuffer[2] = x_ptr[0];
-			xbuffer[3] = x_ptr[1];
-			x_ptr += inc_x;	
-			xbuffer[4] = x_ptr[0];
-			xbuffer[5] = x_ptr[1];
-			x_ptr += inc_x;	
-			xbuffer[6] = x_ptr[0];
-			xbuffer[7] = x_ptr[1];
-			x_ptr += inc_x;	
-
-			ap[0] = a_ptr;
-			ap[1] = a_ptr + lda;
-			ap[2] = ap[1] + lda;
-			ap[3] = ap[2] + lda;
-			cgemv_kernel_16x4(NB,ap,xbuffer,ybuffer);
-			a_ptr += 4 * lda;
-		}
-
-		for( i = 0; i < n2 ; i++)
-		{
-			xbuffer[0] = x_ptr[0];
-			xbuffer[1] = x_ptr[1];
-			x_ptr += inc_x;	
-			cgemv_kernel_16x1(NB,a_ptr,xbuffer,ybuffer);
-			a_ptr += 1 * lda;
-
-		}
-		add_y(NB,ybuffer,y_ptr,inc_y,alpha_r,alpha_i);
-		a     += 2 * NB;
-		y_ptr += NB * inc_y;
-	}
-
-	j=0;
-	while ( j < (m % 16))
-	{
-		a_ptr = a;
-		x_ptr = x;
-		FLOAT temp_r = 0.0;
-		FLOAT temp_i = 0.0;
-		for( i = 0; i < n; i++ )
-		{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-			temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-			temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-#else
-			temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-			temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-#endif
-
-			a_ptr += lda;
-			x_ptr += inc_x;
-		}
-
-#if !defined(XCONJ) 
-		y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-		y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
-#else
-		y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-		y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
-#endif
-		y_ptr += inc_y;
-		a+=2;
-		j++;
-	}
-	return(0);
-}
-
-
diff --git a/kernel/x86_64/cgemv_n_microk_haswell-2.c b/kernel/x86_64/cgemv_n_microk_haswell-2.c
deleted file mode 100644
index 9b1501013..000000000
--- a/kernel/x86_64/cgemv_n_microk_haswell-2.c
+++ /dev/null
@@ -1,137 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void cgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void cgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-
-	"vbroadcastss	  (%2), %%ymm0                  \n\t"  // real part x0
-	"vbroadcastss	 4(%2), %%ymm1                  \n\t"  // imag part x0
-	"vbroadcastss	 8(%2), %%ymm2                  \n\t"  // real part x1
-	"vbroadcastss	12(%2), %%ymm3                  \n\t"  // imag part x1
-	"vbroadcastss	16(%2), %%ymm4                  \n\t"  // real part x2
-	"vbroadcastss	20(%2), %%ymm5                  \n\t"  // imag part x2
-	"vbroadcastss	24(%2), %%ymm6                  \n\t"  // real part x3
-	"vbroadcastss	28(%2), %%ymm7                  \n\t"  // imag part x3
-
-
-	".align 16				        \n\t"
-	".L01LOOP%=:				        \n\t"
-	"prefetcht0      320(%4,%0,4)			\n\t"
-	"vmovups	(%4,%0,4), %%ymm8	        \n\t" // 4 complex values form a0
-	"vmovups      32(%4,%0,4), %%ymm9	        \n\t" // 4 complex values form a0
-
-	"prefetcht0      320(%5,%0,4)			\n\t"
-	"vmovups	(%5,%0,4), %%ymm10              \n\t" // 4 complex values form a1
-	"vmovups      32(%5,%0,4), %%ymm11              \n\t" // 4 complex values form a1
-
-	"vmulps      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vmulps      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vmulps      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vmulps      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"prefetcht0      320(%6,%0,4)			\n\t"
-	"vmovups	(%6,%0,4), %%ymm8	        \n\t" // 4 complex values form a2
-	"vmovups      32(%6,%0,4), %%ymm9	        \n\t" // 4 complex values form a2
-
-	"vfmadd231ps      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vfmadd231ps      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vfmadd231ps      %%ymm11, %%ymm2, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vfmadd231ps      %%ymm11, %%ymm3, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"prefetcht0      320(%7,%0,4)			\n\t"
-	"vmovups	(%7,%0,4), %%ymm10              \n\t" // 4 complex values form a3
-	"vmovups      32(%7,%0,4), %%ymm11              \n\t" // 4 complex values form a3
-
-	"vfmadd231ps      %%ymm8 , %%ymm4, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vfmadd231ps      %%ymm8 , %%ymm5, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vfmadd231ps      %%ymm9 , %%ymm4, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vfmadd231ps      %%ymm9 , %%ymm5, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"vfmadd231ps      %%ymm10, %%ymm6, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vfmadd231ps      %%ymm10, %%ymm7, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vfmadd231ps      %%ymm11, %%ymm6, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vfmadd231ps      %%ymm11, %%ymm7, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"prefetcht0      320(%3,%0,4)			\n\t"
-	"vmovups	  (%3,%0,4),  %%ymm10           \n\t"
-	"vmovups	32(%3,%0,4),  %%ymm11           \n\t"
-
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
-        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
-        "vaddsubps      %%ymm13, %%ymm12, %%ymm8              \n\t"
-        "vaddsubps      %%ymm15, %%ymm14, %%ymm9              \n\t"
-#else
-        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
-        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
-        "vaddsubps      %%ymm12, %%ymm13, %%ymm8              \n\t"
-        "vaddsubps      %%ymm14, %%ymm15, %%ymm9              \n\t"
-        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
-#endif
-
-        "vaddps         %%ymm8, %%ymm10, %%ymm12              \n\t"
-        "vaddps         %%ymm9, %%ymm11, %%ymm13              \n\t"
-
-	"vmovups  %%ymm12,   (%3,%0,4)		        \n\t" // 4 complex values to y	
-	"vmovups  %%ymm13, 32(%3,%0,4)		        \n\t"	
-
-        "addq		$16, %0	  	 	        \n\t"
-	"subq	        $8 , %1			        \n\t"		
-	"jnz		.L01LOOP%=		        \n\t"
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/cgemv_t.c b/kernel/x86_64/cgemv_t.c
deleted file mode 100644
index e40fd349e..000000000
--- a/kernel/x86_64/cgemv_t.c
+++ /dev/null
@@ -1,265 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-
-#include "common.h"
-
-#if defined(HASWELL)
-#include "cgemv_t_microk_haswell-2.c"
-#endif
-
-#define NBMAX 2048
-
-#ifndef HAVE_KERNEL_16x4
-
-static void cgemv_kernel_16x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-	FLOAT temp_r0 = 0.0;
-	FLOAT temp_r1 = 0.0;
-	FLOAT temp_r2 = 0.0;
-	FLOAT temp_r3 = 0.0;
-	FLOAT temp_i0 = 0.0;
-	FLOAT temp_i1 = 0.0;
-	FLOAT temp_i2 = 0.0;
-	FLOAT temp_i3 = 0.0;
-
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
-		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
-		temp_r1 += a1[i]*x[i]   - a1[i+1]*x[i+1];		
-		temp_i1 += a1[i]*x[i+1] + a1[i+1]*x[i];		
-		temp_r2 += a2[i]*x[i]   - a2[i+1]*x[i+1];		
-		temp_i2 += a2[i]*x[i+1] + a2[i+1]*x[i];		
-		temp_r3 += a3[i]*x[i]   - a3[i+1]*x[i+1];		
-		temp_i3 += a3[i]*x[i+1] + a3[i+1]*x[i];		
-#else
-		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
-		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
-		temp_r1 += a1[i]*x[i]   + a1[i+1]*x[i+1];		
-		temp_i1 += a1[i]*x[i+1] - a1[i+1]*x[i];		
-		temp_r2 += a2[i]*x[i]   + a2[i+1]*x[i+1];		
-		temp_i2 += a2[i]*x[i+1] - a2[i+1]*x[i];		
-		temp_r3 += a3[i]*x[i]   + a3[i+1]*x[i+1];		
-		temp_i3 += a3[i]*x[i+1] - a3[i+1]*x[i];		
-#endif
-	}
-	y[0] = temp_r0;
-	y[1] = temp_i0;
-	y[2] = temp_r1;
-	y[3] = temp_i1;
-	y[4] = temp_r2;
-	y[5] = temp_i2;
-	y[6] = temp_r3;
-	y[7] = temp_i3;
-}
-	
-#endif
-
-static void cgemv_kernel_16x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0;
-	a0 = ap;
-	FLOAT temp_r = 0.0;
-	FLOAT temp_i = 0.0;
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		temp_r += a0[i]*x[i]   - a0[i+1]*x[i+1];		
-		temp_i += a0[i]*x[i+1] + a0[i+1]*x[i];		
-#else
-		temp_r += a0[i]*x[i]   + a0[i+1]*x[i+1];		
-		temp_i += a0[i]*x[i+1] - a0[i+1]*x[i];		
-#endif
-	}
-	*y      = temp_r;
-	*(y+1)  = temp_i;
-}
-
-static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src)
-{
-        BLASLONG i;
-        for ( i=0; i<n; i++ )
-        {
-                *dest     = *src;
-                *(dest+1) = *(src+1);
-                dest+=2;
-                src += inc_src;
-        }
-}
-
-
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-	BLASLONG i;
-	BLASLONG j;
-	FLOAT *a_ptr;
-	FLOAT *x_ptr;
-	FLOAT *y_ptr;
-	FLOAT *ap[8];
-	BLASLONG n1;
-	BLASLONG m1;
-	BLASLONG m2;
-	BLASLONG n2;
-	FLOAT ybuffer[8],*xbuffer;
-
-        inc_x *= 2;
-        inc_y *= 2;
-        lda   *= 2;
-
-	xbuffer = buffer;
-	
-	n1 = n / 4 ;
-	n2 = n % 4 ;
-	
-	m1 = m - ( m % 16 );
-	m2 = (m % NBMAX) - (m % 16) ;
-	
-
-	BLASLONG NB = NBMAX;
-
-	while ( NB == NBMAX )
-	{
-		
-		m1 -= NB;
-		if ( m1 < 0)
-		{
-			if ( m2 == 0 ) break;	
-			NB = m2;
-		}
-		
-		y_ptr = y;
-		a_ptr = a;
-		x_ptr = x;
-		copy_x(NB,x_ptr,xbuffer,inc_x);
-		for( i = 0; i < n1 ; i++)
-		{
-			ap[0] = a_ptr;
-			ap[1] = a_ptr + lda;
-			ap[2] = ap[1] + lda;
-			ap[3] = ap[2] + lda;
-			cgemv_kernel_16x4(NB,ap,xbuffer,ybuffer);
-			a_ptr += 4 * lda;
-
-#if !defined(XCONJ)
-			y_ptr[0] += alpha_r * ybuffer[0] - alpha_i * ybuffer[1];
-			y_ptr[1] += alpha_r * ybuffer[1] + alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[2] - alpha_i * ybuffer[3];
-			y_ptr[1] += alpha_r * ybuffer[3] + alpha_i * ybuffer[2];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[4] - alpha_i * ybuffer[5];
-			y_ptr[1] += alpha_r * ybuffer[5] + alpha_i * ybuffer[4];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[6] - alpha_i * ybuffer[7];
-			y_ptr[1] += alpha_r * ybuffer[7] + alpha_i * ybuffer[6];
-			y_ptr  += inc_y;
-#else
-			y_ptr[0] += alpha_r * ybuffer[0] + alpha_i * ybuffer[1];
-			y_ptr[1] -= alpha_r * ybuffer[1] - alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[2] + alpha_i * ybuffer[3];
-			y_ptr[1] -= alpha_r * ybuffer[3] - alpha_i * ybuffer[2];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[4] + alpha_i * ybuffer[5];
-			y_ptr[1] -= alpha_r * ybuffer[5] - alpha_i * ybuffer[4];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[6] + alpha_i * ybuffer[7];
-			y_ptr[1] -= alpha_r * ybuffer[7] - alpha_i * ybuffer[6];
-			y_ptr  += inc_y;
-#endif
-		}
-
-		for( i = 0; i < n2 ; i++)
-		{
-			cgemv_kernel_16x1(NB,a_ptr,xbuffer,ybuffer);
-			a_ptr += 1 * lda;
-
-#if !defined(XCONJ)
-			y_ptr[0] += alpha_r * ybuffer[0] - alpha_i * ybuffer[1];
-			y_ptr[1] += alpha_r * ybuffer[1] + alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-#else
-			y_ptr[0] += alpha_r * ybuffer[0] + alpha_i * ybuffer[1];
-			y_ptr[1] -= alpha_r * ybuffer[1] - alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-#endif
-
-		}
-		a += 2* NB;
-		x += NB * inc_x;	
-	}
-
-	BLASLONG m3 = m % 16;
-	if ( m3 == 0 ) return(0);
-
-	x_ptr = x;
-	copy_x(m3,x_ptr,xbuffer,inc_x);
-	j=0;
-	a_ptr = a;
-	y_ptr = y;
-	while ( j < n)
-	{
-		FLOAT temp_r = 0.0;
-		FLOAT temp_i = 0.0;
-		for( i = 0; i < m3*2; i+=2 )
-		{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-			temp_r += a_ptr[i] * xbuffer[i]   - a_ptr[i+1] * xbuffer[i+1];
-			temp_i += a_ptr[i] * xbuffer[i+1] + a_ptr[i+1] * xbuffer[i];
-#else
-			temp_r += a_ptr[i] * xbuffer[i]   + a_ptr[i+1] * xbuffer[i+1];
-			temp_i += a_ptr[i] * xbuffer[i+1] - a_ptr[i+1] * xbuffer[i];
-#endif
-		}
-		a_ptr += lda;
-
-#if !defined(XCONJ) 
-                y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-                y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
-#else
-                y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-                y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
-#endif
-
-		y_ptr += inc_y;
-		j++;
-	}
-	return(0);
-}
-
-
diff --git a/kernel/x86_64/cgemv_t_microk_haswell-2.c b/kernel/x86_64/cgemv_t_microk_haswell-2.c
deleted file mode 100644
index 0d79714af..000000000
--- a/kernel/x86_64/cgemv_t_microk_haswell-2.c
+++ /dev/null
@@ -1,171 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary froms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary from must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void cgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void cgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-
-	"vxorps		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
-	"vxorps		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
-	"vxorps		%%ymm10, %%ymm10, %%ymm10	\n\t" // temp
-	"vxorps		%%ymm11, %%ymm11, %%ymm11	\n\t" // temp
-	"vxorps		%%ymm12, %%ymm12, %%ymm12	\n\t" // temp
-	"vxorps		%%ymm13, %%ymm13, %%ymm13	\n\t"
-	"vxorps		%%ymm14, %%ymm14, %%ymm14	\n\t"
-	"vxorps		%%ymm15, %%ymm15, %%ymm15	\n\t"
-
-	".align 16				        \n\t"
-	".L01LOOP%=:				        \n\t"
-        "prefetcht0      192(%4,%0,4)                   \n\t"
-	"vmovups	(%4,%0,4), %%ymm4	        \n\t" // 4 complex values from a0
-        "prefetcht0      192(%5,%0,4)                   \n\t"
-	"vmovups	(%5,%0,4), %%ymm5               \n\t" // 4 complex values from a1
-
-        "prefetcht0      192(%2,%0,4)                   \n\t"
-	"vmovups	    (%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
-	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
-	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
-	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
-	
-        "prefetcht0      192(%6,%0,4)                   \n\t"
-	"vmovups	(%6,%0,4), %%ymm6	        \n\t" // 4 complex values from a2
-        "prefetcht0      192(%7,%0,4)                   \n\t"
-	"vmovups	(%7,%0,4), %%ymm7               \n\t" // 4 complex values from a3
-
-	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231ps      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231ps      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-
-	"vmovups       32(%4,%0,4), %%ymm4	        \n\t" // 2 complex values from a0
-	"vmovups       32(%5,%0,4), %%ymm5              \n\t" // 2 complex values from a1
-
-	"vmovups	  32(%2,%0,4)  , %%ymm6		\n\t" // 4 complex values from x
-	"vpermilps        $0xb1, %%ymm6, %%ymm7		\n\t" // exchange real and imap parts
-	"vblendps $0x55, %%ymm6, %%ymm7, %%ymm0         \n\t" // only the real parts
-	"vblendps $0x55, %%ymm7, %%ymm6, %%ymm1         \n\t" // only the imag parts
-
-	"vmovups       32(%6,%0,4), %%ymm6	        \n\t" // 2 complex values from a2
-	"vmovups       32(%7,%0,4), %%ymm7              \n\t" // 2 complex values from a3
-
-	"vfmadd231ps      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231ps      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231ps      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231ps      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231ps      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-
-        "addq		$16 , %0	  	 	        \n\t"
-	"subq	        $8  , %1			        \n\t"		
-	"jnz		.L01LOOP%=		        \n\t"
-
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        "vpermilps      $0xb1 , %%ymm9 , %%ymm9                \n\t"
-        "vpermilps      $0xb1 , %%ymm11, %%ymm11               \n\t"
-        "vpermilps      $0xb1 , %%ymm13, %%ymm13               \n\t"
-        "vpermilps      $0xb1 , %%ymm15, %%ymm15               \n\t"
-        "vaddsubps      %%ymm9 , %%ymm8, %%ymm8               \n\t" 
-        "vaddsubps      %%ymm11, %%ymm10, %%ymm10             \n\t"
-        "vaddsubps      %%ymm13, %%ymm12, %%ymm12             \n\t"
-        "vaddsubps      %%ymm15, %%ymm14, %%ymm14             \n\t"
-#else
-        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilps      $0xb1 , %%ymm10, %%ymm10               \n\t"
-        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
-        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
-        "vaddsubps      %%ymm8 , %%ymm9 , %%ymm8              \n\t"
-        "vaddsubps      %%ymm10, %%ymm11, %%ymm10             \n\t"
-        "vaddsubps      %%ymm12, %%ymm13, %%ymm12             \n\t"
-        "vaddsubps      %%ymm14, %%ymm15, %%ymm14             \n\t"
-        "vpermilps      $0xb1 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilps      $0xb1 , %%ymm10, %%ymm10               \n\t"
-        "vpermilps      $0xb1 , %%ymm12, %%ymm12               \n\t"
-        "vpermilps      $0xb1 , %%ymm14, %%ymm14               \n\t"
-#endif
-
-	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
-	"vextractf128   $1, %%ymm10, %%xmm11	      	      \n\t"
-	"vextractf128   $1, %%ymm12, %%xmm13		      \n\t"
-	"vextractf128   $1, %%ymm14, %%xmm15		      \n\t"
-
-	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
-	"vaddps		%%xmm10, %%xmm11, %%xmm10      \n\t"
-	"vaddps		%%xmm12, %%xmm13, %%xmm12      \n\t"
-	"vaddps		%%xmm14, %%xmm15, %%xmm14      \n\t"
-
-	"vshufpd        $0x1, %%xmm8 , %%xmm8 , %%xmm9   \n\t"
-	"vshufpd        $0x1, %%xmm10, %%xmm10, %%xmm11  \n\t"
-	"vshufpd        $0x1, %%xmm12, %%xmm12, %%xmm13  \n\t"
-	"vshufpd        $0x1, %%xmm14, %%xmm14, %%xmm15  \n\t"
-
-	"vaddps		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
-	"vaddps		%%xmm10, %%xmm11, %%xmm10      \n\t"
-	"vaddps		%%xmm12, %%xmm13, %%xmm12      \n\t"
-	"vaddps		%%xmm14, %%xmm15, %%xmm14      \n\t"
-
-	"vmovsd	%%xmm8 ,   (%3)			\n\t"
-	"vmovsd	%%xmm10,  8(%3)			\n\t"
-	"vmovsd	%%xmm12, 16(%3)			\n\t"
-	"vmovsd	%%xmm14, 24(%3)			\n\t"
-
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/dgemv_n.c b/kernel/x86_64/dgemv_n.c
deleted file mode 100644
index cecb8d3fc..000000000
--- a/kernel/x86_64/dgemv_n.c
+++ /dev/null
@@ -1,208 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-
-#include "common.h"
-
-
-#if defined(HASWELL)
-#include "dgemv_n_microk_haswell-2.c"
-#elif defined(NEHALEM)
-#include "dgemv_n_microk_nehalem-2.c"
-#endif
-
-
-#define NBMAX 2048
-
-#ifndef HAVE_KERNEL_16x4
-
-static void dgemv_kernel_16x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-
-	for ( i=0; i< n; i+=4 )
-	{
-		y[i] += a0[i]*x[0] + a1[i]*x[1] + a2[i]*x[2] + a3[i]*x[3];		
-		y[i+1] += a0[i+1]*x[0] + a1[i+1]*x[1] + a2[i+1]*x[2] + a3[i+1]*x[3];		
-		y[i+2] += a0[i+2]*x[0] + a1[i+2]*x[1] + a2[i+2]*x[2] + a3[i+2]*x[3];		
-		y[i+3] += a0[i+3]*x[0] + a1[i+3]*x[1] + a2[i+3]*x[2] + a3[i+3]*x[3];		
-	}
-}
-	
-#endif
-
-static void dgemv_kernel_16x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0;
-	a0 = ap;
-
-	for ( i=0; i< n; i+=4 )
-	{
-		y[i] += a0[i]*x[0];		
-		y[i+1] += a0[i+1]*x[0];		
-		y[i+2] += a0[i+2]*x[0];		
-		y[i+3] += a0[i+3]*x[0];		
-	}
-}
-	
-
-static void zero_y(BLASLONG n, FLOAT *dest)
-{
-	BLASLONG i;
-	for ( i=0; i<n; i++ )
-	{
-		*dest = 0.0;
-		dest++;
-	}
-}
-
-
-
-static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest)
-{
-	BLASLONG i;
-	if ( inc_dest == 1 )
-	{
-		for ( i=0; i<n; i+=4 )
-		{
-			dest[i] += src[i];
-			dest[i+1] += src[i+1];
-			dest[i+2] += src[i+2];
-			dest[i+3] += src[i+3];
-		}
-
-	}
-	else
-	{
-		for ( i=0; i<n; i++ )
-		{
-			*dest += *src;
-			src++;
-			dest += inc_dest;
-		}
-	}
-}
-
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-	BLASLONG i;
-	BLASLONG j;
-	FLOAT *a_ptr;
-	FLOAT *x_ptr;
-	FLOAT *y_ptr;
-	FLOAT *ap[4];
-	BLASLONG n1;
-	BLASLONG m1;
-	BLASLONG m2;
-	BLASLONG n2;
-	FLOAT xbuffer[4],*ybuffer;
-
-        if ( m < 1 ) return(0);
-        if ( n < 1 ) return(0);
-
-	ybuffer = buffer;
-	
-	n1 = n / 4 ;
-	n2 = n % 4 ;
-	
-	m1 = m - ( m % 16 );
-	m2 = (m % NBMAX) - (m % 16) ;
-	
-	y_ptr = y;
-
-	BLASLONG NB = NBMAX;
-
-	while ( NB == NBMAX )
-	{
-		
-		m1 -= NB;
-		if ( m1 < 0)
-		{
-			if ( m2 == 0 ) break;	
-			NB = m2;
-		}
-		
-		a_ptr = a;
-		x_ptr = x;
-		zero_y(NB,ybuffer);
-		for( i = 0; i < n1 ; i++)
-		{
-			xbuffer[0] = alpha * x_ptr[0];
-			x_ptr += inc_x;	
-			xbuffer[1] = alpha * x_ptr[0];
-			x_ptr += inc_x;	
-			xbuffer[2] = alpha * x_ptr[0];
-			x_ptr += inc_x;	
-			xbuffer[3] = alpha * x_ptr[0];
-			x_ptr += inc_x;	
-			ap[0] = a_ptr;
-			ap[1] = a_ptr + lda;
-			ap[2] = ap[1] + lda;
-			ap[3] = ap[2] + lda;
-			dgemv_kernel_16x4(NB,ap,xbuffer,ybuffer);
-			a_ptr += 4 * lda;
-		}
-
-		for( i = 0; i < n2 ; i++)
-		{
-			xbuffer[0] = alpha * x_ptr[0];
-			x_ptr += inc_x;	
-			dgemv_kernel_16x1(NB,a_ptr,xbuffer,ybuffer);
-			a_ptr += 1 * lda;
-
-		}
-		add_y(NB,ybuffer,y_ptr,inc_y);
-		a     += NB;
-		y_ptr += NB * inc_y;
-	}
-	j=0;
-	while ( j < (m % 16))
-	{
-		a_ptr = a;
-		x_ptr = x;
-		FLOAT temp = 0.0;
-		for( i = 0; i < n; i++ )
-		{
-			temp += a_ptr[0] * x_ptr[0];
-			a_ptr += lda;
-			x_ptr += inc_x;
-		}
-		y_ptr[0] += alpha * temp;
-		y_ptr += inc_y;
-		a++;
-		j++;
-	}
-	return(0);
-}
-
-
diff --git a/kernel/x86_64/dgemv_n_microk_haswell-2.c b/kernel/x86_64/dgemv_n_microk_haswell-2.c
deleted file mode 100644
index 28e2fe4f6..000000000
--- a/kernel/x86_64/dgemv_n_microk_haswell-2.c
+++ /dev/null
@@ -1,89 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void dgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void dgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-	"vbroadcastsd    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastsd   8(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastsd  16(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastsd  24(%2), %%ymm15	 \n\t"	// x3 
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"prefetcht0	 192(%3,%0,8)		 \n\t"
-	"vmovups	(%3,%0,8), %%ymm4	 \n\t"	// 4 * y
-	"vmovups      32(%3,%0,8), %%ymm5	 \n\t"	// 4 * y
-
-	"prefetcht0	 192(%4,%0,8)		       \n\t"
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%4,%0,8), %%ymm12, %%ymm5      \n\t" 
-	"prefetcht0	 192(%5,%0,8)		       \n\t"
-	"vfmadd231pd   (%5,%0,8), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"prefetcht0	 192(%6,%0,8)		       \n\t"
-	"vfmadd231pd   (%6,%0,8), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%6,%0,8), %%ymm14, %%ymm5      \n\t" 
-	"prefetcht0	 192(%7,%0,8)		       \n\t"
-	"vfmadd231pd   (%7,%0,8), %%ymm15, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%7,%0,8), %%ymm15, %%ymm5      \n\t" 
-
-	"vmovups  %%ymm4,   (%3,%0,8)		      \n\t"	// 4 * y
-	"vmovups  %%ymm5, 32(%3,%0,8)		      \n\t"	// 4 * y
-
-        "addq		$8 , %0	  	 	      \n\t"
-	"subq	        $8 , %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/dgemv_n_microk_nehalem-2.c b/kernel/x86_64/dgemv_n_microk_nehalem-2.c
deleted file mode 100644
index 84b82f805..000000000
--- a/kernel/x86_64/dgemv_n_microk_nehalem-2.c
+++ /dev/null
@@ -1,137 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void dgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void dgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"movddup    (%2), %%xmm12	 \n\t"	// x0 
-	"movddup   8(%2), %%xmm13	 \n\t"	// x1 
-	"movddup  16(%2), %%xmm14	 \n\t"	// x2 
-	"movddup  24(%2), %%xmm15	 \n\t"	// x3 
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"prefetcht0	 192(%3,%0,8)		 \n\t"
-	"movups	       (%3,%0,8), %%xmm4	 \n\t"	// 2 * y
-	"movups      16(%3,%0,8), %%xmm5	 \n\t"	// 2 * y
-	"movups      32(%3,%0,8), %%xmm6	 \n\t"	// 2 * y
-	"movups      48(%3,%0,8), %%xmm7	 \n\t"	// 2 * y
-	"movups	       (%4,%0,8), %%xmm8	 \n\t"	// 2 * a
-	"movups      16(%4,%0,8), %%xmm9	 \n\t"	// 2 * a
-	"movups      32(%4,%0,8), %%xmm10        \n\t"	// 2 * a
-	"movups      48(%4,%0,8), %%xmm11        \n\t"  // 2 * a
-
-	"prefetcht0	 192(%4,%0,8)		       \n\t"
-	"mulpd           %%xmm12 , %%xmm8	       \n\t" // a * x
-	"mulpd           %%xmm12 , %%xmm9	       \n\t" // a * x
-	"mulpd           %%xmm12 , %%xmm10             \n\t" // a * x
-	"mulpd           %%xmm12 , %%xmm11             \n\t" // a * x
-	"addpd		 %%xmm8  , %%xmm4              \n\t" // y += a * x
-	"addpd		 %%xmm9  , %%xmm5              \n\t" // y += a * x
-	"addpd		 %%xmm10 , %%xmm6              \n\t" // y += a * x
-	"addpd		 %%xmm11 , %%xmm7              \n\t" // y += a * x
-
-	"prefetcht0	 192(%5,%0,8)		       \n\t"
-	"movups	       (%5,%0,8), %%xmm8	       \n\t" // 2 * a
-	"movups      16(%5,%0,8), %%xmm9	       \n\t" // 2 * a
-	"movups      32(%5,%0,8), %%xmm10              \n\t" // 2 * a
-	"movups      48(%5,%0,8), %%xmm11              \n\t" // 2 * a
-	"mulpd           %%xmm13 , %%xmm8	       \n\t" // a * x
-	"mulpd           %%xmm13 , %%xmm9	       \n\t" // a * x
-	"mulpd           %%xmm13 , %%xmm10             \n\t" // a * x
-	"mulpd           %%xmm13 , %%xmm11             \n\t" // a * x
-	"addpd		 %%xmm8  , %%xmm4              \n\t" // y += a * x
-	"addpd		 %%xmm9  , %%xmm5              \n\t" // y += a * x
-	"addpd		 %%xmm10 , %%xmm6              \n\t" // y += a * x
-	"addpd		 %%xmm11 , %%xmm7              \n\t" // y += a * x
-
-	"prefetcht0	 192(%6,%0,8)		       \n\t"
-	"movups	       (%6,%0,8), %%xmm8	       \n\t" // 2 * a
-	"movups      16(%6,%0,8), %%xmm9	       \n\t" // 2 * a
-	"movups      32(%6,%0,8), %%xmm10              \n\t" // 2 * a
-	"movups      48(%6,%0,8), %%xmm11              \n\t" // 2 * a
-	"mulpd           %%xmm14 , %%xmm8	       \n\t" // a * x
-	"mulpd           %%xmm14 , %%xmm9	       \n\t" // a * x
-	"mulpd           %%xmm14 , %%xmm10             \n\t" // a * x
-	"mulpd           %%xmm14 , %%xmm11             \n\t" // a * x
-	"addpd		 %%xmm8  , %%xmm4              \n\t" // y += a * x
-	"addpd		 %%xmm9  , %%xmm5              \n\t" // y += a * x
-	"addpd		 %%xmm10 , %%xmm6              \n\t" // y += a * x
-	"addpd		 %%xmm11 , %%xmm7              \n\t" // y += a * x
-
-	"prefetcht0	 192(%7,%0,8)		       \n\t"
-	"movups	       (%7,%0,8), %%xmm8	       \n\t" // 2 * a
-	"movups      16(%7,%0,8), %%xmm9	       \n\t" // 2 * a
-	"movups      32(%7,%0,8), %%xmm10              \n\t" // 2 * a
-	"movups      48(%7,%0,8), %%xmm11              \n\t" // 2 * a
-	"mulpd           %%xmm15 , %%xmm8	       \n\t" // a * x
-	"mulpd           %%xmm15 , %%xmm9	       \n\t" // a * x
-	"mulpd           %%xmm15 , %%xmm10             \n\t" // a * x
-	"mulpd           %%xmm15 , %%xmm11             \n\t" // a * x
-	"addpd		 %%xmm8  , %%xmm4              \n\t" // y += a * x
-	"addpd		 %%xmm9  , %%xmm5              \n\t" // y += a * x
-	"addpd		 %%xmm10 , %%xmm6              \n\t" // y += a * x
-	"addpd		 %%xmm11 , %%xmm7              \n\t" // y += a * x
-
-	"movups  %%xmm4,   (%3,%0,8)		      \n\t"	// 4 * y
-	"movups  %%xmm5, 16(%3,%0,8)		      \n\t"	// 4 * y
-	"movups  %%xmm6, 32(%3,%0,8)		      \n\t"	// 4 * y
-	"movups  %%xmm7, 48(%3,%0,8)		      \n\t"	// 4 * y
-
-        "addq		$8 , %0	  	 	      \n\t"
-	"subq	        $8 , %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", 
-	  "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/dgemv_t.c b/kernel/x86_64/dgemv_t.c
deleted file mode 100644
index 0fa8378fe..000000000
--- a/kernel/x86_64/dgemv_t.c
+++ /dev/null
@@ -1,191 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-
-#include "common.h"
-
-#if defined(HASWELL)
-#include "dgemv_t_microk_haswell-2.c"
-#endif
-
-#define NBMAX 2048
-
-#ifndef HAVE_KERNEL_16x4
-
-static void dgemv_kernel_16x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-	FLOAT temp0 = 0.0;
-	FLOAT temp1 = 0.0;
-	FLOAT temp2 = 0.0;
-	FLOAT temp3 = 0.0;
-
-	for ( i=0; i< n; i+=4 )
-	{
-		temp0 += a0[i]*x[i] + a0[i+1]*x[i+1] + a0[i+2]*x[i+2] + a0[i+3]*x[i+3];		
-		temp1 += a1[i]*x[i] + a1[i+1]*x[i+1] + a1[i+2]*x[i+2] + a1[i+3]*x[i+3];		
-		temp2 += a2[i]*x[i] + a2[i+1]*x[i+1] + a2[i+2]*x[i+2] + a2[i+3]*x[i+3];		
-		temp3 += a3[i]*x[i] + a3[i+1]*x[i+1] + a3[i+2]*x[i+2] + a3[i+3]*x[i+3];		
-	}
-	y[0] = temp0;
-	y[1] = temp1;
-	y[2] = temp2;
-	y[3] = temp3;
-}
-	
-#endif
-
-static void dgemv_kernel_16x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0;
-	a0 = ap;
-	FLOAT temp = 0.0;
-
-	for ( i=0; i< n; i+=4 )
-	{
-		temp += a0[i]*x[i] + a0[i+1]*x[i+1] + a0[i+2]*x[i+2] + a0[i+3]*x[i+3];		
-	}
-	*y = temp;
-}
-	
-static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src)
-{
-        BLASLONG i;
-        for ( i=0; i<n; i++ )
-        {
-                *dest = *src;
-                dest++;
-                src += inc_src;
-        }
-}
-
-
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-	BLASLONG i;
-	BLASLONG j;
-	FLOAT *a_ptr;
-	FLOAT *x_ptr;
-	FLOAT *y_ptr;
-	FLOAT *ap[4];
-	BLASLONG n1;
-	BLASLONG m1;
-	BLASLONG m2;
-	BLASLONG n2;
-	FLOAT ybuffer[4],*xbuffer;
-
-        if ( m < 1 ) return(0);
-        if ( n < 1 ) return(0);
-
-	xbuffer = buffer;
-	
-	n1 = n / 4 ;
-	n2 = n % 4 ;
-	
-	m1 = m - ( m % 16 );
-	m2 = (m % NBMAX) - (m % 16) ;
-	
-
-	BLASLONG NB = NBMAX;
-
-	while ( NB == NBMAX )
-	{
-		
-		m1 -= NB;
-		if ( m1 < 0)
-		{
-			if ( m2 == 0 ) break;	
-			NB = m2;
-		}
-		
-		y_ptr = y;
-		a_ptr = a;
-		x_ptr = x;
-		copy_x(NB,x_ptr,xbuffer,inc_x);
-		for( i = 0; i < n1 ; i++)
-		{
-			ap[0] = a_ptr;
-			ap[1] = a_ptr + lda;
-			ap[2] = ap[1] + lda;
-			ap[3] = ap[2] + lda;
-			dgemv_kernel_16x4(NB,ap,xbuffer,ybuffer);
-			a_ptr += 4 * lda;
-			*y_ptr += ybuffer[0]*alpha;
-			y_ptr  += inc_y;
-			*y_ptr += ybuffer[1]*alpha;
-			y_ptr  += inc_y;
-			*y_ptr += ybuffer[2]*alpha;
-			y_ptr  += inc_y;
-			*y_ptr += ybuffer[3]*alpha;
-			y_ptr  += inc_y;
-		}
-
-		for( i = 0; i < n2 ; i++)
-		{
-			dgemv_kernel_16x1(NB,a_ptr,xbuffer,ybuffer);
-			a_ptr += 1 * lda;
-			*y_ptr += ybuffer[0]*alpha;
-			y_ptr  += inc_y;
-
-		}
-		a += NB;
-		x += NB * inc_x;	
-	}
-
-	BLASLONG m3 = m % 16;
-	if ( m3 == 0 ) return(0);
-	x_ptr = x;
-	for ( i=0; i< m3; i++ )
-	{
-		xbuffer[i] = *x_ptr;
-		x_ptr += inc_x;
-	}
-	j=0;
-	a_ptr = a;
-	y_ptr = y;
-	while ( j < n)
-	{
-		FLOAT temp = 0.0;
-		for( i = 0; i < m3; i++ )
-		{
-			temp += a_ptr[i] * xbuffer[i];
-		}
-		a_ptr += lda;
-		y_ptr[0] += alpha * temp;
-		y_ptr += inc_y;
-		j++;
-	}
-	return(0);
-}
-
-
diff --git a/kernel/x86_64/dgemv_t_microk_haswell-2.c b/kernel/x86_64/dgemv_t_microk_haswell-2.c
deleted file mode 100644
index 1a4ba37d7..000000000
--- a/kernel/x86_64/dgemv_t_microk_haswell-2.c
+++ /dev/null
@@ -1,107 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void dgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void dgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			         \n\t"
-	"vxorpd		%%ymm4 , %%ymm4, %%ymm4  \n\t"
-	"vxorpd		%%ymm5 , %%ymm5, %%ymm5  \n\t"
-	"vxorpd		%%ymm6 , %%ymm6, %%ymm6  \n\t"
-	"vxorpd		%%ymm7 , %%ymm7, %%ymm7  \n\t"
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"prefetcht0	 384(%2,%0,8)		 \n\t"
-	"vmovups	(%2,%0,8), %%ymm12       \n\t"	// 4 * x
-	"vmovups      32(%2,%0,8), %%ymm13       \n\t"	// 4 * x
-
-	"prefetcht0	 384(%4,%0,8)		       \n\t"
-	"vfmadd231pd   (%4,%0,8), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231pd   (%5,%0,8), %%ymm12, %%ymm5      \n\t" 
-	"prefetcht0	 384(%5,%0,8)		       \n\t"
-	"vfmadd231pd 32(%4,%0,8), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231pd 32(%5,%0,8), %%ymm13, %%ymm5      \n\t" 
-	"prefetcht0	 384(%6,%0,8)		       \n\t"
-	"vfmadd231pd   (%6,%0,8), %%ymm12, %%ymm6      \n\t" 
-	"vfmadd231pd   (%7,%0,8), %%ymm12, %%ymm7      \n\t" 
-	"prefetcht0	 384(%7,%0,8)		       \n\t"
-	"vfmadd231pd 32(%6,%0,8), %%ymm13, %%ymm6      \n\t" 
-	"vfmadd231pd 32(%7,%0,8), %%ymm13, %%ymm7      \n\t" 
-
-        "addq		$8 , %0	  	 	      \n\t"
-	"subq	        $8 , %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	"vextractf128   $1 , %%ymm4, %%xmm12	      \n\t"
-	"vextractf128   $1 , %%ymm5, %%xmm13	      \n\t"
-	"vextractf128   $1 , %%ymm6, %%xmm14	      \n\t"
-	"vextractf128   $1 , %%ymm7, %%xmm15	      \n\t"
-
-	"vaddpd		%%xmm4, %%xmm12, %%xmm4       \n\t"
-	"vaddpd		%%xmm5, %%xmm13, %%xmm5       \n\t"
-	"vaddpd		%%xmm6, %%xmm14, %%xmm6       \n\t"
-	"vaddpd		%%xmm7, %%xmm15, %%xmm7       \n\t"
-
-        "vhaddpd        %%xmm4, %%xmm4, %%xmm4  \n\t"
-        "vhaddpd        %%xmm5, %%xmm5, %%xmm5  \n\t"
-        "vhaddpd        %%xmm6, %%xmm6, %%xmm6  \n\t"
-        "vhaddpd        %%xmm7, %%xmm7, %%xmm7  \n\t"
-
-        "vmovsd         %%xmm4,    (%3)         \n\t"
-        "vmovsd         %%xmm5,   8(%3)         \n\t"
-        "vmovsd         %%xmm6,  16(%3)         \n\t"
-        "vmovsd         %%xmm7,  24(%3)         \n\t"
-
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7",
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_n.c b/kernel/x86_64/sgemv_n.c
index faa8e1f8c..36a64219a 100644
--- a/kernel/x86_64/sgemv_n.c
+++ b/kernel/x86_64/sgemv_n.c
@@ -29,17 +29,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #include "common.h"
 
 
-#if defined(BULLDOZER) || defined(PILEDRIVER)
-#include "sgemv_n_microk_bulldozer-2.c"
-#elif defined(HASWELL)
-#include "sgemv_n_microk_haswell-2.c"
-#elif defined(SANDYBRIDGE)
-#include "sgemv_n_microk_sandy-2.c"
-#elif defined(NEHALEM)
-#include "sgemv_n_microk_nehalem-2.c"
-#endif
-
-
 #define NBMAX 4096
 
 #ifndef HAVE_KERNEL_16x4
diff --git a/kernel/x86_64/sgemv_n_microk_bulldozer-2.c b/kernel/x86_64/sgemv_n_microk_bulldozer-2.c
deleted file mode 100644
index c4a490587..000000000
--- a/kernel/x86_64/sgemv_n_microk_bulldozer-2.c
+++ /dev/null
@@ -1,99 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vbroadcastss    (%2), %%xmm12	 \n\t"	// x0 
-	"vbroadcastss   4(%2), %%xmm13	 \n\t"	// x1 
-	"vbroadcastss   8(%2), %%xmm14	 \n\t"	// x2 
-	"vbroadcastss  12(%2), %%xmm15	 \n\t"	// x3 
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"vmovups	(%3,%0,4), %%xmm4	 \n\t"	// 4 * y
-	"vmovups      16(%3,%0,4), %%xmm5	 \n\t"	// 4 * y
-	"vmovups      32(%3,%0,4), %%xmm6	 \n\t"	// 4 * y
-	"vmovups      48(%3,%0,4), %%xmm7	 \n\t"	// 4 * y
-
-	"prefetcht0	 192(%4,%0,4)		       \n\t"
-	"vfmaddps %%xmm4,   (%4,%0,4), %%xmm12, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%4,%0,4), %%xmm12, %%xmm5 \n\t" 
-	"vfmaddps %%xmm6, 32(%4,%0,4), %%xmm12, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%4,%0,4), %%xmm12, %%xmm7 \n\t" 
-	"prefetcht0	 192(%5,%0,4)		       \n\t"
-	"vfmaddps %%xmm4,   (%5,%0,4), %%xmm13, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%5,%0,4), %%xmm13, %%xmm5 \n\t" 
-	"vfmaddps %%xmm6, 32(%5,%0,4), %%xmm13, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%5,%0,4), %%xmm13, %%xmm7 \n\t" 
-	"prefetcht0	 192(%6,%0,4)		       \n\t"
-	"vfmaddps %%xmm4,   (%6,%0,4), %%xmm14, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%6,%0,4), %%xmm14, %%xmm5 \n\t" 
-	"vfmaddps %%xmm6, 32(%6,%0,4), %%xmm14, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%6,%0,4), %%xmm14, %%xmm7 \n\t" 
-	"prefetcht0	 192(%7,%0,4)		       \n\t"
-	"vfmaddps %%xmm4,   (%7,%0,4), %%xmm15, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%7,%0,4), %%xmm15, %%xmm5 \n\t" 
-	"vfmaddps %%xmm6, 32(%7,%0,4), %%xmm15, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%7,%0,4), %%xmm15, %%xmm7 \n\t" 
-
-	"vmovups  %%xmm4,   (%3,%0,4)		      \n\t"	// 4 * y
-	"vmovups  %%xmm5, 16(%3,%0,4)		      \n\t"	// 4 * y
-	"vmovups  %%xmm6, 32(%3,%0,4)		      \n\t"	// 4 * y
-	"vmovups  %%xmm7, 48(%3,%0,4)		      \n\t"	// 4 * y
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm6", "%xmm7", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_n_microk_haswell-2.c b/kernel/x86_64/sgemv_n_microk_haswell-2.c
deleted file mode 100644
index 19888d150..000000000
--- a/kernel/x86_64/sgemv_n_microk_haswell-2.c
+++ /dev/null
@@ -1,88 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-	"vbroadcastss    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastss   4(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastss   8(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastss  12(%2), %%ymm15	 \n\t"	// x3 
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"vmovups	(%3,%0,4), %%ymm4	 \n\t"	// 8 * y
-	"vmovups      32(%3,%0,4), %%ymm5	 \n\t"	// 8 * y
-
-	"prefetcht0	 192(%4,%0,4)		       \n\t"
-	"vfmadd231ps   (%4,%0,4), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%4,%0,4), %%ymm12, %%ymm5      \n\t" 
-	"prefetcht0	 192(%5,%0,4)		       \n\t"
-	"vfmadd231ps   (%5,%0,4), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%5,%0,4), %%ymm13, %%ymm5      \n\t" 
-	"prefetcht0	 192(%6,%0,4)		       \n\t"
-	"vfmadd231ps   (%6,%0,4), %%ymm14, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%6,%0,4), %%ymm14, %%ymm5      \n\t" 
-	"prefetcht0	 192(%7,%0,4)		       \n\t"
-	"vfmadd231ps   (%7,%0,4), %%ymm15, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%7,%0,4), %%ymm15, %%ymm5      \n\t" 
-
-	"vmovups  %%ymm4,   (%3,%0,4)		      \n\t"	// 8 * y
-	"vmovups  %%ymm5, 32(%3,%0,4)		      \n\t"	// 8 * y
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_n_microk_nehalem-2.c b/kernel/x86_64/sgemv_n_microk_nehalem-2.c
deleted file mode 100644
index 40ccbb78f..000000000
--- a/kernel/x86_64/sgemv_n_microk_nehalem-2.c
+++ /dev/null
@@ -1,144 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"movss    (%2), %%xmm12	 \n\t"	// x0 
-	"movss   4(%2), %%xmm13	 \n\t"	// x1 
-	"movss   8(%2), %%xmm14	 \n\t"	// x2 
-	"movss  12(%2), %%xmm15	 \n\t"	// x3 
-	"shufps $0,  %%xmm12, %%xmm12\n\t"	
-	"shufps $0,  %%xmm13, %%xmm13\n\t"	
-	"shufps $0,  %%xmm14, %%xmm14\n\t"	
-	"shufps $0,  %%xmm15, %%xmm15\n\t"	
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"movups	       (%3,%0,4), %%xmm4	 \n\t"	// 4 * y
-	"movups      16(%3,%0,4), %%xmm5	 \n\t"	// 4 * y
-	"movups      32(%3,%0,4), %%xmm6	 \n\t"	// 4 * y
-	"movups      48(%3,%0,4), %%xmm7	 \n\t"	// 4 * y
-
-	"prefetcht0	 192(%4,%0,4)		       \n\t"
-
-	"movups             (%4,%0,4), %%xmm8          \n\t" 
-	"movups           16(%4,%0,4), %%xmm9          \n\t" 
-	"movups           32(%4,%0,4), %%xmm10         \n\t" 
-	"movups           48(%4,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm12, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm4		       \n\t"
-	"mulps		%%xmm12, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm5		       \n\t"
-	"mulps		%%xmm12, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm6		       \n\t"
-	"mulps		%%xmm12, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm7		       \n\t"
-
-	"prefetcht0	 192(%5,%0,4)		       \n\t"
-
-	"movups             (%5,%0,4), %%xmm8          \n\t" 
-	"movups           16(%5,%0,4), %%xmm9          \n\t" 
-	"movups           32(%5,%0,4), %%xmm10         \n\t" 
-	"movups           48(%5,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm13, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm4		       \n\t"
-	"mulps		%%xmm13, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm5		       \n\t"
-	"mulps		%%xmm13, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm6		       \n\t"
-	"mulps		%%xmm13, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm7		       \n\t"
-
-	"prefetcht0	 192(%6,%0,4)		       \n\t"
-
-	"movups             (%6,%0,4), %%xmm8          \n\t" 
-	"movups           16(%6,%0,4), %%xmm9          \n\t" 
-	"movups           32(%6,%0,4), %%xmm10         \n\t" 
-	"movups           48(%6,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm14, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm4		       \n\t"
-	"mulps		%%xmm14, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm5		       \n\t"
-	"mulps		%%xmm14, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm6		       \n\t"
-	"mulps		%%xmm14, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm7		       \n\t"
-
-	"prefetcht0	 192(%7,%0,4)		       \n\t"
-
-	"movups             (%7,%0,4), %%xmm8          \n\t" 
-	"movups           16(%7,%0,4), %%xmm9          \n\t" 
-	"movups           32(%7,%0,4), %%xmm10         \n\t" 
-	"movups           48(%7,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm15, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm4		       \n\t"
-	"mulps		%%xmm15, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm5		       \n\t"
-	"mulps		%%xmm15, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm6		       \n\t"
-	"mulps		%%xmm15, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm7		       \n\t"
-
-
-	"movups  %%xmm4,   (%3,%0,4)		      \n\t"	// 4 * y
-	"movups  %%xmm5, 16(%3,%0,4)		      \n\t"	// 4 * y
-	"movups  %%xmm6, 32(%3,%0,4)		      \n\t"	// 4 * y
-	"movups  %%xmm7, 48(%3,%0,4)		      \n\t"	// 4 * y
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11",
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_n_microk_sandy-2.c b/kernel/x86_64/sgemv_n_microk_sandy-2.c
deleted file mode 100644
index b255ddbcb..000000000
--- a/kernel/x86_64/sgemv_n_microk_sandy-2.c
+++ /dev/null
@@ -1,97 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-	"vbroadcastss    (%2), %%ymm12	 \n\t"	// x0 
-	"vbroadcastss   4(%2), %%ymm13	 \n\t"	// x1 
-	"vbroadcastss   8(%2), %%ymm14	 \n\t"	// x2 
-	"vbroadcastss  12(%2), %%ymm15	 \n\t"	// x3 
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"vmovups	(%3,%0,4), %%ymm4	 \n\t"	// 8 * y
-	"vmovups      32(%3,%0,4), %%ymm5	 \n\t"	// 8 * y
-
-	"prefetcht0	 192(%4,%0,4)		       \n\t"
-	"vmulps   (%4,%0,4), %%ymm12, %%ymm8      \n\t" 
-	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
-	"vmulps 32(%4,%0,4), %%ymm12, %%ymm9      \n\t" 
-	"vaddps	  %%ymm5, %%ymm9 , %%ymm5	  \n\t"
-	"prefetcht0	 192(%5,%0,4)		       \n\t"
-	"vmulps   (%5,%0,4), %%ymm13, %%ymm10     \n\t" 
-	"vaddps	  %%ymm4, %%ymm10, %%ymm4	  \n\t"
-	"vmulps 32(%5,%0,4), %%ymm13, %%ymm11     \n\t" 
-	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
-	"prefetcht0	 192(%6,%0,4)		       \n\t"
-	"vmulps   (%6,%0,4), %%ymm14, %%ymm8      \n\t" 
-	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
-	"vmulps 32(%6,%0,4), %%ymm14, %%ymm9      \n\t" 
-	"vaddps	  %%ymm5, %%ymm9 , %%ymm5	  \n\t"
-	"prefetcht0	 192(%7,%0,4)		       \n\t"
-	"vmulps   (%7,%0,4), %%ymm15, %%ymm10     \n\t" 
-	"vaddps	  %%ymm4, %%ymm10, %%ymm4	  \n\t"
-	"vmulps 32(%7,%0,4), %%ymm15, %%ymm11     \n\t" 
-	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
-
-	"vmovups  %%ymm4,   (%3,%0,4)		      \n\t"	// 8 * y
-	"vmovups  %%ymm5, 32(%3,%0,4)		      \n\t"	// 8 * y
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11",
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_t.c b/kernel/x86_64/sgemv_t.c
index 532afee5d..f7643101e 100644
--- a/kernel/x86_64/sgemv_t.c
+++ b/kernel/x86_64/sgemv_t.c
@@ -28,16 +28,6 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 #include "common.h"
 
-#if defined(BULLDOZER) || defined(PILEDRIVER)
-#include "sgemv_t_microk_bulldozer-2.c"
-#elif defined(HASWELL)
-#include "sgemv_t_microk_haswell-2.c"
-#elif defined(SANDYBRIDGE)
-#include "sgemv_t_microk_sandy-2.c"
-#elif defined(NEHALEM)
-#include "sgemv_t_microk_nehalem-2.c"
-#endif
-
 #define NBMAX 4096
 
 #ifndef HAVE_KERNEL_16x4
diff --git a/kernel/x86_64/sgemv_t_microk_bulldozer-2.c b/kernel/x86_64/sgemv_t_microk_bulldozer-2.c
deleted file mode 100644
index e4498afa3..000000000
--- a/kernel/x86_64/sgemv_t_microk_bulldozer-2.c
+++ /dev/null
@@ -1,109 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vxorps		%%xmm4, %%xmm4, %%xmm4	 \n\t"
-	"vxorps		%%xmm5, %%xmm5, %%xmm5	 \n\t"
-	"vxorps		%%xmm6, %%xmm6, %%xmm6	 \n\t"
-	"vxorps		%%xmm7, %%xmm7, %%xmm7	 \n\t"
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-        "vmovups        (%2,%0,4), %%xmm12       \n\t"  // 4 * x
-
-	"prefetcht0	 384(%4,%0,4)		       \n\t"
-	"vfmaddps %%xmm4,   (%4,%0,4), %%xmm12, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5,   (%5,%0,4), %%xmm12, %%xmm5 \n\t" 
-        "vmovups      16(%2,%0,4), %%xmm13       \n\t"  // 4 * x
-	"vfmaddps %%xmm6,   (%6,%0,4), %%xmm12, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7,   (%7,%0,4), %%xmm12, %%xmm7 \n\t" 
-	"prefetcht0	 384(%5,%0,4)		       \n\t"
-	"vfmaddps %%xmm4, 16(%4,%0,4), %%xmm13, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 16(%5,%0,4), %%xmm13, %%xmm5 \n\t" 
-        "vmovups      32(%2,%0,4), %%xmm14       \n\t"  // 4 * x
-	"vfmaddps %%xmm6, 16(%6,%0,4), %%xmm13, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 16(%7,%0,4), %%xmm13, %%xmm7 \n\t" 
-	"prefetcht0	 384(%6,%0,4)		       \n\t"
-	"vfmaddps %%xmm4, 32(%4,%0,4), %%xmm14, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 32(%5,%0,4), %%xmm14, %%xmm5 \n\t" 
-        "vmovups      48(%2,%0,4), %%xmm15       \n\t"  // 4 * x
-	"vfmaddps %%xmm6, 32(%6,%0,4), %%xmm14, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 32(%7,%0,4), %%xmm14, %%xmm7 \n\t" 
-	"prefetcht0	 384(%7,%0,4)		       \n\t"
-	"vfmaddps %%xmm4, 48(%4,%0,4), %%xmm15, %%xmm4 \n\t" 
-	"vfmaddps %%xmm5, 48(%5,%0,4), %%xmm15, %%xmm5 \n\t" 
-	"vfmaddps %%xmm6, 48(%6,%0,4), %%xmm15, %%xmm6 \n\t" 
-	"vfmaddps %%xmm7, 48(%7,%0,4), %%xmm15, %%xmm7 \n\t" 
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	"vhaddps        %%xmm4, %%xmm4, %%xmm4	\n\t"
-	"vhaddps        %%xmm5, %%xmm5, %%xmm5	\n\t"
-	"vhaddps        %%xmm6, %%xmm6, %%xmm6	\n\t"
-	"vhaddps        %%xmm7, %%xmm7, %%xmm7	\n\t"
-
-	"vhaddps        %%xmm4, %%xmm4, %%xmm4	\n\t"
-	"vhaddps        %%xmm5, %%xmm5, %%xmm5	\n\t"
-	"vhaddps        %%xmm6, %%xmm6, %%xmm6	\n\t"
-	"vhaddps        %%xmm7, %%xmm7, %%xmm7	\n\t"
-
-	"vmovss		%%xmm4,    (%3)		\n\t"
-	"vmovss		%%xmm5,   4(%3)		\n\t"
-	"vmovss		%%xmm6,   8(%3)		\n\t"
-	"vmovss		%%xmm7,  12(%3)		\n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", 
-	  "%xmm6", "%xmm7", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_t_microk_haswell-2.c b/kernel/x86_64/sgemv_t_microk_haswell-2.c
deleted file mode 100644
index e6d47270d..000000000
--- a/kernel/x86_64/sgemv_t_microk_haswell-2.c
+++ /dev/null
@@ -1,112 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			         \n\t"
-	"vxorps		%%ymm4 , %%ymm4, %%ymm4  \n\t"
-	"vxorps		%%ymm5 , %%ymm5, %%ymm5  \n\t"
-	"vxorps		%%ymm6 , %%ymm6, %%ymm6  \n\t"
-	"vxorps		%%ymm7 , %%ymm7, %%ymm7  \n\t"
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"prefetcht0	 384(%2,%0,4)		 \n\t"
-	"vmovups	(%2,%0,4), %%ymm12       \n\t"	// 8 * x
-	"vmovups      32(%2,%0,4), %%ymm13       \n\t"	// 8 * x
-
-	"prefetcht0	 384(%4,%0,4)		       \n\t"
-	"vfmadd231ps   (%4,%0,4), %%ymm12, %%ymm4      \n\t" 
-	"vfmadd231ps   (%5,%0,4), %%ymm12, %%ymm5      \n\t" 
-	"prefetcht0	 384(%5,%0,4)		       \n\t"
-	"vfmadd231ps 32(%4,%0,4), %%ymm13, %%ymm4      \n\t" 
-	"vfmadd231ps 32(%5,%0,4), %%ymm13, %%ymm5      \n\t" 
-	"prefetcht0	 384(%6,%0,4)		       \n\t"
-	"vfmadd231ps   (%6,%0,4), %%ymm12, %%ymm6      \n\t" 
-	"vfmadd231ps   (%7,%0,4), %%ymm12, %%ymm7      \n\t" 
-	"prefetcht0	 384(%7,%0,4)		       \n\t"
-	"vfmadd231ps 32(%6,%0,4), %%ymm13, %%ymm6      \n\t" 
-	"vfmadd231ps 32(%7,%0,4), %%ymm13, %%ymm7      \n\t" 
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	"vextractf128   $1 , %%ymm4, %%xmm12	      \n\t"
-	"vextractf128   $1 , %%ymm5, %%xmm13	      \n\t"
-	"vextractf128   $1 , %%ymm6, %%xmm14	      \n\t"
-	"vextractf128   $1 , %%ymm7, %%xmm15	      \n\t"
-
-	"vaddps		%%xmm4, %%xmm12, %%xmm4       \n\t"
-	"vaddps		%%xmm5, %%xmm13, %%xmm5       \n\t"
-	"vaddps		%%xmm6, %%xmm14, %%xmm6       \n\t"
-	"vaddps		%%xmm7, %%xmm15, %%xmm7       \n\t"
-
-        "vhaddps        %%xmm4, %%xmm4, %%xmm4  \n\t"
-        "vhaddps        %%xmm5, %%xmm5, %%xmm5  \n\t"
-        "vhaddps        %%xmm6, %%xmm6, %%xmm6  \n\t"
-        "vhaddps        %%xmm7, %%xmm7, %%xmm7  \n\t"
-
-        "vhaddps        %%xmm4, %%xmm4, %%xmm4  \n\t"
-        "vhaddps        %%xmm5, %%xmm5, %%xmm5  \n\t"
-        "vhaddps        %%xmm6, %%xmm6, %%xmm6  \n\t"
-        "vhaddps        %%xmm7, %%xmm7, %%xmm7  \n\t"
-
-        "vmovss         %%xmm4,    (%3)         \n\t"
-        "vmovss         %%xmm5,   4(%3)         \n\t"
-        "vmovss         %%xmm6,   8(%3)         \n\t"
-        "vmovss         %%xmm7,  12(%3)         \n\t"
-
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7",
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_t_microk_nehalem-2.c b/kernel/x86_64/sgemv_t_microk_nehalem-2.c
deleted file mode 100644
index db5a1448b..000000000
--- a/kernel/x86_64/sgemv_t_microk_nehalem-2.c
+++ /dev/null
@@ -1,159 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"xorps		%%xmm0 , %%xmm0	         \n\t"
-	"xorps		%%xmm1 , %%xmm1	         \n\t"
-	"xorps		%%xmm2 , %%xmm2	         \n\t"
-	"xorps		%%xmm3 , %%xmm3	         \n\t"
-	"xorps		%%xmm4 , %%xmm4	         \n\t"
-	"xorps		%%xmm5 , %%xmm5	         \n\t"
-	"xorps		%%xmm6 , %%xmm6	         \n\t"
-	"xorps		%%xmm7 , %%xmm7	         \n\t"
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"prefetcht0	 384(%2,%0,4)		       \n\t"
-	"movups	       (%2,%0,4), %%xmm12        \n\t"	// 4 * x
-	"movups      16(%2,%0,4), %%xmm13        \n\t"	// 4 * x
-	"movups             (%4,%0,4), %%xmm8          \n\t" 
-	"movups      32(%2,%0,4), %%xmm14        \n\t"	// 4 * x
-	"movups      48(%2,%0,4), %%xmm15        \n\t"	// 4 * x
-
-	"prefetcht0	 384(%4,%0,4)		       \n\t"
-
-	"movups           16(%4,%0,4), %%xmm9          \n\t" 
-	"movups           32(%4,%0,4), %%xmm10         \n\t" 
-	"movups           48(%4,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm12, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm0		       \n\t"
-	"mulps		%%xmm13, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm4		       \n\t"
-	"movups             (%5,%0,4), %%xmm8          \n\t" 
-	"mulps		%%xmm14, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm0		       \n\t"
-	"mulps		%%xmm15, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm4		       \n\t"
-
-	"prefetcht0	 384(%5,%0,4)		       \n\t"
-
-	"movups           16(%5,%0,4), %%xmm9          \n\t" 
-	"movups           32(%5,%0,4), %%xmm10         \n\t" 
-	"movups           48(%5,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm12, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm1		       \n\t"
-	"mulps		%%xmm13, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm5		       \n\t"
-	"movups             (%6,%0,4), %%xmm8          \n\t" 
-	"mulps		%%xmm14, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm1		       \n\t"
-	"mulps		%%xmm15, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm5		       \n\t"
-
-	"prefetcht0	 384(%6,%0,4)		       \n\t"
-
-	"movups           16(%6,%0,4), %%xmm9          \n\t" 
-	"movups           32(%6,%0,4), %%xmm10         \n\t" 
-	"movups           48(%6,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm12, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm2		       \n\t"
-	"mulps		%%xmm13, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm6		       \n\t"
-	"movups             (%7,%0,4), %%xmm8          \n\t" 
-	"mulps		%%xmm14, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm2		       \n\t"
-	"mulps		%%xmm15, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm6		       \n\t"
-
-	"prefetcht0	 384(%7,%0,4)		       \n\t"
-
-	"movups           16(%7,%0,4), %%xmm9          \n\t" 
-	"movups           32(%7,%0,4), %%xmm10         \n\t" 
-	"movups           48(%7,%0,4), %%xmm11         \n\t" 
-	"mulps		%%xmm12, %%xmm8		       \n\t"
-	"addps		%%xmm8 , %%xmm3		       \n\t"
-	"mulps		%%xmm13, %%xmm9		       \n\t"
-	"addps		%%xmm9 , %%xmm7		       \n\t"
-	"mulps		%%xmm14, %%xmm10	       \n\t"
-	"addps		%%xmm10, %%xmm3		       \n\t"
-	"mulps		%%xmm15, %%xmm11	       \n\t"
-	"addps		%%xmm11, %%xmm7		       \n\t"
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-	"addps	       %%xmm0, %%xmm4		      \n\t"
-	"addps	       %%xmm1, %%xmm5		      \n\t"
-	"addps	       %%xmm2, %%xmm6		      \n\t"
-	"addps	       %%xmm3, %%xmm7		      \n\t"
-
-        "haddps        %%xmm4, %%xmm4  \n\t"
-        "haddps        %%xmm5, %%xmm5  \n\t"
-        "haddps        %%xmm6, %%xmm6  \n\t"
-        "haddps        %%xmm7, %%xmm7  \n\t"
-
-        "haddps        %%xmm4, %%xmm4  \n\t"
-        "haddps        %%xmm5, %%xmm5  \n\t"
-        "haddps        %%xmm6, %%xmm6  \n\t"
-        "haddps        %%xmm7, %%xmm7  \n\t"
-
-        "movss         %%xmm4,    (%3)         \n\t"
-        "movss         %%xmm5,   4(%3)         \n\t"
-        "movss         %%xmm6,   8(%3)         \n\t"
-        "movss         %%xmm7,  12(%3)         \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11",
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/sgemv_t_microk_sandy-2.c b/kernel/x86_64/sgemv_t_microk_sandy-2.c
deleted file mode 100644
index 841522302..000000000
--- a/kernel/x86_64/sgemv_t_microk_sandy-2.c
+++ /dev/null
@@ -1,132 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void sgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-        "vxorps         %%ymm0 , %%ymm0, %%ymm0  \n\t"
-        "vxorps         %%ymm1 , %%ymm1, %%ymm1  \n\t"
-        "vxorps         %%ymm2 , %%ymm2, %%ymm2  \n\t"
-        "vxorps         %%ymm3 , %%ymm3, %%ymm3  \n\t"
-        "vxorps         %%ymm4 , %%ymm4, %%ymm4  \n\t"
-        "vxorps         %%ymm5 , %%ymm5, %%ymm5  \n\t"
-        "vxorps         %%ymm6 , %%ymm6, %%ymm6  \n\t"
-        "vxorps         %%ymm7 , %%ymm7, %%ymm7  \n\t"
-
-	".align 16				 \n\t"
-	".L01LOOP%=:				 \n\t"
-	"prefetcht0	 384(%2,%0,4)		       \n\t"
-        "vmovups        (%2,%0,4), %%ymm12       \n\t"  // 8 * x
-        "vmovups      32(%2,%0,4), %%ymm13       \n\t"  // 8 * x
-
-	"prefetcht0	 384(%4,%0,4)		       \n\t"
-	"vmulps   (%4,%0,4), %%ymm12, %%ymm8      \n\t" 
-	"vaddps	  %%ymm4, %%ymm8 , %%ymm4	  \n\t"
-	"vmulps 32(%4,%0,4), %%ymm13, %%ymm9      \n\t" 
-	"vaddps	  %%ymm0, %%ymm9 , %%ymm0	  \n\t"
-	"prefetcht0	 384(%5,%0,4)		       \n\t"
-	"vmulps   (%5,%0,4), %%ymm12, %%ymm10     \n\t" 
-	"vaddps	  %%ymm1, %%ymm10, %%ymm1	  \n\t"
-	"vmulps 32(%5,%0,4), %%ymm13, %%ymm11     \n\t" 
-	"vaddps	  %%ymm5, %%ymm11, %%ymm5	  \n\t"
-	"prefetcht0	 384(%6,%0,4)		       \n\t"
-	"vmulps   (%6,%0,4), %%ymm12, %%ymm8      \n\t" 
-	"vaddps	  %%ymm6, %%ymm8 , %%ymm6	  \n\t"
-	"vmulps 32(%6,%0,4), %%ymm13, %%ymm9      \n\t" 
-	"vaddps	  %%ymm2, %%ymm9 , %%ymm2	  \n\t"
-	"prefetcht0	 384(%7,%0,4)		       \n\t"
-	"vmulps   (%7,%0,4), %%ymm12, %%ymm10     \n\t" 
-	"vaddps	  %%ymm7, %%ymm10, %%ymm7	  \n\t"
-	"vmulps 32(%7,%0,4), %%ymm13, %%ymm11     \n\t" 
-	"vaddps	  %%ymm3, %%ymm11, %%ymm3	  \n\t"
-
-        "addq		$16, %0	  	 	      \n\t"
-	"subq	        $16, %1			      \n\t"		
-	"jnz		.L01LOOP%=		      \n\t"
-
-        "vaddps         %%ymm4, %%ymm0, %%ymm4       \n\t"
-        "vaddps         %%ymm5, %%ymm1, %%ymm5       \n\t"
-        "vaddps         %%ymm6, %%ymm2, %%ymm6       \n\t"
-        "vaddps         %%ymm7, %%ymm3, %%ymm7       \n\t"
-
-        "vextractf128   $1 , %%ymm4, %%xmm12          \n\t"
-        "vextractf128   $1 , %%ymm5, %%xmm13          \n\t"
-        "vextractf128   $1 , %%ymm6, %%xmm14          \n\t"
-        "vextractf128   $1 , %%ymm7, %%xmm15          \n\t"
-
-        "vaddps         %%xmm4, %%xmm12, %%xmm4       \n\t"
-        "vaddps         %%xmm5, %%xmm13, %%xmm5       \n\t"
-        "vaddps         %%xmm6, %%xmm14, %%xmm6       \n\t"
-        "vaddps         %%xmm7, %%xmm15, %%xmm7       \n\t"
-
-        "vhaddps        %%xmm4, %%xmm4, %%xmm4  \n\t"
-        "vhaddps        %%xmm5, %%xmm5, %%xmm5  \n\t"
-        "vhaddps        %%xmm6, %%xmm6, %%xmm6  \n\t"
-        "vhaddps        %%xmm7, %%xmm7, %%xmm7  \n\t"
-
-        "vhaddps        %%xmm4, %%xmm4, %%xmm4  \n\t"
-        "vhaddps        %%xmm5, %%xmm5, %%xmm5  \n\t"
-        "vhaddps        %%xmm6, %%xmm6, %%xmm6  \n\t"
-        "vhaddps        %%xmm7, %%xmm7, %%xmm7  \n\t"
-
-        "vmovss         %%xmm4,    (%3)         \n\t"
-        "vmovss         %%xmm5,   4(%3)         \n\t"
-        "vmovss         %%xmm6,   8(%3)         \n\t"
-        "vmovss         %%xmm7,  12(%3)         \n\t"
-
-
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11",
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/zgemv_n.c b/kernel/x86_64/zgemv_n.c
deleted file mode 100644
index 9098368a5..000000000
--- a/kernel/x86_64/zgemv_n.c
+++ /dev/null
@@ -1,258 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#include <stdlib.h>
-#include <stdio.h>
-#include "common.h"
-
-#if defined(HASWELL)
-#include "zgemv_n_microk_haswell-2.c"
-#elif defined(SANDYBRIDGE)
-#include "zgemv_n_microk_sandy-2.c"
-#endif
-
-
-
-#define NBMAX 1024
-
-#ifndef HAVE_KERNEL_16x4
-
-static void zgemv_kernel_16x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
-		y[i]   += a1[i]*x[2] - a1[i+1] * x[3];
-		y[i+1] += a1[i]*x[3] + a1[i+1] * x[2];
-		y[i]   += a2[i]*x[4] - a2[i+1] * x[5];
-		y[i+1] += a2[i]*x[5] + a2[i+1] * x[4];
-		y[i]   += a3[i]*x[6] - a3[i+1] * x[7];
-		y[i+1] += a3[i]*x[7] + a3[i+1] * x[6];
-#else 
-		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
-		y[i]   += a1[i]*x[2] + a1[i+1] * x[3];
-		y[i+1] += a1[i]*x[3] - a1[i+1] * x[2];
-		y[i]   += a2[i]*x[4] + a2[i+1] * x[5];
-		y[i+1] += a2[i]*x[5] - a2[i+1] * x[4];
-		y[i]   += a3[i]*x[6] + a3[i+1] * x[7];
-		y[i+1] += a3[i]*x[7] - a3[i+1] * x[6];
-#endif
-	}
-}
-	
-#endif
-
-static void zgemv_kernel_16x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0;
-	a0 = ap;
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		y[i]   += a0[i]*x[0] - a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] + a0[i+1] * x[0];
-#else 
-		y[i]   += a0[i]*x[0] + a0[i+1] * x[1];
-		y[i+1] += a0[i]*x[1] - a0[i+1] * x[0];
-#endif
-
-	}
-}
-	
-
-static void zero_y(BLASLONG n, FLOAT *dest)
-{
-	BLASLONG i;
-	for ( i=0; i<2*n; i++ )
-	{
-		*dest = 0.0;
-		dest++;
-	}
-}
-
-
-
-static void add_y(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_dest,FLOAT alpha_r, FLOAT alpha_i)
-{
-	BLASLONG i;
-	FLOAT temp_r;
-	FLOAT temp_i;
-	for ( i=0; i<n; i++ )
-	{
-#if !defined(XCONJ) 
-		temp_r = alpha_r * src[0] - alpha_i * src[1];
-		temp_i = alpha_r * src[1] + alpha_i * src[0];
-#else
-		temp_r =  alpha_r * src[0] + alpha_i * src[1];
-		temp_i = -alpha_r * src[1] + alpha_i * src[0];
-#endif
-
-		*dest += temp_r;
-		*(dest+1) += temp_i;
-
-		src+=2;
-		dest += inc_dest;
-	}
-}
-
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r,FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-	BLASLONG i;
-	BLASLONG j;
-	FLOAT *a_ptr;
-	FLOAT *x_ptr;
-	FLOAT *y_ptr;
-	FLOAT *ap[4];
-	BLASLONG n1;
-	BLASLONG m1;
-	BLASLONG m2;
-	BLASLONG n2;
-	FLOAT xbuffer[8],*ybuffer;
-
-
-#if 0
-printf("%s %d %d %.16f %.16f %d %d %d\n","zgemv_n",m,n,alpha_r,alpha_i,lda,inc_x,inc_y);
-#endif
-
-	if ( m < 1 ) return(0);
-	if ( n < 1 ) return(0);
-
-	ybuffer = buffer;
-	
-	inc_x *= 2;
-	inc_y *= 2;
-	lda   *= 2;
-
-	n1 = n / 4 ;
-	n2 = n % 4 ;
-	
-	m1 = m - ( m % 16 );
-	m2 = (m % NBMAX) - (m % 16) ;
-	
-	y_ptr = y;
-
-	BLASLONG NB = NBMAX;
-
-	while ( NB == NBMAX )
-	{
-		
-		m1 -= NB;
-		if ( m1 < 0)
-		{
-			if ( m2 == 0 ) break;	
-			NB = m2;
-		}
-		
-		a_ptr = a;
-		x_ptr = x;
-		zero_y(NB,ybuffer);
-		for( i = 0; i < n1 ; i++)
-		{
-
-			xbuffer[0] = x_ptr[0];
-			xbuffer[1] = x_ptr[1];
-			x_ptr += inc_x;	
-			xbuffer[2] = x_ptr[0];
-			xbuffer[3] = x_ptr[1];
-			x_ptr += inc_x;	
-			xbuffer[4] = x_ptr[0];
-			xbuffer[5] = x_ptr[1];
-			x_ptr += inc_x;	
-			xbuffer[6] = x_ptr[0];
-			xbuffer[7] = x_ptr[1];
-			x_ptr += inc_x;	
-
-			ap[0] = a_ptr;
-			ap[1] = a_ptr + lda;
-			ap[2] = ap[1] + lda;
-			ap[3] = ap[2] + lda;
-			zgemv_kernel_16x4(NB,ap,xbuffer,ybuffer);
-			a_ptr += 4 * lda;
-		}
-
-		for( i = 0; i < n2 ; i++)
-		{
-			xbuffer[0] = x_ptr[0];
-			xbuffer[1] = x_ptr[1];
-			x_ptr += inc_x;	
-			zgemv_kernel_16x1(NB,a_ptr,xbuffer,ybuffer);
-			a_ptr += 1 * lda;
-
-		}
-		add_y(NB,ybuffer,y_ptr,inc_y,alpha_r,alpha_i);
-		a     += 2 * NB;
-		y_ptr += NB * inc_y;
-	}
-
-	j=0;
-	while ( j < (m % 16))
-	{
-		a_ptr = a;
-		x_ptr = x;
-		FLOAT temp_r = 0.0;
-		FLOAT temp_i = 0.0;
-		for( i = 0; i < n; i++ )
-		{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-			temp_r += a_ptr[0] * x_ptr[0] - a_ptr[1] * x_ptr[1];
-			temp_i += a_ptr[0] * x_ptr[1] + a_ptr[1] * x_ptr[0];
-#else
-			temp_r += a_ptr[0] * x_ptr[0] + a_ptr[1] * x_ptr[1];
-			temp_i += a_ptr[0] * x_ptr[1] - a_ptr[1] * x_ptr[0];
-#endif
-
-			a_ptr += lda;
-			x_ptr += inc_x;
-		}
-
-#if !defined(XCONJ) 
-		y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-		y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
-#else
-		y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-		y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
-#endif
-		y_ptr += inc_y;
-		a+=2;
-		j++;
-	}
-	return(0);
-}
-
-
diff --git a/kernel/x86_64/zgemv_n_microk_haswell-2.c b/kernel/x86_64/zgemv_n_microk_haswell-2.c
deleted file mode 100644
index e1c5838f7..000000000
--- a/kernel/x86_64/zgemv_n_microk_haswell-2.c
+++ /dev/null
@@ -1,137 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-
-	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
-	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
-	"vbroadcastsd	16(%2), %%ymm2                  \n\t"  // real part x1
-	"vbroadcastsd	24(%2), %%ymm3                  \n\t"  // imag part x1
-	"vbroadcastsd	32(%2), %%ymm4                  \n\t"  // real part x2
-	"vbroadcastsd	40(%2), %%ymm5                  \n\t"  // imag part x2
-	"vbroadcastsd	48(%2), %%ymm6                  \n\t"  // real part x3
-	"vbroadcastsd	56(%2), %%ymm7                  \n\t"  // imag part x3
-
-
-	".align 16				        \n\t"
-	".L01LOOP%=:				        \n\t"
-	"prefetcht0      192(%4,%0,8)			\n\t"
-	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
-	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
-
-	"prefetcht0      192(%5,%0,8)			\n\t"
-	"vmovups	(%5,%0,8), %%ymm10              \n\t" // 2 complex values form a1
-	"vmovups      32(%5,%0,8), %%ymm11              \n\t" // 2 complex values form a1
-
-	"vmulpd      %%ymm8 , %%ymm0, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vmulpd      %%ymm8 , %%ymm1, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vmulpd      %%ymm9 , %%ymm0, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vmulpd      %%ymm9 , %%ymm1, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"prefetcht0      192(%6,%0,8)			\n\t"
-	"vmovups	(%6,%0,8), %%ymm8	        \n\t" // 2 complex values form a2
-	"vmovups      32(%6,%0,8), %%ymm9	        \n\t" // 2 complex values form a2
-
-	"vfmadd231pd      %%ymm10, %%ymm2, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vfmadd231pd      %%ymm10, %%ymm3, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vfmadd231pd      %%ymm11, %%ymm2, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vfmadd231pd      %%ymm11, %%ymm3, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"prefetcht0      192(%7,%0,8)			\n\t"
-	"vmovups	(%7,%0,8), %%ymm10              \n\t" // 2 complex values form a3
-	"vmovups      32(%7,%0,8), %%ymm11              \n\t" // 2 complex values form a3
-
-	"vfmadd231pd      %%ymm8 , %%ymm4, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vfmadd231pd      %%ymm8 , %%ymm5, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vfmadd231pd      %%ymm9 , %%ymm4, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vfmadd231pd      %%ymm9 , %%ymm5, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"vfmadd231pd      %%ymm10, %%ymm6, %%ymm12      \n\t" // a_r[0] * x_r , a_i[0] * x_r, a_r[1] * x_r, a_i[1] * x_r
-	"vfmadd231pd      %%ymm10, %%ymm7, %%ymm13      \n\t" // a_r[0] * x_i , a_i[0] * x_i, a_r[1] * x_i, a_i[1] * x_i
-	"vfmadd231pd      %%ymm11, %%ymm6, %%ymm14      \n\t" // a_r[2] * x_r , a_i[2] * x_r, a_r[3] * x_r, a_i[3] * x_r
-	"vfmadd231pd      %%ymm11, %%ymm7, %%ymm15      \n\t" // a_r[2] * x_i , a_i[2] * x_i, a_r[3] * x_i, a_i[3] * x_i
-
-	"prefetcht0      192(%3,%0,8)			\n\t"
-	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
-	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
-
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
-        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
-        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
-        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
-#else
-        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
-        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
-        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
-        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
-        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
-#endif
-
-        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
-        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
-
-	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
-	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
-
-        "addq		$8 , %0	  	 	        \n\t"
-	"subq	        $4 , %1			        \n\t"		
-	"jnz		.L01LOOP%=		        \n\t"
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/zgemv_n_microk_sandy-2.c b/kernel/x86_64/zgemv_n_microk_sandy-2.c
deleted file mode 100644
index 352c60f87..000000000
--- a/kernel/x86_64/zgemv_n_microk_sandy-2.c
+++ /dev/null
@@ -1,149 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-
-	"vbroadcastsd	  (%2), %%ymm0                  \n\t"  // real part x0
-	"vbroadcastsd	 8(%2), %%ymm1                  \n\t"  // imag part x0
-	"vbroadcastsd	16(%2), %%ymm2                  \n\t"  // real part x1
-	"vbroadcastsd	24(%2), %%ymm3                  \n\t"  // imag part x1
-	"vbroadcastsd	32(%2), %%ymm4                  \n\t"  // real part x2
-	"vbroadcastsd	40(%2), %%ymm5                  \n\t"  // imag part x2
-	"vbroadcastsd	48(%2), %%ymm6                  \n\t"  // real part x3
-	"vbroadcastsd	56(%2), %%ymm7                  \n\t"  // imag part x3
-
-
-	".align 16				        \n\t"
-	".L01LOOP%=:				        \n\t"
-
-        "prefetcht0      256(%4,%0,8)                   \n\t"
-	"vmovups	(%4,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
-	"vmovups      32(%4,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
-
-	"vmulpd		  %%ymm8 , %%ymm0 , %%ymm12	\n\t"
-	"vmulpd		  %%ymm8 , %%ymm1 , %%ymm13	\n\t"
-        "prefetcht0      256(%5,%0,8)                   \n\t"
-	"vmulpd		  %%ymm9 , %%ymm0 , %%ymm14	\n\t"
-	"vmovups	(%5,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
-	"vmulpd		  %%ymm9 , %%ymm1 , %%ymm15	\n\t"
-	"vmovups      32(%5,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
-
-	"vmulpd		  %%ymm8 , %%ymm2 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
-	"vmulpd		  %%ymm8 , %%ymm3 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
-        "prefetcht0      256(%6,%0,8)                   \n\t"
-	"vmulpd		  %%ymm9 , %%ymm2 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
-	"vmovups	(%6,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
-	"vmulpd		  %%ymm9 , %%ymm3 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
-
-	"vmovups      32(%6,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
-
-	"vmulpd		  %%ymm8 , %%ymm4 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
-	"vmulpd		  %%ymm8 , %%ymm5 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
-        "prefetcht0      256(%7,%0,8)                   \n\t"
-	"vmulpd		  %%ymm9 , %%ymm4 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
-	"vmovups	(%7,%0,8), %%ymm8	        \n\t" // 2 complex values form a0
-	"vmulpd		  %%ymm9 , %%ymm5 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
-
-	"vmovups      32(%7,%0,8), %%ymm9	        \n\t" // 2 complex values form a0
-
-	"vmulpd		  %%ymm8 , %%ymm6 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm12, %%ymm10, %%ymm12	\n\t"
-	"vmulpd		  %%ymm8 , %%ymm7 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm13, %%ymm11, %%ymm13	\n\t"
-	"vmulpd		  %%ymm9 , %%ymm6 , %%ymm10	\n\t"
-	"vaddpd		  %%ymm14, %%ymm10, %%ymm14	\n\t"
-	"vmulpd		  %%ymm9 , %%ymm7 , %%ymm11	\n\t"
-	"vaddpd		  %%ymm15, %%ymm11, %%ymm15	\n\t"
-
-	"prefetcht0      256(%3,%0,8)			\n\t"
-	"vmovups	  (%3,%0,8),  %%ymm10           \n\t"
-	"vmovups	32(%3,%0,8),  %%ymm11           \n\t"
-
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
-        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
-        "vaddsubpd      %%ymm13, %%ymm12, %%ymm8              \n\t"
-        "vaddsubpd      %%ymm15, %%ymm14, %%ymm9              \n\t"
-#else
-        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
-        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
-        "vaddsubpd      %%ymm12, %%ymm13, %%ymm8              \n\t"
-        "vaddsubpd      %%ymm14, %%ymm15, %%ymm9              \n\t"
-        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
-#endif
-
-        "vaddpd         %%ymm8, %%ymm10, %%ymm12              \n\t"
-        "vaddpd         %%ymm9, %%ymm11, %%ymm13              \n\t"
-
-	"vmovups  %%ymm12,   (%3,%0,8)		        \n\t" // 2 complex values to y	
-	"vmovups  %%ymm13, 32(%3,%0,8)		        \n\t"	
-
-        "addq		$8 , %0	  	 	        \n\t"
-	"subq	        $4 , %1			        \n\t"		
-	"jnz		.L01LOOP%=		        \n\t"
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/zgemv_t.c b/kernel/x86_64/zgemv_t.c
deleted file mode 100644
index 9f5444a72..000000000
--- a/kernel/x86_64/zgemv_t.c
+++ /dev/null
@@ -1,272 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-
-#include "common.h"
-
-
-#if defined(BULLDOZER) || defined(PILEDRIVER)
-#include "zgemv_t_microk_bulldozer-2.c"
-#elif defined(HASWELL)
-#include "zgemv_t_microk_haswell-2.c"
-#endif
-
-
-#define NBMAX 1028
-
-#ifndef HAVE_KERNEL_16x4
-
-static void zgemv_kernel_16x4(BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0,*a1,*a2,*a3;
-	a0 = ap[0];
-	a1 = ap[1];
-	a2 = ap[2];
-	a3 = ap[3];
-	FLOAT temp_r0 = 0.0;
-	FLOAT temp_r1 = 0.0;
-	FLOAT temp_r2 = 0.0;
-	FLOAT temp_r3 = 0.0;
-	FLOAT temp_i0 = 0.0;
-	FLOAT temp_i1 = 0.0;
-	FLOAT temp_i2 = 0.0;
-	FLOAT temp_i3 = 0.0;
-
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		temp_r0 += a0[i]*x[i]   - a0[i+1]*x[i+1];		
-		temp_i0 += a0[i]*x[i+1] + a0[i+1]*x[i];		
-		temp_r1 += a1[i]*x[i]   - a1[i+1]*x[i+1];		
-		temp_i1 += a1[i]*x[i+1] + a1[i+1]*x[i];		
-		temp_r2 += a2[i]*x[i]   - a2[i+1]*x[i+1];		
-		temp_i2 += a2[i]*x[i+1] + a2[i+1]*x[i];		
-		temp_r3 += a3[i]*x[i]   - a3[i+1]*x[i+1];		
-		temp_i3 += a3[i]*x[i+1] + a3[i+1]*x[i];		
-#else
-		temp_r0 += a0[i]*x[i]   + a0[i+1]*x[i+1];		
-		temp_i0 += a0[i]*x[i+1] - a0[i+1]*x[i];		
-		temp_r1 += a1[i]*x[i]   + a1[i+1]*x[i+1];		
-		temp_i1 += a1[i]*x[i+1] - a1[i+1]*x[i];		
-		temp_r2 += a2[i]*x[i]   + a2[i+1]*x[i+1];		
-		temp_i2 += a2[i]*x[i+1] - a2[i+1]*x[i];		
-		temp_r3 += a3[i]*x[i]   + a3[i+1]*x[i+1];		
-		temp_i3 += a3[i]*x[i+1] - a3[i+1]*x[i];		
-#endif
-	}
-	y[0] = temp_r0;
-	y[1] = temp_i0;
-	y[2] = temp_r1;
-	y[3] = temp_i1;
-	y[4] = temp_r2;
-	y[5] = temp_i2;
-	y[6] = temp_r3;
-	y[7] = temp_i3;
-}
-	
-#endif
-
-static void zgemv_kernel_16x1(BLASLONG n, FLOAT *ap, FLOAT *x, FLOAT *y)
-{
-	BLASLONG i;
-	FLOAT *a0;
-	a0 = ap;
-	FLOAT temp_r = 0.0;
-	FLOAT temp_i = 0.0;
-
-	for ( i=0; i< 2*n; i+=2 )
-	{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-		temp_r += a0[i]*x[i]   - a0[i+1]*x[i+1];		
-		temp_i += a0[i]*x[i+1] + a0[i+1]*x[i];		
-#else
-		temp_r += a0[i]*x[i]   + a0[i+1]*x[i+1];		
-		temp_i += a0[i]*x[i+1] - a0[i+1]*x[i];		
-#endif
-	}
-	*y      = temp_r;
-	*(y+1)  = temp_i;
-}
-	
-static void copy_x(BLASLONG n, FLOAT *src, FLOAT *dest, BLASLONG inc_src)
-{
-        BLASLONG i;
-        for ( i=0; i<n; i++ )
-        {
-                *dest     = *src;
-                *(dest+1) = *(src+1);
-                dest+=2;
-                src += inc_src;
-        }
-}
-
-
-int CNAME(BLASLONG m, BLASLONG n, BLASLONG dummy1, FLOAT alpha_r, FLOAT alpha_i, FLOAT *a, BLASLONG lda, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y, FLOAT *buffer)
-{
-	BLASLONG i;
-	BLASLONG j;
-	FLOAT *a_ptr;
-	FLOAT *x_ptr;
-	FLOAT *y_ptr;
-	FLOAT *ap[8];
-	BLASLONG n1;
-	BLASLONG m1;
-	BLASLONG m2;
-	BLASLONG n2;
-	FLOAT ybuffer[8],*xbuffer;
-
-        if ( m < 1 ) return(0);
-        if ( n < 1 ) return(0);
-
-        inc_x *= 2;
-        inc_y *= 2;
-        lda   *= 2;
-
-	xbuffer = buffer;
-	
-	n1 = n / 4 ;
-	n2 = n % 4 ;
-	
-	m1 = m - ( m % 16 );
-	m2 = (m % NBMAX) - (m % 16) ;
-	
-
-	BLASLONG NB = NBMAX;
-
-	while ( NB == NBMAX )
-	{
-		
-		m1 -= NB;
-		if ( m1 < 0)
-		{
-			if ( m2 == 0 ) break;	
-			NB = m2;
-		}
-		
-		y_ptr = y;
-		a_ptr = a;
-		x_ptr = x;
-		copy_x(NB,x_ptr,xbuffer,inc_x);
-		for( i = 0; i < n1 ; i++)
-		{
-			ap[0] = a_ptr;
-			ap[1] = a_ptr + lda;
-			ap[2] = ap[1] + lda;
-			ap[3] = ap[2] + lda;
-			zgemv_kernel_16x4(NB,ap,xbuffer,ybuffer);
-			a_ptr += 4 * lda;
-
-#if !defined(XCONJ)
-			y_ptr[0] += alpha_r * ybuffer[0] - alpha_i * ybuffer[1];
-			y_ptr[1] += alpha_r * ybuffer[1] + alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[2] - alpha_i * ybuffer[3];
-			y_ptr[1] += alpha_r * ybuffer[3] + alpha_i * ybuffer[2];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[4] - alpha_i * ybuffer[5];
-			y_ptr[1] += alpha_r * ybuffer[5] + alpha_i * ybuffer[4];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[6] - alpha_i * ybuffer[7];
-			y_ptr[1] += alpha_r * ybuffer[7] + alpha_i * ybuffer[6];
-			y_ptr  += inc_y;
-#else
-			y_ptr[0] += alpha_r * ybuffer[0] + alpha_i * ybuffer[1];
-			y_ptr[1] -= alpha_r * ybuffer[1] - alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[2] + alpha_i * ybuffer[3];
-			y_ptr[1] -= alpha_r * ybuffer[3] - alpha_i * ybuffer[2];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[4] + alpha_i * ybuffer[5];
-			y_ptr[1] -= alpha_r * ybuffer[5] - alpha_i * ybuffer[4];
-			y_ptr  += inc_y;
-			y_ptr[0] += alpha_r * ybuffer[6] + alpha_i * ybuffer[7];
-			y_ptr[1] -= alpha_r * ybuffer[7] - alpha_i * ybuffer[6];
-			y_ptr  += inc_y;
-#endif
-		}
-
-		for( i = 0; i < n2 ; i++)
-		{
-			zgemv_kernel_16x1(NB,a_ptr,xbuffer,ybuffer);
-			a_ptr += 1 * lda;
-
-#if !defined(XCONJ)
-			y_ptr[0] += alpha_r * ybuffer[0] - alpha_i * ybuffer[1];
-			y_ptr[1] += alpha_r * ybuffer[1] + alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-#else
-			y_ptr[0] += alpha_r * ybuffer[0] + alpha_i * ybuffer[1];
-			y_ptr[1] -= alpha_r * ybuffer[1] - alpha_i * ybuffer[0];
-			y_ptr  += inc_y;
-#endif
-
-		}
-		a += 2* NB;
-		x += NB * inc_x;	
-	}
-
-	BLASLONG m3 = m % 16;
-	if ( m3 == 0 ) return(0);
-
-	x_ptr = x;
-	copy_x(m3,x_ptr,xbuffer,inc_x);
-	j=0;
-	a_ptr = a;
-	y_ptr = y;
-	while ( j < n)
-	{
-		FLOAT temp_r = 0.0;
-		FLOAT temp_i = 0.0;
-		for( i = 0; i < m3*2; i+=2 )
-		{
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-			temp_r += a_ptr[i] * xbuffer[i]   - a_ptr[i+1] * xbuffer[i+1];
-			temp_i += a_ptr[i] * xbuffer[i+1] + a_ptr[i+1] * xbuffer[i];
-#else
-			temp_r += a_ptr[i] * xbuffer[i]   + a_ptr[i+1] * xbuffer[i+1];
-			temp_i += a_ptr[i] * xbuffer[i+1] - a_ptr[i+1] * xbuffer[i];
-#endif
-		}
-		a_ptr += lda;
-
-#if !defined(XCONJ) 
-                y_ptr[0] += alpha_r * temp_r - alpha_i * temp_i;
-                y_ptr[1] += alpha_r * temp_i + alpha_i * temp_r;
-#else
-                y_ptr[0] += alpha_r * temp_r + alpha_i * temp_i;
-                y_ptr[1] -= alpha_r * temp_i - alpha_i * temp_r;
-#endif
-
-		y_ptr += inc_y;
-		j++;
-	}
-	return(0);
-}
-
-
diff --git a/kernel/x86_64/zgemv_t_microk_bulldozer-2.c b/kernel/x86_64/zgemv_t_microk_bulldozer-2.c
deleted file mode 100644
index 65d5a10a2..000000000
--- a/kernel/x86_64/zgemv_t_microk_bulldozer-2.c
+++ /dev/null
@@ -1,180 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary froms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary from must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-
-	"vxorpd		%%xmm8 , %%xmm8 , %%xmm8 	\n\t" // temp
-	"vxorpd		%%xmm9 , %%xmm9 , %%xmm9 	\n\t" // temp
-	"vxorpd		%%xmm10, %%xmm10, %%xmm10	\n\t" // temp
-	"vxorpd		%%xmm11, %%xmm11, %%xmm11	\n\t" // temp
-	"vxorpd		%%xmm12, %%xmm12, %%xmm12	\n\t" // temp
-	"vxorpd		%%xmm13, %%xmm13, %%xmm13	\n\t"
-	"vxorpd		%%xmm14, %%xmm14, %%xmm14	\n\t"
-	"vxorpd		%%xmm15, %%xmm15, %%xmm15	\n\t"
-
-	".align 16				        \n\t"
-	".L01LOOP%=:				        \n\t"
-
-	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
-	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
-
-	"prefetcht0  192(%4,%0,8)                       \n\t"
-	"vmovups	(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
-	"prefetcht0  192(%5,%0,8)                       \n\t"
-	"vmovups	(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
-	"prefetcht0  192(%6,%0,8)                       \n\t"
-	"vmovups	(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
-	"prefetcht0  192(%7,%0,8)                       \n\t"
-	"vmovups	(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
-
-	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
-	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
-
-	"vmovddup	 16(%2,%0,8), %%xmm0            \n\t"  // real value from x0
-	"vmovddup	 24(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
-
-	"vmovups      16(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
-	"vmovups      16(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
-	"vmovups      16(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
-	"vmovups      16(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
-
-	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
-	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
-
-	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
-	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
-
-	"vmovups      32(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
-	"vmovups      32(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
-	"vmovups      32(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
-	"vmovups      32(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
-
-	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
-	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
-
-	"vmovddup	 48(%2,%0,8), %%xmm0            \n\t"  // real value from x0
-	"vmovddup	 56(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
-
-	"vmovups      48(%4,%0,8), %%xmm4	        \n\t" // 1 complex values from a0
-	"vmovups      48(%5,%0,8), %%xmm5               \n\t" // 1 complex values from a1
-	"vmovups      48(%6,%0,8), %%xmm6	        \n\t" // 1 complex values from a2
-	"vmovups      48(%7,%0,8), %%xmm7               \n\t" // 1 complex values from a3
-
-	"vfmaddpd   %%xmm8 ,   %%xmm4 , %%xmm0, %%xmm8       \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm9 ,   %%xmm4 , %%xmm1, %%xmm9       \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm10,   %%xmm5 , %%xmm0, %%xmm10      \n\t" // ar0*xr0,al0*xr0
-	"vfmaddpd   %%xmm11,   %%xmm5 , %%xmm1, %%xmm11      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm12,   %%xmm6 , %%xmm0, %%xmm12      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm13,   %%xmm6 , %%xmm1, %%xmm13      \n\t" // ar0*xl0,al0*xl0 
-	"vfmaddpd   %%xmm14,   %%xmm7 , %%xmm0, %%xmm14      \n\t" // ar0*xr0,al0*xr0 
-	"vfmaddpd   %%xmm15,   %%xmm7 , %%xmm1, %%xmm15      \n\t" // ar0*xl0,al0*xl0 
-
-        "addq		$8 , %0	  	 	        \n\t"
-	"subq	        $4 , %1			        \n\t"		
-	"jnz		.L01LOOP%=		        \n\t"
-
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        "vpermilpd      $0x1 , %%xmm9 , %%xmm9                \n\t"
-        "vpermilpd      $0x1 , %%xmm11, %%xmm11               \n\t"
-        "vpermilpd      $0x1 , %%xmm13, %%xmm13               \n\t"
-        "vpermilpd      $0x1 , %%xmm15, %%xmm15               \n\t"
-        "vaddsubpd      %%xmm9 , %%xmm8, %%xmm8               \n\t" 
-        "vaddsubpd      %%xmm11, %%xmm10, %%xmm10             \n\t"
-        "vaddsubpd      %%xmm13, %%xmm12, %%xmm12             \n\t"
-        "vaddsubpd      %%xmm15, %%xmm14, %%xmm14             \n\t"
-#else
-        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
-        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
-        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
-        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
-        "vaddsubpd      %%xmm8 , %%xmm9 , %%xmm8              \n\t"
-        "vaddsubpd      %%xmm10, %%xmm11, %%xmm10             \n\t"
-        "vaddsubpd      %%xmm12, %%xmm13, %%xmm12             \n\t"
-        "vaddsubpd      %%xmm14, %%xmm15, %%xmm14             \n\t"
-        "vpermilpd      $0x1 , %%xmm8 , %%xmm8                \n\t"
-        "vpermilpd      $0x1 , %%xmm10, %%xmm10               \n\t"
-        "vpermilpd      $0x1 , %%xmm12, %%xmm12               \n\t"
-        "vpermilpd      $0x1 , %%xmm14, %%xmm14               \n\t"
-#endif
-
-
-	"vmovups	%%xmm8 ,   (%3)			\n\t"
-	"vmovups	%%xmm10, 16(%3)			\n\t"
-	"vmovups	%%xmm12, 32(%3)			\n\t"
-	"vmovups	%%xmm14, 48(%3)			\n\t"
-
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-
diff --git a/kernel/x86_64/zgemv_t_microk_haswell-2.c b/kernel/x86_64/zgemv_t_microk_haswell-2.c
deleted file mode 100644
index 8325db5cf..000000000
--- a/kernel/x86_64/zgemv_t_microk_haswell-2.c
+++ /dev/null
@@ -1,162 +0,0 @@
-/***************************************************************************
-Copyright (c) 2014, The OpenBLAS Project
-All rights reserved.
-Redistribution and use in source and binary froms, with or without
-modification, are permitted provided that the following conditions are
-met:
-1. Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-2. Redistributions in binary from must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in
-the documentation and/or other materials provided with the
-distribution.
-3. Neither the name of the OpenBLAS project nor the names of
-its contributors may be used to endorse or promote products
-derived from this software without specific prior written permission.
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
-USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*****************************************************************************/
-
-#define HAVE_KERNEL_16x4 1
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y) __attribute__ ((noinline));
-
-static void zgemv_kernel_16x4( BLASLONG n, FLOAT **ap, FLOAT *x, FLOAT *y)
-{
-
-	BLASLONG register i = 0;
-
-	__asm__  __volatile__
-	(
-	"vzeroupper			 \n\t"
-
-	"vxorpd		%%ymm8 , %%ymm8 , %%ymm8 	\n\t" // temp
-	"vxorpd		%%ymm9 , %%ymm9 , %%ymm9 	\n\t" // temp
-	"vxorpd		%%ymm10, %%ymm10, %%ymm10	\n\t" // temp
-	"vxorpd		%%ymm11, %%ymm11, %%ymm11	\n\t" // temp
-	"vxorpd		%%ymm12, %%ymm12, %%ymm12	\n\t" // temp
-	"vxorpd		%%ymm13, %%ymm13, %%ymm13	\n\t"
-	"vxorpd		%%ymm14, %%ymm14, %%ymm14	\n\t"
-	"vxorpd		%%ymm15, %%ymm15, %%ymm15	\n\t"
-
-	".align 16				        \n\t"
-	".L01LOOP%=:				        \n\t"
-
-        "prefetcht0      192(%2,%0,8)                   \n\t"
-	"vmovddup	   (%2,%0,8), %%xmm0            \n\t"  // real value from x0
-        "prefetcht0      192(%4,%0,8)                   \n\t"
-	"vmovups	(%5,%0,8), %%ymm5               \n\t" // 2 complex values from a1
-	"vmovddup	  8(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
-	"vmovups	(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
-        "prefetcht0      192(%5,%0,8)                   \n\t"
-	"vmovddup	 16(%2,%0,8), %%xmm2            \n\t"  // real value from x1
-        "prefetcht0      192(%6,%0,8)                   \n\t"
-	"vmovups	(%6,%0,8), %%ymm6	        \n\t" // 2 complex values from a2
-	"vmovddup	 24(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
-        "prefetcht0      192(%7,%0,8)                   \n\t"
-	"vmovups	(%7,%0,8), %%ymm7               \n\t" // 2 complex values from a3
-	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
-	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
-
-	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231pd      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231pd      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231pd      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-
-	"vmovups       32(%4,%0,8), %%ymm4	        \n\t" // 2 complex values from a0
-	"vmovups       32(%5,%0,8), %%ymm5              \n\t" // 2 complex values from a1
-	"vmovddup	 32(%2,%0,8), %%xmm0            \n\t"  // real value from x0
-	"vmovddup	 40(%2,%0,8), %%xmm1            \n\t"  // imag value from x0
-	"vmovddup	 48(%2,%0,8), %%xmm2            \n\t"  // real value from x1
-	"vmovddup	 56(%2,%0,8), %%xmm3            \n\t"  // imag value from x1
-	"vmovups       32(%6,%0,8), %%ymm6	        \n\t" // 2 complex values from a2
-	"vmovups       32(%7,%0,8), %%ymm7               \n\t" // 2 complex values from a3
-	"vinsertf128	 $1, %%xmm2, %%ymm0 , %%ymm0	\n\t"  // real values from x0 and x1
-	"vinsertf128	 $1, %%xmm3, %%ymm1 , %%ymm1	\n\t"  // imag values from x0 and x1
-
-	"vfmadd231pd      %%ymm4 , %%ymm0, %%ymm8       \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm4 , %%ymm1, %%ymm9       \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231pd      %%ymm5 , %%ymm0, %%ymm10      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm5 , %%ymm1, %%ymm11      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231pd      %%ymm6 , %%ymm0, %%ymm12      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm6 , %%ymm1, %%ymm13      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-	"vfmadd231pd      %%ymm7 , %%ymm0, %%ymm14      \n\t" // ar0*xr0,al0*xr0,ar1*xr1,al1*xr1 
-	"vfmadd231pd      %%ymm7 , %%ymm1, %%ymm15      \n\t" // ar0*xl0,al0*xl0,ar1*xl1,al1*xl1 
-
-        "addq		$8 , %0	  	 	        \n\t"
-	"subq	        $4 , %1			        \n\t"		
-	"jnz		.L01LOOP%=		        \n\t"
-
-#if ( !defined(CONJ) && !defined(XCONJ) ) || ( defined(CONJ) && defined(XCONJ) )
-        "vpermilpd      $0x5 , %%ymm9 , %%ymm9                \n\t"
-        "vpermilpd      $0x5 , %%ymm11, %%ymm11               \n\t"
-        "vpermilpd      $0x5 , %%ymm13, %%ymm13               \n\t"
-        "vpermilpd      $0x5 , %%ymm15, %%ymm15               \n\t"
-        "vaddsubpd      %%ymm9 , %%ymm8, %%ymm8               \n\t" 
-        "vaddsubpd      %%ymm11, %%ymm10, %%ymm10             \n\t"
-        "vaddsubpd      %%ymm13, %%ymm12, %%ymm12             \n\t"
-        "vaddsubpd      %%ymm15, %%ymm14, %%ymm14             \n\t"
-#else
-        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilpd      $0x5 , %%ymm10, %%ymm10               \n\t"
-        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
-        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
-        "vaddsubpd      %%ymm8 , %%ymm9 , %%ymm8              \n\t"
-        "vaddsubpd      %%ymm10, %%ymm11, %%ymm10             \n\t"
-        "vaddsubpd      %%ymm12, %%ymm13, %%ymm12             \n\t"
-        "vaddsubpd      %%ymm14, %%ymm15, %%ymm14             \n\t"
-        "vpermilpd      $0x5 , %%ymm8 , %%ymm8                \n\t"
-        "vpermilpd      $0x5 , %%ymm10, %%ymm10               \n\t"
-        "vpermilpd      $0x5 , %%ymm12, %%ymm12               \n\t"
-        "vpermilpd      $0x5 , %%ymm14, %%ymm14               \n\t"
-#endif
-
-	"vextractf128   $1, %%ymm8 , %%xmm9		      \n\t"
-	"vextractf128   $1, %%ymm10, %%xmm11	      	      \n\t"
-	"vextractf128   $1, %%ymm12, %%xmm13		      \n\t"
-	"vextractf128   $1, %%ymm14, %%xmm15		      \n\t"
-
-	"vaddpd		%%xmm8 , %%xmm9 , %%xmm8       \n\t"
-	"vaddpd		%%xmm10, %%xmm11, %%xmm10      \n\t"
-	"vaddpd		%%xmm12, %%xmm13, %%xmm12      \n\t"
-	"vaddpd		%%xmm14, %%xmm15, %%xmm14      \n\t"
-
-	"vmovups	%%xmm8 ,   (%3)			\n\t"
-	"vmovups	%%xmm10, 16(%3)			\n\t"
-	"vmovups	%%xmm12, 32(%3)			\n\t"
-	"vmovups	%%xmm14, 48(%3)			\n\t"
-
-	"vzeroupper			 \n\t"
-
-	:
-        : 
-          "r" (i),	// 0	
-	  "r" (n),  	// 1
-          "r" (x),      // 2
-          "r" (y),      // 3
-          "r" (ap[0]),  // 4
-          "r" (ap[1]),  // 5
-          "r" (ap[2]),  // 6
-          "r" (ap[3])   // 7
-	: "cc", 
-	  "%xmm0", "%xmm1", "%xmm2", "%xmm3", 
-	  "%xmm4", "%xmm5", "%xmm6", "%xmm7", 
-	  "%xmm8", "%xmm9", "%xmm10", "%xmm11", 
-	  "%xmm12", "%xmm13", "%xmm14", "%xmm15",
-	  "memory"
-	);
-
-} 
-
-