From 84bd0aabaa1c59746c63e49d75b9ea2394457e1b Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 28 Jul 2013 16:47:58 +0200
Subject: [PATCH 01/11] added dtrsm_kernel_LT_8x2_bulldozer.S

---
 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S | 1395 +++++++++++++++++
 1 file changed, 1395 insertions(+)
 create mode 100644 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S

diff --git a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
new file mode 100644
index 000000000..af7f18f21
--- /dev/null
+++ b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
@@ -0,0 +1,1395 @@
+/*********************************************************************/
+/* Copyright 2009, 2010 The University of Texas at Austin.           */
+/* All rights reserved.                                              */
+/*                                                                   */
+/* Redistribution and use in source and binary forms, with or        */
+/* without modification, are permitted provided that the following   */
+/* conditions are met:                                               */
+/*                                                                   */
+/*   1. Redistributions of source code must retain the above         */
+/*      copyright notice, this list of conditions and the following  */
+/*      disclaimer.                                                  */
+/*                                                                   */
+/*   2. Redistributions in binary form must reproduce the above      */
+/*      copyright notice, this list of conditions and the following  */
+/*      disclaimer in the documentation and/or other materials       */
+/*      provided with the distribution.                              */
+/*                                                                   */
+/*    THIS  SOFTWARE IS PROVIDED  BY THE  UNIVERSITY OF  TEXAS AT    */
+/*    AUSTIN  ``AS IS''  AND ANY  EXPRESS OR  IMPLIED WARRANTIES,    */
+/*    INCLUDING, BUT  NOT LIMITED  TO, THE IMPLIED  WARRANTIES OF    */
+/*    MERCHANTABILITY  AND FITNESS FOR  A PARTICULAR  PURPOSE ARE    */
+/*    DISCLAIMED.  IN  NO EVENT SHALL THE UNIVERSITY  OF TEXAS AT    */
+/*    AUSTIN OR CONTRIBUTORS BE  LIABLE FOR ANY DIRECT, INDIRECT,    */
+/*    INCIDENTAL,  SPECIAL, EXEMPLARY,  OR  CONSEQUENTIAL DAMAGES    */
+/*    (INCLUDING, BUT  NOT LIMITED TO,  PROCUREMENT OF SUBSTITUTE    */
+/*    GOODS  OR  SERVICES; LOSS  OF  USE,  DATA,  OR PROFITS;  OR    */
+/*    BUSINESS INTERRUPTION) HOWEVER CAUSED  AND ON ANY THEORY OF    */
+/*    LIABILITY, WHETHER  IN CONTRACT, STRICT  LIABILITY, OR TORT    */
+/*    (INCLUDING NEGLIGENCE OR OTHERWISE)  ARISING IN ANY WAY OUT    */
+/*    OF  THE  USE OF  THIS  SOFTWARE,  EVEN  IF ADVISED  OF  THE    */
+/*    POSSIBILITY OF SUCH DAMAGE.                                    */
+/*                                                                   */
+/* The views and conclusions contained in the software and           */
+/* documentation are those of the authors and should not be          */
+/* interpreted as representing official policies, either expressed   */
+/* or implied, of The University of Texas at Austin.                 */
+/*********************************************************************/
+
+#define ASSEMBLER
+#include "common.h"
+ 
+#define OLD_M	%rdi
+#define OLD_N	%rsi
+#define M	%r13
+#define N	%r14
+#define K	%rdx
+
+#define A	%rcx
+#define B	%r8
+#define C	%r9
+#define LDC	%r10
+	
+#define I	%r11
+#define AO	%rdi
+#define BO	%rsi
+#define	CO1	%r15
+#define CO2	%r12
+#define BB	%rbp
+#define	J	%rbx
+
+#ifndef WINDOWS_ABI
+
+#define STACKSIZE 96
+
+#define OFFSET	 48(%rsp)
+#define AORIG	 56(%rsp)
+#define KK	 64(%rsp)
+#define KKK	 72(%rsp)
+
+#else
+
+#define STACKSIZE 256
+
+#define OLD_A		40 + STACKSIZE(%rsp)
+#define OLD_B		48 + STACKSIZE(%rsp)
+#define OLD_C		56 + STACKSIZE(%rsp)
+#define OLD_LDC		64 + STACKSIZE(%rsp)
+#define OLD_OFFSET	72 + STACKSIZE(%rsp)
+
+#define OFFSET	224(%rsp)
+#define AORIG	232(%rsp)
+#define KK	240(%rsp)
+#define KKK	248(%rsp)
+
+#endif
+
+#define PREFETCH     prefetch
+#define PREFETCHSIZE  (8 *  7 + 0)
+
+#define movlpd	vmovsd
+#define movapd	vmovups
+#define movupd	vmovups
+
+.macro KERNEL8x2_SUB
+	vmovddup	-16*SIZE(BO,%rax,2), %xmm1
+	vmovddup	-15*SIZE(BO,%rax,2), %xmm2
+	vmovups		-16*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vfmaddpd	%xmm9 , %xmm0 , %xmm2 , %xmm9
+	vmovups		-14*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
+	vfmaddpd	%xmm11, %xmm0 , %xmm2 , %xmm11
+	vmovups		-12*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm12, %xmm0 , %xmm1 , %xmm12
+	vfmaddpd	%xmm13, %xmm0 , %xmm2 , %xmm13
+	vmovups		-10*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm14, %xmm0 , %xmm1 , %xmm14
+	vfmaddpd	%xmm15, %xmm0 , %xmm2 , %xmm15
+	addq    $SIZE, %rax
+.endm
+
+.macro KERNEL8x1_SUB
+	vmovddup	-16*SIZE(BO,%rax,1), %xmm1
+	vmovups		-16*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vmovups		-14*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm9 , %xmm0 , %xmm1 , %xmm9
+	vmovups		-12*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
+	vmovups		-10*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm11, %xmm0 , %xmm1 , %xmm11
+	addq    $SIZE, %rax
+.endm
+
+
+
+
+	PROLOGUE
+	PROFCODE
+	
+	subq	$STACKSIZE, %rsp
+	movq	%rbx,   (%rsp)
+	movq	%rbp,  8(%rsp)
+	movq	%r12, 16(%rsp)
+	movq	%r13, 24(%rsp)
+	movq	%r14, 32(%rsp)
+	movq	%r15, 40(%rsp)
+
+#ifdef WINDOWS_ABI
+	movq	%rdi,    48(%rsp)
+	movq	%rsi,    56(%rsp)
+	movups	%xmm6,   64(%rsp)
+	movups	%xmm7,   80(%rsp)
+	movups	%xmm8,   96(%rsp)
+	movups	%xmm9,  112(%rsp)
+	movups	%xmm10, 128(%rsp)
+	movups	%xmm11, 144(%rsp)
+	movups	%xmm12, 160(%rsp)
+	movups	%xmm13, 176(%rsp)
+	movups	%xmm14, 192(%rsp)
+	movups	%xmm15, 208(%rsp)
+
+	movq	ARG1,      OLD_M
+	movq	ARG2,      OLD_N
+	movq	ARG3,      K
+	movq	OLD_A,     A
+	movq	OLD_B,     B
+	movq	OLD_C,     C
+	movq	OLD_LDC,   LDC
+	movsd	OLD_OFFSET, %xmm12
+#else
+	movq	STACKSIZE +  8(%rsp), LDC
+	movsd	STACKSIZE + 16(%rsp), %xmm12
+#endif
+
+	movq	OLD_M, M
+	movq	OLD_N, N
+
+	subq	$-16 * SIZE, A
+	subq	$-16 * SIZE, B
+
+	movsd	%xmm12, OFFSET
+	movsd	%xmm12, KK
+
+	leaq	(, LDC, SIZE), LDC
+
+
+	movq	N,  J
+	sarq	$1, J		# j = (n >> 1)
+	jle	.L80
+	ALIGN_4
+
+.L01:
+
+	movq	A, AO
+
+	movq	C, CO1			# coffset1 = c
+	leaq	(C, LDC, 1), CO2	# coffset2 = c + ldc
+	leaq    (C, LDC, 2), C
+
+	movq	OFFSET, %rax
+	movq	%rax, KK
+
+	movq	M,  I
+	sarq	$3, I	# i = (m >> 3)
+	jle	.L50_A
+	ALIGN_4
+/*********************************************************************************/
+.L51:
+
+	movq	B, BO
+
+	vxorpd	%xmm8 , %xmm8 , %xmm8
+	vxorpd	%xmm9 , %xmm9 , %xmm9
+	vxorpd	%xmm10, %xmm10, %xmm10
+	vxorpd	%xmm11, %xmm11, %xmm11
+	vxorpd	%xmm12, %xmm12, %xmm12
+	vxorpd	%xmm13, %xmm13, %xmm13
+	vxorpd	%xmm14, %xmm14, %xmm14
+	vxorpd	%xmm15, %xmm15, %xmm15
+
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L56
+	ALIGN_4
+
+.L52:
+	KERNEL8x2_SUB
+	KERNEL8x2_SUB
+	KERNEL8x2_SUB
+	KERNEL8x2_SUB
+
+	jl	.L52
+	ALIGN_4
+
+.L56:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L59
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L57:
+	KERNEL8x2_SUB
+
+	jl	.L57
+	ALIGN_4
+
+.L59:
+
+        vmovups  %xmm8 , %xmm1
+        unpcklpd %xmm9 , %xmm8
+        unpckhpd %xmm9 , %xmm1
+
+	vmovups		-16 * SIZE(BO), %xmm0
+        vsubpd  	%xmm8 , %xmm0 , %xmm0
+	vmovups		-14 * SIZE(BO), %xmm8
+        vsubpd  	%xmm1 , %xmm8 , %xmm1
+
+        vmovups  %xmm10, %xmm3
+        unpcklpd %xmm11, %xmm10
+        unpckhpd %xmm11, %xmm3
+
+	vmovups		-12 * SIZE(BO), %xmm8
+	vmovups		-10 * SIZE(BO), %xmm9
+        vsubpd  	%xmm10, %xmm8 , %xmm2
+        vsubpd  	%xmm3 , %xmm9 , %xmm3
+
+        vmovups  %xmm12, %xmm5
+        unpcklpd %xmm13, %xmm12
+        unpckhpd %xmm13, %xmm5
+
+	vmovups		 -8 * SIZE(BO), %xmm8
+	vmovups		 -6 * SIZE(BO), %xmm9
+        vsubpd  	%xmm12, %xmm8 , %xmm4
+        vsubpd  	%xmm5 , %xmm9 , %xmm5
+
+        vmovups  %xmm14, %xmm7
+        unpcklpd %xmm15, %xmm14
+        unpckhpd %xmm15, %xmm7
+
+	vmovups		 -4 * SIZE(BO), %xmm8
+	vmovups		 -2 * SIZE(BO), %xmm9
+        vsubpd  	%xmm14, %xmm8 , %xmm6
+        vsubpd  	%xmm7 , %xmm9 , %xmm7
+
+	vmovddup        -16 * SIZE(AO), %xmm8
+        vmulpd                  %xmm0 , %xmm8 , %xmm0
+        vmovddup        -15 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm1 , %xmm0 , %xmm9 , %xmm1 
+        vmovddup        -14 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm2 , %xmm0 , %xmm10, %xmm2 
+        vmovddup        -13 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm0 , %xmm11, %xmm3 
+	vmovddup        -12 * SIZE(AO), %xmm8
+        vfnmaddpd       %xmm4 , %xmm0 , %xmm8 , %xmm4 
+        vmovddup        -11 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm0 , %xmm9 , %xmm5 
+        vmovddup        -10 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm0 , %xmm10, %xmm6 
+        vmovddup         -9 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm0 , %xmm11, %xmm7 
+
+	vmovddup         -7 * SIZE(AO), %xmm8
+	vmulpd                  %xmm1 , %xmm8 , %xmm1
+        vmovddup         -6 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm2 , %xmm1 , %xmm10, %xmm2 
+        vmovddup         -5 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm1 , %xmm11, %xmm3 
+	vmovddup         -4 * SIZE(AO), %xmm8
+        vfnmaddpd       %xmm4 , %xmm1 , %xmm8 , %xmm4 
+        vmovddup         -3 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm1 , %xmm9 , %xmm5 
+        vmovddup         -2 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm1 , %xmm10, %xmm6 
+        vmovddup         -1 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm1 , %xmm11, %xmm7 
+
+	vmovddup          2 * SIZE(AO), %xmm8
+	vmulpd                  %xmm2 , %xmm8 , %xmm2
+        vmovddup          3 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm2 , %xmm11, %xmm3 
+	vmovddup          4 * SIZE(AO), %xmm8
+        vfnmaddpd       %xmm4 , %xmm2 , %xmm8 , %xmm4 
+        vmovddup          5 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm2 , %xmm9 , %xmm5 
+        vmovddup          6 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm2 , %xmm10, %xmm6 
+        vmovddup          7 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm2 , %xmm11, %xmm7 
+
+	vmovddup         11 * SIZE(AO), %xmm8
+	vmulpd                  %xmm3 , %xmm8 , %xmm3
+        vmovddup         12 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm4 , %xmm3 , %xmm11, %xmm4 
+        vmovddup         13 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm3 , %xmm9 , %xmm5 
+        vmovddup         14 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm3 , %xmm10, %xmm6 
+        vmovddup         15 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm3 , %xmm11, %xmm7 
+
+	vmovddup         20 * SIZE(AO), %xmm8
+	vmulpd                  %xmm4 , %xmm8 , %xmm4
+        vmovddup         21 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm4 , %xmm9 , %xmm5 
+        vmovddup         22 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm4 , %xmm10, %xmm6 
+        vmovddup         23 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm4 , %xmm11, %xmm7 
+
+	vmovddup         29 * SIZE(AO), %xmm8
+	vmulpd                  %xmm5 , %xmm8 , %xmm5
+        vmovddup         30 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm5 , %xmm10, %xmm6 
+        vmovddup         31 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm5 , %xmm11, %xmm7 
+
+	vmovddup         38 * SIZE(AO), %xmm8
+	vmulpd                  %xmm6 , %xmm8 , %xmm6
+        vmovddup         39 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm6 , %xmm11, %xmm7 
+
+	vmovddup         47 * SIZE(AO), %xmm8
+	vmulpd                  %xmm7 , %xmm8 , %xmm7
+
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+	vmovsd	%xmm2 ,  2 * SIZE(CO1)
+	vmovsd	%xmm3 ,  3 * SIZE(CO1)
+	vmovsd	%xmm4 ,  4 * SIZE(CO1)
+	vmovsd	%xmm5 ,  5 * SIZE(CO1)
+	vmovsd	%xmm6 ,  6 * SIZE(CO1)
+	vmovsd	%xmm7 ,  7 * SIZE(CO1)
+
+	vmovhpd	%xmm0 ,  0 * SIZE(CO2)
+	vmovhpd	%xmm1 ,  1 * SIZE(CO2)
+	vmovhpd	%xmm2 ,  2 * SIZE(CO2)
+	vmovhpd	%xmm3 ,  3 * SIZE(CO2)
+	vmovhpd	%xmm4 ,  4 * SIZE(CO2)
+	vmovhpd	%xmm5 ,  5 * SIZE(CO2)
+	vmovhpd	%xmm6 ,  6 * SIZE(CO2)
+	vmovhpd	%xmm7 ,  7 * SIZE(CO2)
+
+	vmovups	%xmm0 , -16 * SIZE(BO)
+	vmovups	%xmm1 , -14 * SIZE(BO)
+	vmovups	%xmm2 , -12 * SIZE(BO)
+	vmovups	%xmm3 , -10 * SIZE(BO)
+	vmovups	%xmm4 ,  -8 * SIZE(BO)
+	vmovups	%xmm5 ,  -6 * SIZE(BO)
+	vmovups	%xmm6 ,  -4 * SIZE(BO)
+	vmovups	%xmm7 ,  -2 * SIZE(BO)
+
+	addq	$8 * SIZE, CO1
+	addq	$8 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$8, KK
+
+	decq	I			# i --
+	jg	.L51
+	ALIGN_4	
+
+/*********************************************************************************/
+
+.L50_A:
+	testq	$4, M
+	je	.L80
+
+.L51_A:
+
+	movq	B, BO
+
+	movddup	-16 * SIZE(BO), %xmm1
+	movddup	-15 * SIZE(BO), %xmm5
+	pxor	%xmm8, %xmm8
+	movddup	-12 * SIZE(BO), %xmm3
+	pxor	%xmm9, %xmm9
+	movapd	-16 * SIZE(AO), %xmm0
+	pxor	%xmm12, %xmm12
+	movapd	 -8 * SIZE(AO), %xmm4
+	pxor	%xmm13, %xmm13
+
+	movapd	%xmm0, %xmm2
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L56_A
+	ALIGN_4
+
+.L52_A:
+	mulpd	%xmm1, %xmm0
+	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
+	addpd	%xmm0, %xmm8
+	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
+	addpd	%xmm1, %xmm12
+	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm5, %xmm2
+	mulpd	-14 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm2, %xmm9
+	addpd	%xmm5, %xmm13
+	movddup	-13 * SIZE(BO, %rax, 2), %xmm5
+	movapd	%xmm0, %xmm2
+	mulpd	%xmm1, %xmm0
+	mulpd	-10 * SIZE(AO, %rax, 4), %xmm1
+	addpd	%xmm0, %xmm8
+	movapd	  (AO, %rax, 4), %xmm0
+	addpd	%xmm1, %xmm12
+	movddup	 -8 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm5, %xmm2
+	mulpd	-10 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm2, %xmm9
+	addpd	%xmm5, %xmm13
+	movddup	-11 * SIZE(BO, %rax, 2), %xmm5
+	movapd	%xmm4, %xmm2
+	mulpd	%xmm3, %xmm4
+	mulpd	 -6 * SIZE(AO, %rax, 4), %xmm3
+	addpd	%xmm4, %xmm8
+	movapd	 -4 * SIZE(AO, %rax, 4), %xmm4
+	addpd	%xmm3, %xmm12
+	movddup	-10 * SIZE(BO, %rax, 2), %xmm3
+	mulpd	%xmm5, %xmm2
+	mulpd	 -6 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm2, %xmm9
+	addpd	%xmm5, %xmm13
+	movddup	 -9 * SIZE(BO, %rax, 2), %xmm5
+	movapd	%xmm4, %xmm2
+	mulpd	%xmm3, %xmm4
+	mulpd	 -2 * SIZE(AO, %rax, 4), %xmm3
+	addpd	%xmm4, %xmm8
+	movapd	  8 * SIZE(AO, %rax, 4), %xmm4
+	addpd	%xmm3, %xmm12
+	movddup	 -4 * SIZE(BO, %rax, 2), %xmm3
+	mulpd	%xmm5, %xmm2
+	mulpd	 -2 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm2, %xmm9
+	addpd	%xmm5, %xmm13
+	movddup	 -7 * SIZE(BO, %rax, 2), %xmm5
+	movapd	%xmm0, %xmm2
+
+	addq	$4 * SIZE, %rax
+	BRANCH
+	jl	.L52_A
+	ALIGN_4
+
+.L56_A:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L59_A
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L57_A:
+	mulpd	%xmm1, %xmm0
+	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
+	addpd	%xmm0, %xmm8
+	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
+	addpd	%xmm1, %xmm12
+	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm5, %xmm2
+	mulpd	-14 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm2, %xmm9
+	addpd	%xmm5, %xmm13
+	movddup	-13 * SIZE(BO, %rax, 2), %xmm5
+	movapd	%xmm0, %xmm2
+
+	addq	$SIZE, %rax
+	jl	.L57_A
+	ALIGN_4
+
+.L59_A:
+
+	movapd	%xmm8, %xmm0
+	unpcklpd %xmm9, %xmm8
+	unpckhpd %xmm9, %xmm0
+
+	movapd	%xmm12, %xmm4
+	unpcklpd %xmm13, %xmm12
+	unpckhpd %xmm13, %xmm4
+
+	movapd	-16 * SIZE(BO), %xmm9
+	movapd	-14 * SIZE(BO), %xmm13
+	movapd	-12 * SIZE(BO), %xmm1
+	movapd	-10 * SIZE(BO), %xmm5
+
+	subpd	%xmm8,  %xmm9
+	subpd	%xmm0,  %xmm13
+	subpd	%xmm12, %xmm1
+	subpd	%xmm4,  %xmm5
+
+	movddup -16 * SIZE(AO), %xmm8
+	mulpd	 %xmm8, %xmm9
+	movddup	-15 * SIZE(AO), %xmm10
+	mulpd	 %xmm9, %xmm10
+	subpd	 %xmm10, %xmm13
+	movddup	-14 * SIZE(AO), %xmm12
+	mulpd	 %xmm9, %xmm12
+	subpd	 %xmm12, %xmm1
+	movddup	-13 * SIZE(AO), %xmm14
+	mulpd	 %xmm9, %xmm14
+	subpd	 %xmm14, %xmm5
+
+
+	movddup	-11 * SIZE(AO), %xmm8
+	mulpd	 %xmm8, %xmm13
+
+	movddup	-10 * SIZE(AO), %xmm10
+	mulpd	 %xmm13, %xmm10
+	subpd	 %xmm10, %xmm1
+	movddup	 -9 * SIZE(AO), %xmm12
+	mulpd	 %xmm13, %xmm12
+	subpd	 %xmm12, %xmm5
+
+	movddup	 -6 * SIZE(AO), %xmm8
+	mulpd	 %xmm8, %xmm1
+	movddup	 -5 * SIZE(AO), %xmm10
+	mulpd	 %xmm1, %xmm10
+	subpd	 %xmm10, %xmm5
+
+	movddup	 -1 * SIZE(AO), %xmm8
+	mulpd	 %xmm8, %xmm5
+
+	movlpd	%xmm9,  0 * SIZE(CO1)
+	movlpd	%xmm13, 1 * SIZE(CO1)
+	movlpd	%xmm1,  2 * SIZE(CO1)
+	movlpd	%xmm5,  3 * SIZE(CO1)
+
+	movhpd	%xmm9,  0 * SIZE(CO2)
+	movhpd	%xmm13, 1 * SIZE(CO2)
+	movhpd	%xmm1,  2 * SIZE(CO2)
+	movhpd	%xmm5,  3 * SIZE(CO2)
+
+	movaps	%xmm9, -16 * SIZE(BO)
+	movaps	%xmm13,-14 * SIZE(BO)
+	movaps	%xmm1, -12 * SIZE(BO)
+	movaps	%xmm5, -10 * SIZE(BO)
+
+	addq	$4 * SIZE, CO1
+	addq	$4 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$4, KK
+
+	ALIGN_4	
+
+/*********************************************************************************/
+
+
+.L60:
+	testq	$2, M
+	je	.L70
+
+.L61:
+	movq	B, BO
+
+	movapd	-16 * SIZE(AO), %xmm0
+	pxor	%xmm8, %xmm8
+	movapd	-12 * SIZE(AO), %xmm2
+	pxor	%xmm9, %xmm9
+	movddup	-16 * SIZE(BO), %xmm1
+	pxor	%xmm10, %xmm10
+	movddup	-15 * SIZE(BO), %xmm3
+	pxor	%xmm11, %xmm11
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L66
+	ALIGN_4
+
+.L62:
+	mulpd	%xmm0, %xmm1
+	addpd	%xmm1, %xmm8
+	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm0, %xmm3
+	movapd	-14 * SIZE(AO, %rax, 2), %xmm0
+	addpd	%xmm3, %xmm9
+	movddup	-13 * SIZE(BO, %rax, 2), %xmm3
+	mulpd	%xmm0, %xmm1
+	addpd	%xmm1, %xmm10
+	movddup	-12 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm0, %xmm3
+	movapd	 -8 * SIZE(AO, %rax, 2), %xmm0
+	addpd	%xmm3, %xmm11
+	movddup	-11 * SIZE(BO, %rax, 2), %xmm3
+	mulpd	%xmm2, %xmm1
+	addpd	%xmm1, %xmm8
+	movddup	-10 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm2, %xmm3
+	movapd	-10 * SIZE(AO, %rax, 2), %xmm2
+	addpd	%xmm3, %xmm9
+	movddup	 -9 * SIZE(BO, %rax, 2), %xmm3
+	mulpd	%xmm2, %xmm1
+	addpd	%xmm1, %xmm10
+	movddup	 -8 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm2, %xmm3
+	movapd	 -4 * SIZE(AO, %rax, 2), %xmm2
+	addpd	%xmm3, %xmm11
+	movddup	 -7 * SIZE(BO, %rax, 2), %xmm3
+
+	addq	$4 * SIZE, %rax
+	BRANCH
+	jl	.L62
+	ALIGN_4
+
+.L66:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L69
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L67:
+	mulpd	%xmm0, %xmm1
+	addpd	%xmm1, %xmm8
+	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
+	mulpd	%xmm0, %xmm3
+	movapd	-14 * SIZE(AO, %rax, 2), %xmm0
+	addpd	%xmm3, %xmm9
+	movddup	-13 * SIZE(BO, %rax, 2), %xmm3
+
+	addq	$SIZE, %rax
+	jl	.L67
+	ALIGN_4
+
+.L69:
+	addpd	%xmm10, %xmm8
+	addpd	%xmm11, %xmm9
+
+	movapd	%xmm8, %xmm0
+	unpcklpd %xmm9, %xmm8
+	unpckhpd %xmm9, %xmm0
+
+	movapd	-16 * SIZE(BO), %xmm9
+	movapd	-14 * SIZE(BO), %xmm13
+
+	subpd	%xmm8,  %xmm9
+	subpd	%xmm0,  %xmm13
+
+	movddup	-16 * SIZE(AO), %xmm8
+	mulpd	 %xmm8, %xmm9
+
+	movddup	-15 * SIZE(AO), %xmm10
+	mulpd	 %xmm9, %xmm10
+	subpd	 %xmm10, %xmm13
+
+	movddup	-13 * SIZE(AO), %xmm8
+	mulpd	 %xmm8, %xmm13
+
+	movlpd	%xmm9,   0 * SIZE(CO1)
+	movlpd	%xmm13,  1 * SIZE(CO1)
+
+	movhpd	%xmm9,   0 * SIZE(CO2)
+	movhpd	%xmm13,  1 * SIZE(CO2)
+
+	movaps	%xmm9,  -16 * SIZE(BO)
+	movaps	%xmm13, -14 * SIZE(BO)
+
+	addq	$2 * SIZE, CO1
+	addq	$2 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$2, KK
+
+	ALIGN_4	
+/********************************************************************************/
+.L70:
+	testq	$1, M
+	je	.L79
+	ALIGN_4
+
+.L71:
+	movq	B, BO
+
+	movddup	-16 * SIZE(AO), %xmm0
+	pxor	%xmm8, %xmm8
+	movddup	-15 * SIZE(AO), %xmm1
+	pxor	%xmm9, %xmm9
+	movddup	-14 * SIZE(AO), %xmm2
+	pxor	%xmm10, %xmm10
+	movddup	-13 * SIZE(AO), %xmm3
+	pxor	%xmm11, %xmm11
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L76
+	ALIGN_4
+
+.L72:
+	mulpd	-16 * SIZE(BO, %rax, 2), %xmm0
+	addpd	%xmm0, %xmm8
+	movddup	-12 * SIZE(AO, %rax, 1), %xmm0
+
+	mulpd	-14 * SIZE(BO, %rax, 2), %xmm1
+	addpd	%xmm1, %xmm9
+	movddup	-11 * SIZE(AO, %rax, 1), %xmm1
+
+	mulpd	-12 * SIZE(BO, %rax, 2), %xmm2
+	addpd	%xmm2, %xmm10
+	movddup	-10 * SIZE(AO, %rax, 1), %xmm2
+
+	mulpd	-10 * SIZE(BO, %rax, 2), %xmm3
+	addpd	%xmm3, %xmm11
+	movddup	 -9 * SIZE(AO, %rax, 1), %xmm3
+
+	addq	$4 * SIZE, %rax
+	BRANCH
+	jl	.L72
+	ALIGN_4
+
+.L76:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L78
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L77:
+	mulpd	-16 * SIZE(BO, %rax, 2), %xmm0
+	addpd	%xmm0, %xmm8
+	movddup	-15 * SIZE(AO, %rax, 1), %xmm0
+
+	addq	$SIZE, %rax
+	jl	.L77
+	ALIGN_4
+
+.L78:
+	addpd	%xmm9,  %xmm8
+	addpd	%xmm11, %xmm10
+	addpd	%xmm10, %xmm8
+
+	movapd	-16 * SIZE(BO), %xmm2
+
+	subpd	%xmm8,  %xmm2
+
+	movddup	-16 * SIZE(AO), %xmm0
+	mulpd	 %xmm0, %xmm2
+
+	movlpd	%xmm2,  0 * SIZE(CO1)
+	movhpd	%xmm2,  0 * SIZE(CO2)
+
+	movaps	%xmm2, -16 * SIZE(BO)
+
+	addq	$1 * SIZE, CO1
+	addq	$1 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$1, KK
+
+	ALIGN_4	
+	
+.L79:
+
+	movq	BO, B
+
+	decq	J			# j --
+	jg	.L01
+	ALIGN_4
+/***************************************************************************************/
+.L80:
+	testq	$1, N
+	je	.L999
+
+	movq	A, AO
+	movq	C, CO1			# coffset1 = c
+
+	movq	OFFSET, %rax
+	movq	%rax, KK
+
+	movq	M,  I
+	sarq	$3, I	# i = (m >> 3)
+	jle	.L90_A
+	ALIGN_4
+/*************************************************************************************/
+.L91:
+
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+	pxor	%xmm9, %xmm9
+	pxor	%xmm10, %xmm10
+	pxor	%xmm11, %xmm11
+
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L96
+	ALIGN_4
+
+.L92:
+	KERNEL8x1_SUB
+	KERNEL8x1_SUB
+	KERNEL8x1_SUB
+	KERNEL8x1_SUB
+
+	jl	.L92
+	ALIGN_4
+
+.L96:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L99
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L97:
+	KERNEL8x1_SUB
+
+	jl	.L97
+	ALIGN_4
+.L99:
+
+	movapd	-16 * SIZE(BO), %xmm1
+	movapd	-14 * SIZE(BO), %xmm3
+	movapd	-12 * SIZE(BO), %xmm5
+	movapd	-10 * SIZE(BO), %xmm7
+
+	subpd	%xmm8 ,  %xmm1
+	subpd	%xmm9 ,  %xmm3
+	subpd	%xmm10,  %xmm5
+	subpd	%xmm11,  %xmm7
+
+	vmovups	 %xmm1 , %xmm0
+        unpckhpd %xmm1 , %xmm1
+
+	vmovups	 %xmm3 , %xmm2
+        unpckhpd %xmm3 , %xmm3
+
+	vmovups	 %xmm5 , %xmm4
+        unpckhpd %xmm5 , %xmm5
+
+	vmovups	 %xmm7 , %xmm6
+        unpckhpd %xmm7 , %xmm7
+
+	vmulsd		 -16 * SIZE(AO), %xmm0 , %xmm0
+	vfnmaddsd %xmm1 ,-15 * SIZE(AO), %xmm0 , %xmm1
+	vfnmaddsd %xmm2 ,-14 * SIZE(AO), %xmm0 , %xmm2
+	vfnmaddsd %xmm3 ,-13 * SIZE(AO), %xmm0 , %xmm3
+	vfnmaddsd %xmm4 ,-12 * SIZE(AO), %xmm0 , %xmm4
+	vfnmaddsd %xmm5 ,-11 * SIZE(AO), %xmm0 , %xmm5
+	vfnmaddsd %xmm6 ,-10 * SIZE(AO), %xmm0 , %xmm6
+	vfnmaddsd %xmm7 , -9 * SIZE(AO), %xmm0 , %xmm7
+
+	vmulsd		  -7 * SIZE(AO), %xmm1 , %xmm1
+	vfnmaddsd %xmm2 , -6 * SIZE(AO), %xmm1 , %xmm2
+	vfnmaddsd %xmm3 , -5 * SIZE(AO), %xmm1 , %xmm3
+	vfnmaddsd %xmm4 , -4 * SIZE(AO), %xmm1 , %xmm4
+	vfnmaddsd %xmm5 , -3 * SIZE(AO), %xmm1 , %xmm5
+	vfnmaddsd %xmm6 , -2 * SIZE(AO), %xmm1 , %xmm6
+	vfnmaddsd %xmm7 , -1 * SIZE(AO), %xmm1 , %xmm7
+
+	vmulsd		   2 * SIZE(AO), %xmm2 , %xmm2
+	vfnmaddsd %xmm3 ,  3 * SIZE(AO), %xmm2 , %xmm3
+	vfnmaddsd %xmm4 ,  4 * SIZE(AO), %xmm2 , %xmm4
+	vfnmaddsd %xmm5 ,  5 * SIZE(AO), %xmm2 , %xmm5
+	vfnmaddsd %xmm6 ,  6 * SIZE(AO), %xmm2 , %xmm6
+	vfnmaddsd %xmm7 ,  7 * SIZE(AO), %xmm2 , %xmm7
+
+	vmulsd		  11 * SIZE(AO), %xmm3 , %xmm3
+	vfnmaddsd %xmm4 , 12 * SIZE(AO), %xmm3 , %xmm4
+	vfnmaddsd %xmm5 , 13 * SIZE(AO), %xmm3 , %xmm5
+	vfnmaddsd %xmm6 , 14 * SIZE(AO), %xmm3 , %xmm6
+	vfnmaddsd %xmm7 , 15 * SIZE(AO), %xmm3 , %xmm7
+
+	vmulsd		  20 * SIZE(AO), %xmm4 , %xmm4
+	vfnmaddsd %xmm5 , 21 * SIZE(AO), %xmm4 , %xmm5
+	vfnmaddsd %xmm6 , 22 * SIZE(AO), %xmm4 , %xmm6
+	vfnmaddsd %xmm7 , 23 * SIZE(AO), %xmm4 , %xmm7
+
+	vmulsd		  29 * SIZE(AO), %xmm5 , %xmm5
+	vfnmaddsd %xmm6 , 30 * SIZE(AO), %xmm5 , %xmm6
+	vfnmaddsd %xmm7 , 31 * SIZE(AO), %xmm5 , %xmm7
+
+	vmulsd		  38 * SIZE(AO), %xmm6 , %xmm6
+	vfnmaddsd %xmm7 , 39 * SIZE(AO), %xmm6 , %xmm7
+
+	vmulsd		  47 * SIZE(AO), %xmm7 , %xmm7
+
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+	vmovsd	%xmm2 ,  2 * SIZE(CO1)
+	vmovsd	%xmm3 ,  3 * SIZE(CO1)
+	vmovsd	%xmm4 ,  4 * SIZE(CO1)
+	vmovsd	%xmm5 ,  5 * SIZE(CO1)
+	vmovsd	%xmm6 ,  6 * SIZE(CO1)
+	vmovsd	%xmm7 ,  7 * SIZE(CO1)
+
+	vmovsd	%xmm0 , -16 * SIZE(BO)
+	vmovsd	%xmm1 , -15 * SIZE(BO)
+	vmovsd	%xmm2 , -14 * SIZE(BO)
+	vmovsd	%xmm3 , -13 * SIZE(BO)
+	vmovsd	%xmm4 , -12 * SIZE(BO)
+	vmovsd	%xmm5 , -11 * SIZE(BO)
+	vmovsd	%xmm6 , -10 * SIZE(BO)
+	vmovsd	%xmm7 ,  -9 * SIZE(BO)
+
+
+
+	addq	$8 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	addq	%rax, BO
+
+	addq	$8, KK
+
+
+	decq	I			# i --
+	jg	.L91
+	ALIGN_4	
+
+/*****************************************************************************/
+.L90_A:
+	testq	$4, M
+	je	.L100
+
+.L91_A:
+	movq	B, BO
+
+	movapd	-16 * SIZE(AO), %xmm0
+	pxor	%xmm8, %xmm8
+	movapd	 -8 * SIZE(AO), %xmm2
+	pxor	%xmm9, %xmm9
+	movddup	-16 * SIZE(BO), %xmm1
+	pxor	%xmm10, %xmm10
+	movddup	-15 * SIZE(BO), %xmm5
+	pxor	%xmm11, %xmm11
+	movddup	-14 * SIZE(BO), %xmm3
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L96_A
+	ALIGN_4
+
+.L92_A:
+	mulpd	%xmm1, %xmm0
+	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
+	addpd	%xmm0, %xmm8
+	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
+	addpd	%xmm1, %xmm9
+	movddup	-12 * SIZE(BO, %rax, 1), %xmm1
+	mulpd	%xmm5, %xmm0
+	mulpd	-10 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm0, %xmm10
+	movapd	  (AO, %rax, 4), %xmm0
+	addpd	%xmm5, %xmm11
+	movddup	-13 * SIZE(BO, %rax, 1), %xmm5
+	mulpd	%xmm3, %xmm2
+	mulpd	 -6 * SIZE(AO, %rax, 4), %xmm3
+	addpd	%xmm2, %xmm8
+	movapd	 -4 * SIZE(AO, %rax, 4), %xmm2
+	addpd	%xmm3, %xmm9
+	movddup	-10 * SIZE(BO, %rax, 1), %xmm3
+	mulpd	%xmm5, %xmm2
+	mulpd	 -2 * SIZE(AO, %rax, 4), %xmm5
+	addpd	%xmm2, %xmm10
+	movapd	  8 * SIZE(AO, %rax, 4), %xmm2
+	addpd	%xmm5, %xmm11
+	movddup	-11 * SIZE(BO, %rax, 1), %xmm5
+
+	addq	$4 * SIZE, %rax
+	BRANCH
+	jl	.L92_A
+	ALIGN_4
+
+.L96_A:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L99_A
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L97_A:
+	mulpd	%xmm1, %xmm0
+	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
+	addpd	%xmm0, %xmm8
+	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
+	addpd	%xmm1, %xmm9
+	movddup	-15 * SIZE(BO, %rax, 1), %xmm1
+
+	addq	$SIZE, %rax
+	jl	.L97_A
+	ALIGN_4
+.L99_A:
+	addpd	%xmm10, %xmm8
+	addpd	%xmm11, %xmm9
+
+
+	movapd	-16 * SIZE(BO), %xmm10
+	movapd	-14 * SIZE(BO), %xmm11
+
+	subpd	%xmm8,  %xmm10
+	subpd	%xmm9,  %xmm11
+
+	movapd	%xmm10, %xmm8
+        unpckhpd %xmm8, %xmm8
+
+	movapd	%xmm11, %xmm9
+        unpckhpd %xmm9, %xmm9
+
+	movsd	-16 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm10
+
+	movsd	-15 * SIZE(AO), %xmm13
+	mulsd	 %xmm10, %xmm13
+	subsd	 %xmm13, %xmm8
+	movsd	-14 * SIZE(AO), %xmm14
+	mulsd	 %xmm10, %xmm14
+	subsd	 %xmm14, %xmm11
+	movsd	-13 * SIZE(AO), %xmm15
+	mulsd	 %xmm10, %xmm15
+	subsd	 %xmm15, %xmm9
+
+	movsd	-11 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm8
+
+	movsd	-10 * SIZE(AO), %xmm13
+	mulsd	 %xmm8, %xmm13
+	subsd	 %xmm13, %xmm11
+	movsd	 -9 * SIZE(AO), %xmm14
+	mulsd	 %xmm8, %xmm14
+	subsd	 %xmm14, %xmm9
+
+	movsd	 -6 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm11
+
+	movsd	 -5 * SIZE(AO), %xmm13
+	mulsd	 %xmm11, %xmm13
+	subsd	 %xmm13, %xmm9
+
+	movsd	 -1 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm9
+
+	unpcklpd %xmm8, %xmm10
+	unpcklpd %xmm9, %xmm11
+
+	movlpd	%xmm10,  0 * SIZE(CO1)
+	movhpd	%xmm10,  1 * SIZE(CO1)
+	movlpd	%xmm11,  2 * SIZE(CO1)
+	movhpd	%xmm11,  3 * SIZE(CO1)
+
+	movaps	%xmm10, -16 * SIZE(BO)
+	movaps	%xmm11, -14 * SIZE(BO)
+
+	addq	$4 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	addq	%rax, BO
+
+	addq	$4, KK
+
+
+	ALIGN_4	
+
+/*************************************************************************************/
+.L100:
+	testq	$2, M
+	je	.L110
+
+
+
+	movq	B, BO
+
+	movddup	-16 * SIZE(BO), %xmm0
+	pxor	%xmm8, %xmm8
+	movddup	-15 * SIZE(BO), %xmm1
+	pxor	%xmm9, %xmm9
+	movddup	-14 * SIZE(BO), %xmm2
+	pxor	%xmm10, %xmm10
+	movddup	-13 * SIZE(BO), %xmm3
+	pxor	%xmm11, %xmm11
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L106
+	ALIGN_4
+
+.L102:
+	mulpd	-16 * SIZE(AO, %rax, 2), %xmm0
+	addpd	%xmm0, %xmm8
+	movddup	-12 * SIZE(BO, %rax, 1), %xmm0
+
+	mulpd	-14 * SIZE(AO, %rax, 2), %xmm1
+	addpd	%xmm1, %xmm9
+	movddup	-11 * SIZE(BO, %rax, 1), %xmm1
+
+	mulpd	-12 * SIZE(AO, %rax, 2), %xmm2
+	addpd	%xmm2, %xmm10
+	movddup	-10 * SIZE(BO, %rax, 1), %xmm2
+
+	mulpd	-10 * SIZE(AO, %rax, 2), %xmm3
+	addpd	%xmm3, %xmm11
+	movddup	 -9 * SIZE(BO, %rax, 1), %xmm3
+
+	addq	$4 * SIZE, %rax
+	BRANCH
+	jl	.L102
+	ALIGN_4
+
+.L106:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L109
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L107:
+	movddup	-16 * SIZE(BO, %rax, 1), %xmm0
+	mulpd	-16 * SIZE(AO, %rax, 2), %xmm0
+	addpd	%xmm0, %xmm8
+
+	addq	$SIZE, %rax
+	jl	.L107
+	ALIGN_4
+
+.L109:
+	addpd	%xmm9, %xmm8
+	addpd	%xmm11, %xmm10
+	addpd	%xmm10, %xmm8
+
+
+	movapd	-16 * SIZE(BO), %xmm10
+	subpd	%xmm8,  %xmm10
+
+
+	movapd	%xmm10, %xmm8
+        unpckhpd %xmm8, %xmm8
+
+	movsd	-16 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm10
+
+	movsd	-15 * SIZE(AO), %xmm13
+	mulsd	 %xmm10, %xmm13
+	subsd	 %xmm13, %xmm8
+
+	movsd	-13 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm8
+
+	unpcklpd %xmm8, %xmm10
+
+	movlpd	%xmm10,  0 * SIZE(CO1)
+	movhpd	%xmm10,  1 * SIZE(CO1)
+
+	movaps	%xmm10, -16 * SIZE(BO)
+
+	addq	$2 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	addq	%rax, BO
+
+	addq	$2, KK
+
+	ALIGN_4	
+
+.L110:
+	testq	$1, M
+	je	.L119
+	ALIGN_4
+
+.L111:
+	movq	B, BO
+
+	movapd	-16 * SIZE(AO), %xmm0
+	pxor	%xmm8, %xmm8
+	movapd	-14 * SIZE(AO), %xmm1
+	pxor	%xmm9, %xmm9
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L116
+	ALIGN_4
+
+.L112:
+	mulpd	-16 * SIZE(BO, %rax, 1), %xmm0
+	addpd	%xmm0, %xmm8
+	movapd	-12 * SIZE(AO, %rax, 1), %xmm0
+
+	mulpd	-14 * SIZE(BO, %rax, 1), %xmm1
+	addpd	%xmm1, %xmm9
+	movapd	-10 * SIZE(AO, %rax, 1), %xmm1
+
+	addq	$4 * SIZE, %rax
+	BRANCH
+	jl	.L112
+	ALIGN_4
+
+.L116:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L118
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L117:
+	mulsd	-16 * SIZE(BO, %rax, 1), %xmm0
+	addsd	%xmm0, %xmm8
+	movsd	-15 * SIZE(AO, %rax, 1), %xmm0
+
+	addq	$SIZE, %rax
+	jl	.L117
+	ALIGN_4
+
+.L118:
+	addpd	%xmm9, %xmm8
+	haddpd	%xmm8, %xmm8
+
+	movsd	-16 * SIZE(BO), %xmm10
+	subsd	%xmm8,  %xmm10
+
+	movsd	-16 * SIZE(AO), %xmm12
+	mulsd	 %xmm12, %xmm10
+
+	movsd	%xmm10,  0 * SIZE(CO1)
+
+	movlpd	%xmm10, -16 * SIZE(BO)
+
+	addq	$1 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	addq	%rax, AO
+	addq	%rax, BO
+
+	addq	$1, KK
+
+	ALIGN_4	
+
+.L119:
+
+	movq	BO, B
+
+
+	ALIGN_4
+
+	
+.L999:
+	movq	   (%rsp), %rbx
+	movq	  8(%rsp), %rbp
+	movq	 16(%rsp), %r12
+	movq	 24(%rsp), %r13
+	movq	 32(%rsp), %r14
+	movq	 40(%rsp), %r15
+
+#ifdef WINDOWS_ABI
+	movq	 48(%rsp), %rdi
+	movq	 56(%rsp), %rsi
+	movups	 64(%rsp), %xmm6
+	movups	 80(%rsp), %xmm7
+	movups	 96(%rsp), %xmm8
+	movups	112(%rsp), %xmm9
+	movups	128(%rsp), %xmm10
+	movups	144(%rsp), %xmm11
+	movups	160(%rsp), %xmm12
+	movups	176(%rsp), %xmm13
+	movups	192(%rsp), %xmm14
+	movups	208(%rsp), %xmm15
+#endif
+
+	addq	$STACKSIZE, %rsp
+	ret
+
+	EPILOGUE

From cff70a666dd06ff72bec40987d278aefa3de54b8 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Tue, 30 Jul 2013 20:18:57 +0200
Subject: [PATCH 02/11] added generic trmm kernels and modified Makefile.L3

---
 kernel/Makefile.L3               |  188 +++++
 kernel/generic/trmmkernel_16x2.c | 1151 ++++++++++++++++++++++++++++++
 kernel/generic/trmmkernel_8x2.c  |  750 +++++++++++++++++++
 3 files changed, 2089 insertions(+)
 create mode 100644 kernel/generic/trmmkernel_16x2.c
 create mode 100644 kernel/generic/trmmkernel_8x2.c

diff --git a/kernel/Makefile.L3 b/kernel/Makefile.L3
index 2dcae0b9d..f8152ac50 100644
--- a/kernel/Makefile.L3
+++ b/kernel/Makefile.L3
@@ -582,6 +582,24 @@ $(KDIR)ztrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
 
 $(KDIR)ztrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
+
+else
+
+ifdef STRMMKERNEL
+
+$(KDIR)strmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(STRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
+
+$(KDIR)strmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(STRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -UCOMPLEX -DLEFT -DTRANSA $< -o $@
+
+$(KDIR)strmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(STRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -UCOMPLEX -ULEFT -UTRANSA $< -o $@
+
+$(KDIR)strmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(STRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
+
+
 else
 $(KDIR)strmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(SGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
@@ -595,17 +613,79 @@ $(KDIR)strmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(SGEMMKERNEL)
 $(KDIR)strmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(SGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
 
+endif
+
+ifdef DTRMMKERNEL
+
+ifdef DTRMMKERNEL_LN
+$(KDIR)dtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL_LN)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
+else
+$(KDIR)dtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
+endif
+
+ifdef DTRMMKERNEL_LT
+$(KDIR)dtrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL_LT)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -DTRANSA $< -o $@
+else
+$(KDIR)dtrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -DTRANSA $< -o $@
+endif
+
+ifdef DTRMMKERNEL_RN
+$(KDIR)dtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL_RN)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -UTRANSA $< -o $@
+else
+$(KDIR)dtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -UTRANSA $< -o $@
+endif
+
+ifdef DTRMMKERNEL_RT
+$(KDIR)dtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL_RT)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
+else
+$(KDIR)dtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
+endif
+
+else
+
+ifdef DTRMMKERNEL_LN
+$(KDIR)dtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL_LN)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
+else
 $(KDIR)dtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
+endif
 
+ifdef DTRMMKERNEL_LT
+$(KDIR)dtrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL_LT)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -DTRANSA $< -o $@
+else
 $(KDIR)dtrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -DLEFT -DTRANSA $< -o $@
+endif
 
+ifdef DTRMMKERNEL_RN
+$(KDIR)dtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL_RN)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -UTRANSA $< -o $@
+else
 $(KDIR)dtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -UTRANSA $< -o $@
+endif
 
+ifdef DTRMMKERNEL_RT
+$(KDIR)dtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL_RT)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
+else
 $(KDIR)dtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(DGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
+endif
+
+endif
+
+ifdef QTRMMKERNEL
 
 $(KDIR)qtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
@@ -619,6 +699,50 @@ $(KDIR)qtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
 $(KDIR)qtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
 
+else
+
+$(KDIR)qtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -UCOMPLEX -DLEFT -UTRANSA $< -o $@
+
+$(KDIR)qtrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -UCOMPLEX -DLEFT -DTRANSA $< -o $@
+
+$(KDIR)qtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -UCOMPLEX -ULEFT -UTRANSA $< -o $@
+
+$(KDIR)qtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(QGEMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -UCOMPLEX -ULEFT -DTRANSA $< -o $@
+
+endif
+
+ifdef CTRMMKERNEL
+
+$(KDIR)ctrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -DLEFT -UTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ctrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -DLEFT -DTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ctrmm_kernel_LR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -DLEFT -UTRANSA -DCONJ -DCN $< -o $@
+
+$(KDIR)ctrmm_kernel_LC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -DLEFT -DTRANSA -DCONJ -DCN $< -o $@
+
+$(KDIR)ctrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -ULEFT -UTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ctrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -ULEFT -DTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ctrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -ULEFT -UTRANSA -DCONJ -DNC $< -o $@
+
+$(KDIR)ctrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
+
+else
+
 $(KDIR)ctrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -DLEFT -UTRANSA -UCONJ -DNN $< -o $@
 
@@ -643,6 +767,37 @@ $(KDIR)ctrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CGEMMKERNEL)
 $(KDIR)ctrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -UDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
 
+endif
+
+ifdef ZTRMMKERNEL
+
+$(KDIR)ztrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -DLEFT -UTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ztrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -DLEFT -DTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ztrmm_kernel_LR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -DLEFT -UTRANSA -DCONJ -DCN $< -o $@
+
+$(KDIR)ztrmm_kernel_LC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -DLEFT -DTRANSA -DCONJ -DCN $< -o $@
+
+$(KDIR)ztrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -ULEFT -UTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ztrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -ULEFT -DTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)ztrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -ULEFT -UTRANSA -DCONJ -DNC $< -o $@
+
+$(KDIR)ztrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
+
+
+else
+
 $(KDIR)ztrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -DLEFT -UTRANSA -UCONJ -DNN $< -o $@
 
@@ -666,7 +821,37 @@ $(KDIR)ztrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZGEMMKERNEL)
 
 $(KDIR)ztrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(ZGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
+
 endif
+endif
+
+ifdef XTRMMKERNEL
+
+$(KDIR)xtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -DLEFT -UTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)xtrmm_kernel_LT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -DLEFT -DTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)xtrmm_kernel_LR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -DLEFT -UTRANSA -DCONJ -DCN $< -o $@
+
+$(KDIR)xtrmm_kernel_LC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -DLEFT -DTRANSA -DCONJ -DCN $< -o $@
+
+$(KDIR)xtrmm_kernel_RN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -ULEFT -UTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)xtrmm_kernel_RT$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -ULEFT -DTRANSA -UCONJ -DNN $< -o $@
+
+$(KDIR)xtrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -ULEFT -UTRANSA -DCONJ -DNC $< -o $@
+
+$(KDIR)xtrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XTRMMKERNEL)
+	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
+
+else
 
 $(KDIR)xtrmm_kernel_LN$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -DLEFT -UTRANSA -UCONJ -DNN $< -o $@
@@ -692,6 +877,9 @@ $(KDIR)xtrmm_kernel_RR$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XGEMMKERNEL)
 $(KDIR)xtrmm_kernel_RC$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(XGEMMKERNEL)
 	$(CC) $(CFLAGS) -c -DTRMMKERNEL -DXDOUBLE -DCOMPLEX -ULEFT -DTRANSA -DCONJ -DNC $< -o $@
 
+endif
+
+
 $(KDIR)cgemm3m_kernel$(TSUFFIX).$(SUFFIX) : $(KERNELDIR)/$(CGEMM3MKERNEL)
 	$(CC) $(CFLAGS) -c -UDOUBLE -DCOMPLEX -DNN $< -o $@
 
diff --git a/kernel/generic/trmmkernel_16x2.c b/kernel/generic/trmmkernel_16x2.c
new file mode 100644
index 000000000..437fa0950
--- /dev/null
+++ b/kernel/generic/trmmkernel_16x2.c
@@ -0,0 +1,1151 @@
+#include "common.h"
+
+int CNAME(BLASLONG bm,BLASLONG bn,BLASLONG bk,FLOAT alpha,FLOAT* ba,FLOAT* bb,FLOAT* C,BLASLONG ldc ,BLASLONG offset) 
+{
+
+   BLASLONG i,j,k;
+   FLOAT *C0,*C1,*ptrba,*ptrbb;
+
+   FLOAT res0_0;
+   FLOAT res0_1;
+   FLOAT res0_2;
+   FLOAT res0_3;
+   FLOAT res0_4;
+   FLOAT res0_5;
+   FLOAT res0_6;
+   FLOAT res0_7;
+
+   FLOAT res0_8;
+   FLOAT res0_9;
+   FLOAT res0_10;
+   FLOAT res0_11;
+   FLOAT res0_12;
+   FLOAT res0_13;
+   FLOAT res0_14;
+   FLOAT res0_15;
+
+   FLOAT res1_0;
+   FLOAT res1_1;
+   FLOAT res1_2;
+   FLOAT res1_3;
+   FLOAT res1_4;
+   FLOAT res1_5;
+   FLOAT res1_6;
+   FLOAT res1_7;
+
+   FLOAT res1_8;
+   FLOAT res1_9;
+   FLOAT res1_10;
+   FLOAT res1_11;
+   FLOAT res1_12;
+   FLOAT res1_13;
+   FLOAT res1_14;
+   FLOAT res1_15;
+
+   FLOAT a0;
+   FLOAT a1;
+
+   FLOAT b0;
+   FLOAT b1;
+
+   BLASLONG off, temp;
+
+#if !defined(LEFT)
+   off = -offset; 
+#endif
+
+
+
+   for (j=0; j<bn/2; j+=1) 
+   {
+        C0 = C;
+        C1 = C0+ldc;
+
+#if defined(TRMMKERNEL) && defined(LEFT)
+	off = offset;
+#endif
+
+
+        ptrba = ba;
+
+
+        for (i=0; i<bm/16; i+=1) 
+        {
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*16;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+		res0_4 = 0;
+		res0_5 = 0;
+		res0_6 = 0;
+		res0_7 = 0;
+
+		res0_8  = 0;
+		res0_9  = 0;
+		res0_10 = 0;
+		res0_11 = 0;
+		res0_12 = 0;
+		res0_13 = 0;
+		res0_14 = 0;
+		res0_15 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+		res1_2 = 0;
+		res1_3 = 0;
+		res1_4 = 0;
+		res1_5 = 0;
+		res1_6 = 0;
+		res1_7 = 0;
+
+		res1_8  = 0;
+		res1_9  = 0;
+		res1_10 = 0;
+		res1_11 = 0;
+		res1_12 = 0;
+		res1_13 = 0;
+		res1_14 = 0;
+		res1_15 = 0;
+
+
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+16;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+			res1_2 += a0*b1;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+			res1_3 += a1*b1;
+
+			a0 = ptrba[4];
+			res0_4 += a0*b0;
+			res1_4 += a0*b1;
+
+			a1 = ptrba[5];
+			res0_5 += a1*b0;
+			res1_5 += a1*b1;
+
+			a0 = ptrba[6];
+			res0_6 += a0*b0;
+			res1_6 += a0*b1;
+
+			a1 = ptrba[7];
+			res0_7 += a1*b0;
+			res1_7 += a1*b1;
+
+			a0 = ptrba[8];
+			res0_8 += a0*b0;
+			res1_8 += a0*b1;
+
+			a1 = ptrba[9];
+			res0_9 += a1*b0;
+			res1_9 += a1*b1;
+
+			a0 = ptrba[10];
+			res0_10 += a0*b0;
+			res1_10 += a0*b1;
+
+			a1 = ptrba[11];
+			res0_11 += a1*b0;
+			res1_11 += a1*b1;
+
+			a0 = ptrba[12];
+			res0_12 += a0*b0;
+			res1_12 += a0*b1;
+
+			a1 = ptrba[13];
+			res0_13 += a1*b0;
+			res1_13 += a1*b1;
+
+			a0 = ptrba[14];
+			res0_14 += a0*b0;
+			res1_14 += a0*b1;
+
+			a1 = ptrba[15];
+			res0_15 += a1*b0;
+			res1_15 += a1*b1;
+
+
+			ptrba = ptrba+16;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+		res0_4 *= alpha;
+		res0_5 *= alpha;
+		res0_6 *= alpha;
+		res0_7 *= alpha;
+
+		res0_8  *= alpha;
+		res0_9  *= alpha;
+		res0_10 *= alpha;
+		res0_11 *= alpha;
+		res0_12 *= alpha;
+		res0_13 *= alpha;
+		res0_14 *= alpha;
+		res0_15 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+		res1_2 *= alpha;
+		res1_3 *= alpha;
+		res1_4 *= alpha;
+		res1_5 *= alpha;
+		res1_6 *= alpha;
+		res1_7 *= alpha;
+
+		res1_8  *= alpha;
+		res1_9  *= alpha;
+		res1_10 *= alpha;
+		res1_11 *= alpha;
+		res1_12 *= alpha;
+		res1_13 *= alpha;
+		res1_14 *= alpha;
+		res1_15 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+		C0[4] = res0_4;
+		C0[5] = res0_5;
+		C0[6] = res0_6;
+		C0[7] = res0_7;
+
+		C0[8]  = res0_8;
+		C0[9]  = res0_9;
+		C0[10] = res0_10;
+		C0[11] = res0_11;
+		C0[12] = res0_12;
+		C0[13] = res0_13;
+		C0[14] = res0_14;
+		C0[15] = res0_15;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+		C1[2] = res1_2;
+		C1[3] = res1_3;
+		C1[4] = res1_4;
+		C1[5] = res1_5;
+		C1[6] = res1_6;
+		C1[7] = res1_7;
+
+		C1[8]  = res1_8;
+		C1[9]  = res1_9;
+		C1[10] = res1_10;
+		C1[11] = res1_11;
+		C1[12] = res1_12;
+		C1[13] = res1_13;
+		C1[14] = res1_14;
+		C1[15] = res1_15;
+
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 16; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*16;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 16; // number of values in A
+#endif
+
+		C0 = C0+16;
+		C1 = C1+16;
+	}
+
+
+
+
+        if ( bm & 8) 
+        {
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*8;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+		res0_4 = 0;
+		res0_5 = 0;
+		res0_6 = 0;
+		res0_7 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+		res1_2 = 0;
+		res1_3 = 0;
+		res1_4 = 0;
+		res1_5 = 0;
+		res1_6 = 0;
+		res1_7 = 0;
+
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+8;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+			res1_2 += a0*b1;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+			res1_3 += a1*b1;
+
+			a0 = ptrba[4];
+			res0_4 += a0*b0;
+			res1_4 += a0*b1;
+
+			a1 = ptrba[5];
+			res0_5 += a1*b0;
+			res1_5 += a1*b1;
+
+			a0 = ptrba[6];
+			res0_6 += a0*b0;
+			res1_6 += a0*b1;
+
+			a1 = ptrba[7];
+			res0_7 += a1*b0;
+			res1_7 += a1*b1;
+
+			ptrba = ptrba+8;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+		res0_4 *= alpha;
+		res0_5 *= alpha;
+		res0_6 *= alpha;
+		res0_7 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+		res1_2 *= alpha;
+		res1_3 *= alpha;
+		res1_4 *= alpha;
+		res1_5 *= alpha;
+		res1_6 *= alpha;
+		res1_7 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+		C0[4] = res0_4;
+		C0[5] = res0_5;
+		C0[6] = res0_6;
+		C0[7] = res0_7;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+		C1[2] = res1_2;
+		C1[3] = res1_3;
+		C1[4] = res1_4;
+		C1[5] = res1_5;
+		C1[6] = res1_6;
+		C1[7] = res1_7;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 8; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*8;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 8; // number of values in A
+#endif
+
+		C0 = C0+8;
+		C1 = C1+8;
+	}
+
+	if ( bm & 4 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*4;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+		res1_2 = 0;
+		res1_3 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+4;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+			res1_2 += a0*b1;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+			res1_3 += a1*b1;
+
+			ptrba = ptrba+4;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+		res1_2 *= alpha;
+		res1_3 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+		C1[2] = res1_2;
+		C1[3] = res1_3;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 4; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*4;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 4; // number of values in A
+#endif
+
+		C0 = C0+4;
+		C1 = C1+4;
+
+	}
+
+	if ( bm & 2 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*2;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+2;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			ptrba = ptrba+2;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 2; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*2;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 2; // number of values in A
+#endif
+
+		C0 = C0+2;
+		C1 = C1+2;
+
+	}
+
+	if ( bm & 1 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*1;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+
+		res1_0 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+1;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			ptrba = ptrba+1;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+
+		res1_0 *= alpha;
+
+		C0[0] = res0_0;
+
+		C1[0] = res1_0;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 1; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*1;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 1; // number of values in A
+#endif
+
+		C0 = C0+1;
+		C1 = C1+1;
+
+	}
+
+
+#if defined(TRMMKERNEL) && !defined(LEFT)
+		off += 2;
+#endif
+
+        k = (bk<<1);
+        bb = bb+k;
+        i = (ldc<<1);
+        C = C+i;
+    }
+
+
+
+
+
+
+
+   for (j=0; j<(bn&1); j+=1) 
+   {
+        C0 = C;
+
+#if defined(TRMMKERNEL) &&  defined(LEFT)
+	off = offset;
+#endif
+
+        ptrba = ba;
+
+
+        for (i=0; i<bm/16; i+=1) 
+        {
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*16;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+		res0_4 = 0;
+		res0_5 = 0;
+		res0_6 = 0;
+		res0_7 = 0;
+
+		res0_8  = 0;
+		res0_9  = 0;
+		res0_10 = 0;
+		res0_11 = 0;
+		res0_12 = 0;
+		res0_13 = 0;
+		res0_14 = 0;
+		res0_15 = 0;
+
+
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+16;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+
+			a0 = ptrba[4];
+			res0_4 += a0*b0;
+
+			a1 = ptrba[5];
+			res0_5 += a1*b0;
+
+			a0 = ptrba[6];
+			res0_6 += a0*b0;
+
+			a1 = ptrba[7];
+			res0_7 += a1*b0;
+
+			a0 = ptrba[8];
+			res0_8 += a0*b0;
+
+			a1 = ptrba[9];
+			res0_9 += a1*b0;
+
+			a0 = ptrba[10];
+			res0_10 += a0*b0;
+
+			a1 = ptrba[11];
+			res0_11 += a1*b0;
+
+			a0 = ptrba[12];
+			res0_12 += a0*b0;
+
+			a1 = ptrba[13];
+			res0_13 += a1*b0;
+
+			a0 = ptrba[14];
+			res0_14 += a0*b0;
+
+			a1 = ptrba[15];
+			res0_15 += a1*b0;
+
+
+			ptrba = ptrba+16;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+		res0_4 *= alpha;
+		res0_5 *= alpha;
+		res0_6 *= alpha;
+		res0_7 *= alpha;
+
+		res0_8  *= alpha;
+		res0_9  *= alpha;
+		res0_10 *= alpha;
+		res0_11 *= alpha;
+		res0_12 *= alpha;
+		res0_13 *= alpha;
+		res0_14 *= alpha;
+		res0_15 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+		C0[4] = res0_4;
+		C0[5] = res0_5;
+		C0[6] = res0_6;
+		C0[7] = res0_7;
+
+		C0[8]  = res0_8;
+		C0[9]  = res0_9;
+		C0[10] = res0_10;
+		C0[11] = res0_11;
+		C0[12] = res0_12;
+		C0[13] = res0_13;
+		C0[14] = res0_14;
+		C0[15] = res0_15;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 16; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*16;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 16; // number of values in A
+#endif
+
+		C0 = C0+16;
+	}
+
+
+
+
+        if ( bm & 8 )
+        {
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*8;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+		res0_4 = 0;
+		res0_5 = 0;
+		res0_6 = 0;
+		res0_7 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+8;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+
+			a0 = ptrba[4];
+			res0_4 += a0*b0;
+
+			a1 = ptrba[5];
+			res0_5 += a1*b0;
+
+			a0 = ptrba[6];
+			res0_6 += a0*b0;
+
+			a1 = ptrba[7];
+			res0_7 += a1*b0;
+
+			ptrba = ptrba+8;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+		res0_4 *= alpha;
+		res0_5 *= alpha;
+		res0_6 *= alpha;
+		res0_7 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+		C0[4] = res0_4;
+		C0[5] = res0_5;
+		C0[6] = res0_6;
+		C0[7] = res0_7;
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 8; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*8;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 8; // number of values in A
+#endif
+
+		C0 = C0+8;
+	}
+
+	if ( bm & 4 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*4;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+4;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+
+			ptrba = ptrba+4;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 4; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*4;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 4; // number of values in A
+#endif
+
+		C0 = C0+4;
+
+	}
+
+	if ( bm & 2 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*2;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+2;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			ptrba = ptrba+2;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 2; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*2;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 2; // number of values in A
+#endif
+
+		C0 = C0+2;
+
+	}
+
+	if ( bm & 1 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*1;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+1;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			ptrba = ptrba+1;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+
+		C0[0] = res0_0;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 1; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*1;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 1; // number of values in A
+#endif
+
+		C0 = C0+1;
+
+	}
+
+
+
+#if defined(TRMMKERNEL) && !defined(LEFT)
+		off += 1;
+#endif
+
+        k = (bk<<0);
+        bb = bb+k;
+        C = C+ldc;
+   }
+   return 0;
+}
diff --git a/kernel/generic/trmmkernel_8x2.c b/kernel/generic/trmmkernel_8x2.c
new file mode 100644
index 000000000..5af289c58
--- /dev/null
+++ b/kernel/generic/trmmkernel_8x2.c
@@ -0,0 +1,750 @@
+#include "common.h"
+
+int CNAME(BLASLONG bm,BLASLONG bn,BLASLONG bk,FLOAT alpha,FLOAT* ba,FLOAT* bb,FLOAT* C,BLASLONG ldc ,BLASLONG offset) 
+{
+
+   BLASLONG i,j,k;
+   FLOAT *C0,*C1,*ptrba,*ptrbb;
+
+   FLOAT res0_0;
+   FLOAT res0_1;
+   FLOAT res0_2;
+   FLOAT res0_3;
+   FLOAT res0_4;
+   FLOAT res0_5;
+   FLOAT res0_6;
+   FLOAT res0_7;
+
+   FLOAT res1_0;
+   FLOAT res1_1;
+   FLOAT res1_2;
+   FLOAT res1_3;
+   FLOAT res1_4;
+   FLOAT res1_5;
+   FLOAT res1_6;
+   FLOAT res1_7;
+
+   FLOAT a0;
+   FLOAT a1;
+
+   FLOAT b0;
+   FLOAT b1;
+
+   BLASLONG off, temp;
+
+#if !defined(LEFT)
+   off = -offset; 
+#endif
+
+
+
+   for (j=0; j<bn/2; j+=1) 
+   {
+        C0 = C;
+        C1 = C0+ldc;
+
+#if defined(TRMMKERNEL) && defined(LEFT)
+		off = offset;
+#endif
+
+
+        ptrba = ba;
+
+        for (i=0; i<bm/8; i+=1) 
+        {
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*8;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+		res0_4 = 0;
+		res0_5 = 0;
+		res0_6 = 0;
+		res0_7 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+		res1_2 = 0;
+		res1_3 = 0;
+		res1_4 = 0;
+		res1_5 = 0;
+		res1_6 = 0;
+		res1_7 = 0;
+
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+8;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+			res1_2 += a0*b1;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+			res1_3 += a1*b1;
+
+			a0 = ptrba[4];
+			res0_4 += a0*b0;
+			res1_4 += a0*b1;
+
+			a1 = ptrba[5];
+			res0_5 += a1*b0;
+			res1_5 += a1*b1;
+
+			a0 = ptrba[6];
+			res0_6 += a0*b0;
+			res1_6 += a0*b1;
+
+			a1 = ptrba[7];
+			res0_7 += a1*b0;
+			res1_7 += a1*b1;
+
+			ptrba = ptrba+8;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+		res0_4 *= alpha;
+		res0_5 *= alpha;
+		res0_6 *= alpha;
+		res0_7 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+		res1_2 *= alpha;
+		res1_3 *= alpha;
+		res1_4 *= alpha;
+		res1_5 *= alpha;
+		res1_6 *= alpha;
+		res1_7 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+		C0[4] = res0_4;
+		C0[5] = res0_5;
+		C0[6] = res0_6;
+		C0[7] = res0_7;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+		C1[2] = res1_2;
+		C1[3] = res1_3;
+		C1[4] = res1_4;
+		C1[5] = res1_5;
+		C1[6] = res1_6;
+		C1[7] = res1_7;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 8; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*8;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 8; // number of values in A
+#endif
+
+		C0 = C0+8;
+		C1 = C1+8;
+	}
+
+	if ( bm & 4 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*4;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+		res1_2 = 0;
+		res1_3 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+4;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+			res1_2 += a0*b1;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+			res1_3 += a1*b1;
+
+			ptrba = ptrba+4;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+		res1_2 *= alpha;
+		res1_3 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+		C1[2] = res1_2;
+		C1[3] = res1_3;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 4; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*4;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 4; // number of values in A
+#endif
+
+		C0 = C0+4;
+		C1 = C1+4;
+
+	}
+
+	if ( bm & 2 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*2;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+
+		res1_0 = 0;
+		res1_1 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+2;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+			res1_1 += a1*b1;
+
+			ptrba = ptrba+2;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+
+		res1_0 *= alpha;
+		res1_1 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+
+		C1[0] = res1_0;
+		C1[1] = res1_1;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 2; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*2;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 2; // number of values in A
+#endif
+
+		C0 = C0+2;
+		C1 = C1+2;
+
+	}
+
+	if ( bm & 1 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*1;
+		ptrbb = bb + off*2;
+#endif
+
+		res0_0 = 0;
+
+		res1_0 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+1;	// number of values in A
+#else
+		temp = off+2;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+			b1 = ptrbb[1];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+			res1_0 += a0*b1;
+
+			ptrba = ptrba+1;
+			ptrbb = ptrbb+2;
+                }
+
+		res0_0 *= alpha;
+
+		res1_0 *= alpha;
+
+		C0[0] = res0_0;
+
+		C1[0] = res1_0;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 1; // number of values in A
+#else 
+		temp -= 2; // number of values in B
+#endif
+		ptrba += temp*1;
+		ptrbb += temp*2;
+#endif
+
+#ifdef LEFT
+		off += 1; // number of values in A
+#endif
+
+		C0 = C0+1;
+		C1 = C1+1;
+
+	}
+
+
+#if defined(TRMMKERNEL) && !defined(LEFT)
+		off += 2;
+#endif
+
+        k = (bk<<1);
+        bb = bb+k;
+        i = (ldc<<1);
+        C = C+i;
+    }
+
+
+
+
+
+
+
+   for (j=0; j<(bn&1); j+=1) 
+   {
+        C0 = C;
+
+#if defined(TRMMKERNEL) &&  defined(LEFT)
+	off = offset;
+#endif
+
+        ptrba = ba;
+
+        for (i=0; i<bm/8; i+=1) 
+        {
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*8;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+		res0_4 = 0;
+		res0_5 = 0;
+		res0_6 = 0;
+		res0_7 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+8;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+
+			a0 = ptrba[4];
+			res0_4 += a0*b0;
+
+			a1 = ptrba[5];
+			res0_5 += a1*b0;
+
+			a0 = ptrba[6];
+			res0_6 += a0*b0;
+
+			a1 = ptrba[7];
+			res0_7 += a1*b0;
+
+			ptrba = ptrba+8;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+		res0_4 *= alpha;
+		res0_5 *= alpha;
+		res0_6 *= alpha;
+		res0_7 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+		C0[4] = res0_4;
+		C0[5] = res0_5;
+		C0[6] = res0_6;
+		C0[7] = res0_7;
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 8; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*8;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 8; // number of values in A
+#endif
+
+		C0 = C0+8;
+	}
+
+	if ( bm & 4 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*4;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+		res0_2 = 0;
+		res0_3 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+4;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			a0 = ptrba[2];
+			res0_2 += a0*b0;
+
+			a1 = ptrba[3];
+			res0_3 += a1*b0;
+
+			ptrba = ptrba+4;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+		res0_2 *= alpha;
+		res0_3 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+		C0[2] = res0_2;
+		C0[3] = res0_3;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 4; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*4;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 4; // number of values in A
+#endif
+
+		C0 = C0+4;
+
+	}
+
+	if ( bm & 2 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*2;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+		res0_1 = 0;
+
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+2;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			a1 = ptrba[1];
+			res0_1 += a1*b0;
+
+			ptrba = ptrba+2;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+		res0_1 *= alpha;
+
+		C0[0] = res0_0;
+		C0[1] = res0_1;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 2; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*2;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 2; // number of values in A
+#endif
+
+		C0 = C0+2;
+
+	}
+
+	if ( bm & 1 )
+	{
+
+#if (defined(LEFT) &&  defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA))
+		ptrbb = bb;
+#else
+		ptrba += off*1;
+		ptrbb = bb + off*1;
+#endif
+
+		res0_0 = 0;
+
+
+#if (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
+		temp = bk-off;
+#elif defined(LEFT) 
+		temp = off+1;	// number of values in A
+#else
+		temp = off+1;	// number of values in B
+#endif
+
+		for (k=0; k<temp; k++) 
+                {
+			b0 = ptrbb[0];
+
+			a0 = ptrba[0];
+			res0_0 += a0*b0;
+
+			ptrba = ptrba+1;
+			ptrbb = ptrbb+1;
+                }
+
+		res0_0 *= alpha;
+
+		C0[0] = res0_0;
+
+
+#if ( defined(LEFT) && defined(TRANSA)) || (!defined(LEFT) && !defined(TRANSA)) 
+		temp = bk - off;
+#ifdef LEFT
+		temp -= 1; // number of values in A
+#else 
+		temp -= 1; // number of values in B
+#endif
+		ptrba += temp*1;
+		ptrbb += temp*1;
+#endif
+
+#ifdef LEFT
+		off += 1; // number of values in A
+#endif
+
+		C0 = C0+1;
+
+	}
+
+
+
+#if defined(TRMMKERNEL) && !defined(LEFT)
+		off += 1;
+#endif
+
+        k = (bk<<0);
+        bb = bb+k;
+        C = C+ldc;
+   }
+   return 0;
+}

From 0a22f99c58b6cc19a30b7281d7b757508a4ca52d Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 3 Aug 2013 09:35:39 +0200
Subject: [PATCH 03/11] repaired trmm bug in dgemm_kernel_8x2_bulldozer.S

---
 kernel/x86_64/dgemm_kernel_8x2_bulldozer.S | 1501 +++++++++++++-------
 1 file changed, 1017 insertions(+), 484 deletions(-)

diff --git a/kernel/x86_64/dgemm_kernel_8x2_bulldozer.S b/kernel/x86_64/dgemm_kernel_8x2_bulldozer.S
index dc32172dc..45f5c0c8f 100644
--- a/kernel/x86_64/dgemm_kernel_8x2_bulldozer.S
+++ b/kernel/x86_64/dgemm_kernel_8x2_bulldozer.S
@@ -870,8 +870,7 @@
 
 /*******************************************************************************************/
 
-
-
+#if !defined(TRMMKERNEL)
 
 
 	PROLOGUE
@@ -908,16 +907,11 @@
 	movq	OLD_B,     B
 	movq	OLD_C,     C
 	movq	OLD_LDC,   LDC
-#ifdef TRMMKERNEL
-	movsd	OLD_OFFSET, %xmm12
-#endif
+
 	vmovaps	%xmm3, %xmm0
 
 #else
 	movq	STACKSIZE +  8(%rsp), LDC
-#ifdef TRMMKERNEL
-	movsd	STACKSIZE + 16(%rsp), %xmm12
-#endif
 
 #endif
 
@@ -953,13 +947,6 @@
 
 	
 
-#ifdef TRMMKERNEL
-	vmovsd	%xmm12, OFFSET
-	vmovsd	%xmm12, KK
-#ifndef LEFT
-	negq	KK
-#endif	
-#endif
 
 	movq	Ndiv6,  J
 	cmpq	$0, J
@@ -1092,10 +1079,6 @@
 	leaq	(C, LDC, 2), C		 
 	leaq	(C, LDC, 1), C		// c += 3 * ldc
 
-#if defined(TRMMKERNEL) && defined(LEFT)
-        movq    OFFSET, %rax
-        movq    %rax, KK
-#endif
 	
 	movq	A, AO		 	// aoffset = a
 	addq	$16 * SIZE, AO
@@ -1107,40 +1090,12 @@
 	ALIGN_4
 
 .L6_11:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $8, %rax	// number of values in AO
-#else
-        addq    $3, %rax	// number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 	andq	$-8, %rax			//  K = K - ( K % 8 )
 	je	.L6_16
@@ -1190,11 +1145,7 @@
 	ALIGN_4
 
 .L6_16:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_19
@@ -1222,7 +1173,6 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
@@ -1239,24 +1189,6 @@
 	vfmaddpd 4 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12
 	vfmaddpd 6 * SIZE(CO1, LDC, 2),%xmm0, %xmm15,%xmm15
 
-#else
-	vmulpd	%xmm0, %xmm4,%xmm4
-	vmulpd	%xmm0, %xmm7,%xmm7
-	vmulpd	%xmm0, %xmm10,%xmm10
-	vmulpd	%xmm0, %xmm13,%xmm13
-
-	vmulpd	%xmm0, %xmm5,%xmm5
-	vmulpd	%xmm0, %xmm8,%xmm8
-	vmulpd	%xmm0, %xmm11,%xmm11
-	vmulpd	%xmm0, %xmm14,%xmm14
-
-	vmulpd	%xmm0, %xmm6,%xmm6
-	vmulpd	%xmm0, %xmm9,%xmm9
-	vmulpd	%xmm0, %xmm12,%xmm12
-	vmulpd	%xmm0, %xmm15,%xmm15
-
-#endif
-
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 2 * SIZE(CO1)
 	vmovups	%xmm10, 4 * SIZE(CO1)
@@ -1272,21 +1204,6 @@
 	vmovups	%xmm12, 4 * SIZE(CO1, LDC, 2)
 	vmovups	%xmm15, 6 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $8, KK
-#endif
 
 	addq	$8 * SIZE, CO1		# coffset += 8
 	decq	I			# i --
@@ -1308,41 +1225,12 @@
 	ALIGN_4
 
 .L6_21:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $4, %rax        // number of values in A
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L6_26
@@ -1392,11 +1280,7 @@
 	ALIGN_4
 
 .L6_26:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_29
@@ -1424,7 +1308,6 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
@@ -1435,17 +1318,6 @@
 	vfmaddpd 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 	vfmaddpd 2 * SIZE(CO1, LDC, 2),%xmm0, %xmm9,%xmm9
 
-#else
-	vmulpd	%xmm0, %xmm4,%xmm4
-	vmulpd	%xmm0, %xmm7,%xmm7
-
-	vmulpd	%xmm0, %xmm5,%xmm5
-	vmulpd	%xmm0, %xmm8,%xmm8
-
-	vmulpd	%xmm0, %xmm6,%xmm6
-	vmulpd	%xmm0, %xmm9,%xmm9
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 2 * SIZE(CO1)
@@ -1456,21 +1328,6 @@
 	vmovups	%xmm6 ,  	(CO1, LDC, 2)
 	vmovups	%xmm9 , 2 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $4, KK
-#endif
 
 	addq	$4 * SIZE, CO1		# coffset += 4
 	ALIGN_4
@@ -1483,41 +1340,13 @@
 	ALIGN_4
 
 .L6_31:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
 
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $2, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L6_36
@@ -1567,11 +1396,7 @@
 	ALIGN_4
 
 .L6_36:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_39
@@ -1599,38 +1424,16 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddpd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddpd 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulpd	%xmm0, %xmm4,%xmm4
-	vmulpd	%xmm0, %xmm5,%xmm5
-	vmulpd	%xmm0, %xmm6,%xmm6
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm5 ,  	(CO1, LDC)
 	vmovups	%xmm6 ,  	(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $2, KK
-#endif
 
 	addq	$2 * SIZE, CO1		# coffset += 2
 	ALIGN_4
@@ -1642,39 +1445,12 @@
 	ALIGN_4
 
 .L6_41:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        leaq    (AO, %rax, 8), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $1, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 	andq	$-8, %rax
 	je	.L6_46
@@ -1723,11 +1499,7 @@
 	ALIGN_4
 
 .L6_46:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_49
@@ -1754,37 +1526,15 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddsd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddsd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddsd 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulsd	%xmm0, %xmm4,%xmm4
-	vmulsd	%xmm0, %xmm5,%xmm5
-	vmulsd	%xmm0, %xmm6,%xmm6
-
-#endif
-
 	vmovsd	%xmm4 ,  	(CO1)
 	vmovsd	%xmm5 ,  	(CO1, LDC)
 	vmovsd	%xmm6 ,  	(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        leaq    (AO, %rax, 8), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $1, KK
-#endif
 
 	addq	$1 * SIZE, CO1		# coffset += 1
 	ALIGN_4
@@ -1799,10 +1549,6 @@
 	leaq	(C, LDC, 2), C		 
 	leaq	(C, LDC, 1), C		// c += 3 * ldc
 
-#if defined(TRMMKERNEL) && defined(LEFT)
-        movq    OFFSET, %rax
-        movq    %rax, KK
-#endif
 
 	movq	A, AO		 	// aoffset = a
 	addq	$16 * SIZE, AO
@@ -1813,40 +1559,13 @@
 	ALIGN_4
 
 .L7_11:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
 
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $8, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 
 	andq	$-8, %rax
@@ -1898,11 +1617,7 @@
 	ALIGN_4
 
 .L7_16:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_19
@@ -1930,8 +1645,6 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
 	vfmaddpd 4 * SIZE(CO1),%xmm0, %xmm10,%xmm10
@@ -1947,23 +1660,6 @@
 	vfmaddpd 4 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12
 	vfmaddpd 6 * SIZE(CO1, LDC, 2),%xmm0, %xmm15,%xmm15
 
-#else
-	vmulpd	%xmm0, %xmm4,%xmm4
-	vmulpd	%xmm0, %xmm7,%xmm7
-	vmulpd	%xmm0, %xmm10,%xmm10
-	vmulpd	%xmm0, %xmm13,%xmm13
-
-	vmulpd	%xmm0, %xmm5,%xmm5
-	vmulpd	%xmm0, %xmm8,%xmm8
-	vmulpd	%xmm0, %xmm11,%xmm11
-	vmulpd	%xmm0, %xmm14,%xmm14
-
-	vmulpd	%xmm0, %xmm6,%xmm6
-	vmulpd	%xmm0, %xmm9,%xmm9
-	vmulpd	%xmm0, %xmm12,%xmm12
-	vmulpd	%xmm0, %xmm15,%xmm15
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 2 * SIZE(CO1)
@@ -1980,21 +1676,8 @@
 	vmovups	%xmm12, 4 * SIZE(CO1, LDC, 2)
 	vmovups	%xmm15, 6 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif  
 
 
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $8, KK
-#endif
 
 	addq	$8 * SIZE, CO1		# coffset += 8
 	decq	I			# i --
@@ -2013,41 +1696,13 @@
 	ALIGN_4
 
 .L7_21:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
 
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $4, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L7_26
@@ -2097,11 +1752,7 @@
 	ALIGN_4
 
 .L7_26:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_29
@@ -2129,7 +1780,6 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
@@ -2140,17 +1790,6 @@
 	vfmaddpd 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 	vfmaddpd 2 * SIZE(CO1, LDC, 2),%xmm0, %xmm9,%xmm9
 
-#else
-	vmulpd	%xmm0, %xmm4,%xmm4
-	vmulpd	%xmm0, %xmm7,%xmm7
-
-	vmulpd	%xmm0, %xmm5,%xmm5
-	vmulpd	%xmm0, %xmm8,%xmm8
-
-	vmulpd	%xmm0, %xmm6,%xmm6
-	vmulpd	%xmm0, %xmm9,%xmm9
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 2 * SIZE(CO1)
@@ -2161,21 +1800,6 @@
 	vmovups	%xmm6 ,  	(CO1, LDC, 2)
 	vmovups	%xmm9 , 2 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $4, KK
-#endif
 
 	addq	$4 * SIZE, CO1		# coffset += 4
 	ALIGN_4
@@ -2188,40 +1812,12 @@
 	ALIGN_4
 
 .L7_31:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $2, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L7_36
@@ -2271,11 +1867,7 @@
 	ALIGN_4
 
 .L7_36:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_39
@@ -2303,38 +1895,16 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddpd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddpd 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulpd	%xmm0, %xmm4,%xmm4
-	vmulpd	%xmm0, %xmm5,%xmm5
-	vmulpd	%xmm0, %xmm6,%xmm6
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm5 ,  	(CO1, LDC)
 	vmovups	%xmm6 ,  	(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, 8), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $2, KK
-#endif
 
 	addq	$2 * SIZE, CO1		# coffset += 2
 	ALIGN_4
@@ -2350,39 +1920,12 @@
 	ALIGN_4
 
 .L7_41:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO
-        leaq    (AO, %rax, 8), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $1, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 
 	andq	$-8, %rax
@@ -2432,11 +1975,7 @@
 	ALIGN_4
 
 .L7_46:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_49
@@ -2463,37 +2002,16 @@
 
 	vmovddup	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
 
 	vfmaddsd 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddsd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddsd 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulsd	%xmm0, %xmm4,%xmm4
-	vmulsd	%xmm0, %xmm5,%xmm5
-	vmulsd	%xmm0, %xmm6,%xmm6
-
-#endif
 
 	vmovsd	%xmm4 ,  	(CO1)
 	vmovsd	%xmm5 ,  	(CO1, LDC)
 	vmovsd	%xmm6 ,  	(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, 8), BO         
-        leaq    (AO, %rax, 8), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $1, KK
-#endif
 
 	addq	$1 * SIZE, CO1		# coffset += 1
 
@@ -2516,6 +2034,1014 @@
 	je	.L1_0
 	ALIGN_4
 
+.L2_01:
+	// copy to sub buffer
+	movq	B, BO1
+	leaq    BUFFER1, BO		// first buffer to BO
+	movq	K, %rax
+	ALIGN_4
+
+.L2_02b:
+
+	vmovups	(BO1), %xmm0
+	vmovups	%xmm0,       (BO)
+	addq	$2*SIZE,BO1
+	addq	$2*SIZE,BO
+	decq	%rax
+	jnz	.L2_02b
+
+.L2_02c:
+
+	movq	BO1, B			// next offset of B
+
+.L2_10:
+	movq	C, CO1
+	leaq	(C, LDC, 2), C		// c += 2 * ldc
+
+	
+	movq	A, AO		 	// aoffset = a
+	addq	$16 * SIZE, AO
+
+	movq	M,  I
+	sarq	$3, I			// i = (m >> 3)
+	je	.L2_20
+
+	ALIGN_4
+
+.L2_11:
+
+	leaq	BUFFER1, BO		// first buffer to BO
+	addq	$4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax			//  K = K - ( K % 8 )
+	je	.L2_16
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_12:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	je	.L2_16
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	je	.L2_16
+
+	jmp	.L2_12
+	ALIGN_4
+
+.L2_16:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_19
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_17:
+
+	KERNEL8x2_SUB(xxx)
+	addq	$2, BI
+	addq	$8, %rax
+	jl	.L2_17
+	ALIGN_4
+
+
+.L2_19:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+	vfmaddpd 4 * SIZE(CO1),%xmm0, %xmm10,%xmm10
+	vfmaddpd 6 * SIZE(CO1),%xmm0, %xmm13,%xmm13
+
+	vfmaddpd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+	vfmaddpd 2 * SIZE(CO1, LDC),%xmm0, %xmm8,%xmm8
+	vfmaddpd 4 * SIZE(CO1, LDC),%xmm0, %xmm11,%xmm11
+	vfmaddpd 6 * SIZE(CO1, LDC),%xmm0, %xmm14,%xmm14
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 2 * SIZE(CO1)
+	vmovups	%xmm10, 4 * SIZE(CO1)
+	vmovups	%xmm13, 6 * SIZE(CO1)
+
+	vmovups	%xmm5 ,  	(CO1, LDC)
+	vmovups	%xmm8 , 2 * SIZE(CO1, LDC)
+	vmovups	%xmm11, 4 * SIZE(CO1, LDC)
+	vmovups	%xmm14, 6 * SIZE(CO1, LDC)
+
+
+	addq	$8 * SIZE, CO1		# coffset += 8
+	decq	I			# i --
+	jg	.L2_11
+	ALIGN_4	
+
+/**************************************************************************
+* Rest of M 
+***************************************************************************/
+.L2_20:
+	// Test rest of M
+
+	testq	$7, M
+	jz	.L2_60		// to next 2 lines of N
+
+	testq	$4, M		
+	jz	.L2_30
+
+	ALIGN_4
+
+.L2_21:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_26
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_22:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	je	.L2_26
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	je	.L2_26
+
+	jmp	.L2_22
+	ALIGN_4
+
+.L2_26:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_29
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_27:
+
+	KERNEL4x2_SUB(xxx)
+	addq	$2, BI
+	addq	$4, %rax
+	jl	.L2_27
+	ALIGN_4
+
+
+.L2_29:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+
+	vfmaddpd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+	vfmaddpd 2 * SIZE(CO1, LDC),%xmm0, %xmm8,%xmm8
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 2 * SIZE(CO1)
+
+	vmovups	%xmm5 ,  	(CO1, LDC)
+	vmovups	%xmm8 , 2 * SIZE(CO1, LDC)
+
+	addq	$4 * SIZE, CO1		# coffset += 4
+	ALIGN_4
+	
+
+.L2_30:
+	testq	$2, M		
+	jz	.L2_40
+
+	ALIGN_4
+
+.L2_31:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_36
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_32:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	je	.L2_36
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	je	.L2_36
+
+	jmp	.L2_32
+	ALIGN_4
+
+.L2_36:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_39
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+	
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_37:
+
+	KERNEL2x2_SUB(xxx)
+	addq	$2, BI
+	addq	$2, %rax
+	jl	.L2_37
+	ALIGN_4
+
+
+.L2_39:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddpd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm5 ,  	(CO1, LDC)
+
+	addq	$2 * SIZE, CO1		# coffset += 2
+	ALIGN_4
+	
+
+.L2_40:
+	testq	$1, M		
+	jz	.L2_60		// to next 2 lines of N
+
+	ALIGN_4
+
+.L2_41:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_46
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_42:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	je	.L2_46
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	je	.L2_46
+
+	jmp	.L2_42
+	ALIGN_4
+
+.L2_46:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_49
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_47:
+
+	KERNEL1x2_SUB(xxx)
+	addq	$2, BI
+	addq	$1, %rax
+	jl	.L2_47
+	ALIGN_4
+
+
+.L2_49:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddsd 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddsd 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+
+	vmovsd	%xmm4 ,  	(CO1)
+	vmovsd	%xmm5 ,  	(CO1, LDC)
+
+
+	addq	$1 * SIZE, CO1		# coffset += 1
+	ALIGN_4
+	
+
+	
+.L2_60:
+
+	decq	J			// j --
+	jg	.L2_01			// next 2 lines of N
+
+
+
+.L1_0:
+
+/************************************************************************************************
+* Loop for Nmod6 % 2 > 0
+*************************************************************************************************/
+
+	movq	Nmod6, J		
+	andq	$1, J			// j % 2
+	je	.L999
+	ALIGN_4
+
+.L1_01:
+	// copy to sub buffer
+	movq	B, BO1
+	leaq    BUFFER1, BO		// first buffer to BO
+	movq	K, %rax
+	ALIGN_4
+
+.L1_02b:
+
+	vmovsd	(BO1), %xmm0
+	vmovsd	%xmm0,       (BO)
+	addq	$1*SIZE,BO1
+	addq	$1*SIZE,BO
+	decq	%rax
+	jnz	.L1_02b
+
+.L1_02c:
+
+	movq	BO1, B			// next offset of B
+
+.L1_10:
+	movq	C, CO1
+	leaq	(C, LDC, 1), C		// c += 1 * ldc
+
+	movq	A, AO		 	// aoffset = a
+	addq	$16 * SIZE, AO
+
+	movq	M,  I
+	sarq	$3, I			// i = (m >> 3)
+	je	.L1_20
+
+	ALIGN_4
+
+.L1_11:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax			//  K = K - ( K % 8 )
+	je	.L1_16
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_12:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	je	.L1_16
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	je	.L1_16
+
+	jmp	.L1_12
+	ALIGN_4
+
+.L1_16:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_19
+
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_17:
+
+	KERNEL8x1_SUB(xxx)
+	addq	$1, BI
+	addq	$8, %rax
+	jl	.L1_17
+	ALIGN_4
+
+
+.L1_19:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+	vfmaddpd 4 * SIZE(CO1),%xmm0, %xmm10,%xmm10
+	vfmaddpd 6 * SIZE(CO1),%xmm0, %xmm13,%xmm13
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 2 * SIZE(CO1)
+	vmovups	%xmm10, 4 * SIZE(CO1)
+	vmovups	%xmm13, 6 * SIZE(CO1)
+
+	addq	$8 * SIZE, CO1		# coffset += 8
+	decq	I			# i --
+	jg	.L1_11
+	ALIGN_4	
+
+/**************************************************************************
+* Rest of M 
+***************************************************************************/
+.L1_20:
+	// Test rest of M
+
+	testq	$7, M
+	jz	.L999
+
+	testq	$4, M		
+	jz	.L1_30
+
+	ALIGN_4
+
+.L1_21:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_26
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_22:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	je	.L1_26
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	je	.L1_26
+
+	jmp	.L1_22
+	ALIGN_4
+
+.L1_26:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_29
+
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_27:
+
+	KERNEL4x1_SUB(xxx)
+	addq	$1, BI
+	addq	$4, %rax
+	jl	.L1_27
+	ALIGN_4
+
+
+.L1_29:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 2 * SIZE(CO1)
+
+	addq	$4 * SIZE, CO1		# coffset += 4
+	ALIGN_4
+	
+
+.L1_30:
+	testq	$2, M		
+	jz	.L1_40
+
+	ALIGN_4
+
+.L1_31:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_36
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_32:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	je	.L1_36
+
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	je	.L1_36
+
+	jmp	.L1_32
+	ALIGN_4
+
+.L1_36:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_39
+
+	movq    %rax, BI                        //  Index for BO
+	
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_37:
+
+	KERNEL2x1_SUB(xxx)
+	addq	$1, BI
+	addq	$2, %rax
+	jl	.L1_37
+	ALIGN_4
+
+
+.L1_39:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddpd 	 (CO1),%xmm0, %xmm4,%xmm4
+
+	vmovups	%xmm4 ,  	(CO1)
+
+	addq	$2 * SIZE, CO1		# coffset += 2
+	ALIGN_4
+	
+
+.L1_40:
+	testq	$1, M		
+	jz	.L999
+
+	ALIGN_4
+
+.L1_41:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_46
+	movq    %rax, BI                        //  Index for BO
+
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_42:
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	je	.L1_46
+
+	prefetcht0	B_PR1(BO,BI,8)
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	je	.L1_46
+
+	jmp	.L1_42
+	ALIGN_4
+
+.L1_46:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_49
+
+	movq    %rax, BI                        //  Index for BO
+
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, BI, 8), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_47:
+
+	KERNEL1x1_SUB(xxx)
+	addq	$1, BI
+	addq	$1, %rax
+	jl	.L1_47
+	ALIGN_4
+
+
+.L1_49:
+
+	vmovddup	ALPHA, %xmm0
+
+	vfmaddsd 	 (CO1),%xmm0, %xmm4,%xmm4
+
+	vmovsd	%xmm4 ,  	(CO1)
+
+	addq	$1 * SIZE, CO1		# coffset += 1
+	ALIGN_4
+	
+
+.L999:
+	movq   		SP, %rsp
+	movq	   (%rsp), %rbx
+	movq	  8(%rsp), %rbp
+	movq	 16(%rsp), %r12
+	movq	 24(%rsp), %r13
+	movq	 32(%rsp), %r14
+	movq	 40(%rsp), %r15
+
+#ifdef WINDOWS_ABI
+	movq	 48(%rsp), %rdi
+	movq	 56(%rsp), %rsi
+	movups	 64(%rsp), %xmm6
+	movups	 80(%rsp), %xmm7
+	movups	 96(%rsp), %xmm8
+	movups	112(%rsp), %xmm9
+	movups	128(%rsp), %xmm10
+	movups	144(%rsp), %xmm11
+	movups	160(%rsp), %xmm12
+	movups	176(%rsp), %xmm13
+	movups	192(%rsp), %xmm14
+	movups	208(%rsp), %xmm15
+#endif
+
+	addq	$STACKSIZE, %rsp
+	ret
+
+	EPILOGUE
+
+
+#else
+/*************************************************************************************
+* TRMM Kernel
+*************************************************************************************/
+	PROLOGUE
+	PROFCODE
+	
+	subq	$STACKSIZE, %rsp
+	movq	%rbx,   (%rsp)
+	movq	%rbp,  8(%rsp)
+	movq	%r12, 16(%rsp)
+	movq	%r13, 24(%rsp)
+	movq	%r14, 32(%rsp)
+	movq	%r15, 40(%rsp)
+
+	vzeroupper
+
+#ifdef WINDOWS_ABI
+	movq	%rdi,    48(%rsp)
+	movq	%rsi,    56(%rsp)
+	movups	%xmm6,   64(%rsp)
+	movups	%xmm7,   80(%rsp)
+	movups	%xmm8,   96(%rsp)
+	movups	%xmm9,  112(%rsp)
+	movups	%xmm10, 128(%rsp)
+	movups	%xmm11, 144(%rsp)
+	movups	%xmm12, 160(%rsp)
+	movups	%xmm13, 176(%rsp)
+	movups	%xmm14, 192(%rsp)
+	movups	%xmm15, 208(%rsp)
+
+	movq	ARG1,      OLD_M
+	movq	ARG2,      OLD_N
+	movq	ARG3,      OLD_K
+	movq	OLD_A,     A
+	movq	OLD_B,     B
+	movq	OLD_C,     C
+	movq	OLD_LDC,   LDC
+#ifdef TRMMKERNEL
+	movsd	OLD_OFFSET, %xmm12
+#endif
+	vmovaps	%xmm3, %xmm0
+
+#else
+	movq	STACKSIZE +  8(%rsp), LDC
+#ifdef TRMMKERNEL
+	movsd	STACKSIZE + 16(%rsp), %xmm12
+#endif
+
+#endif
+
+	movq    %rsp, SP      # save old stack
+        subq    $128 + L_BUFFER_SIZE, %rsp
+        andq    $-4096, %rsp    # align stack
+
+        STACK_TOUCH
+
+	cmpq	$0, OLD_M
+	je	.L999
+
+	cmpq	$0, OLD_N
+	je	.L999
+
+	cmpq	$0, OLD_K
+	je	.L999
+
+	movq	OLD_M, M
+	movq	OLD_N, N
+	movq	OLD_K, K
+
+	vmovsd	 %xmm0, ALPHA
+
+	salq	$BASE_SHIFT, LDC
+
+	movq    N, %rax
+        xorq    %rdx, %rdx
+        movq    $2,  %rdi
+        divq    %rdi                    //    N / 2
+        movq    %rax, Ndiv6             //    N / 2
+        movq    %rdx, Nmod6             //    N % 2
+
+	
+
+#ifdef TRMMKERNEL
+	vmovsd	%xmm12, OFFSET
+	vmovsd	%xmm12, KK
+#ifndef LEFT
+	negq	KK
+#endif	
+#endif
+
+	movq	Ndiv6,  J
+	cmpq	$0, J
+	je	.L1_0
+	ALIGN_4
+
+.L2_0:
+
 .L2_01:
 	// copy to sub buffer
 	movq	B, BO1
@@ -3205,6 +3731,9 @@
 
 	
 .L2_60:
+#if defined(TRMMKERNEL) && !defined(LEFT)
+        addq    $2, KK
+#endif
 
 	decq	J			// j --
 	jg	.L2_01			// next 2 lines of N
@@ -3878,3 +4407,7 @@
 	ret
 
 	EPILOGUE
+
+
+
+#endif

From 6e0a2fbc0ca3c7d6171e51b72a4fc8f866b73f46 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 3 Aug 2013 10:17:08 +0200
Subject: [PATCH 04/11] repaired trmm bug in zgemm_kernel_2x2_bulldozer.S

---
 kernel/x86_64/zgemm_kernel_2x2_bulldozer.S | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/kernel/x86_64/zgemm_kernel_2x2_bulldozer.S b/kernel/x86_64/zgemm_kernel_2x2_bulldozer.S
index fa02bbe84..ea214aba0 100644
--- a/kernel/x86_64/zgemm_kernel_2x2_bulldozer.S
+++ b/kernel/x86_64/zgemm_kernel_2x2_bulldozer.S
@@ -949,6 +949,9 @@
 
 	
 .L2_60:
+#if defined(TRMMKERNEL) && !defined(LEFT)
+        addq    $2, KK
+#endif
 
 	decq	J			// j --
 	jg	.L2_01			// next 2 lines of N

From 99727ac013a42748a2064258213d183e216f0bc3 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 3 Aug 2013 10:32:51 +0200
Subject: [PATCH 05/11] repaired trmm bug in cgemm_kernel_4x2_bulldozer.S

---
 kernel/x86_64/cgemm_kernel_4x2_bulldozer.S | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/kernel/x86_64/cgemm_kernel_4x2_bulldozer.S b/kernel/x86_64/cgemm_kernel_4x2_bulldozer.S
index 8cf8b54c7..1ddb66fa1 100644
--- a/kernel/x86_64/cgemm_kernel_4x2_bulldozer.S
+++ b/kernel/x86_64/cgemm_kernel_4x2_bulldozer.S
@@ -1255,6 +1255,9 @@
 
 	
 .L2_60:
+#if defined(TRMMKERNEL) && !defined(LEFT)
+        addq    $2, KK
+#endif
 
 	decq	J			// j --
 	jg	.L2_01			// next 2 lines of N

From e45a347cd2d2dc36f4425fa2796c0f2e731bea51 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 3 Aug 2013 11:43:25 +0200
Subject: [PATCH 06/11] repaired trmm bug in sgemm_kernel_16x2_bulldozer.S

---
 kernel/x86_64/sgemm_kernel_16x2_bulldozer.S | 1830 ++++++++++++-------
 1 file changed, 1202 insertions(+), 628 deletions(-)

diff --git a/kernel/x86_64/sgemm_kernel_16x2_bulldozer.S b/kernel/x86_64/sgemm_kernel_16x2_bulldozer.S
index f02a1dfa5..2a034f056 100644
--- a/kernel/x86_64/sgemm_kernel_16x2_bulldozer.S
+++ b/kernel/x86_64/sgemm_kernel_16x2_bulldozer.S
@@ -981,6 +981,8 @@
 
 /*******************************************************************************************/
 
+#if !defined(TRMMKERNEL)
+
 
 	PROLOGUE
 	PROFCODE
@@ -1016,16 +1018,11 @@
 	movq	OLD_B,     B
 	movq	OLD_C,     C
 	movq	OLD_LDC,   LDC
-#ifdef TRMMKERNEL
-	movsd	OLD_OFFSET, %xmm12
-#endif
+
 	vmovaps	%xmm3, %xmm0
 
 #else
 	movq	STACKSIZE +  8(%rsp), LDC
-#ifdef TRMMKERNEL
-	movsd	STACKSIZE + 16(%rsp), %xmm12
-#endif
 
 #endif
 
@@ -1059,15 +1056,6 @@
         movq    %rax, Ndiv6             //    N / 6
         movq    %rdx, Nmod6             //    N % 6
 
-	
-
-#ifdef TRMMKERNEL
-	vmovsd	%xmm12, OFFSET
-	vmovsd	%xmm12, KK
-#ifndef LEFT
-	negq	KK
-#endif	
-#endif
 
 	movq	Ndiv6,  J
 	cmpq	$0, J
@@ -1248,10 +1236,6 @@
 	leaq	(C, LDC, 2), C		 
 	leaq	(C, LDC, 1), C		// c += 3 * ldc
 
-#if defined(TRMMKERNEL) && defined(LEFT)
-        movq    OFFSET, %rax
-        movq    %rax, KK
-#endif
 	
 	movq	A, AO		 	// aoffset = a
 	addq	$32 * SIZE, AO
@@ -1263,40 +1247,12 @@
 	ALIGN_4
 
 .L6_11:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $4, %rax                        // rax = rax * 16 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $16, %rax	// number of values in AO
-#else
-        addq    $3, %rax	// number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 	andq	$-8, %rax			//  K = K - ( K % 8 )
 	je	.L6_16
@@ -1343,11 +1299,7 @@
 	ALIGN_4
 
 .L6_16:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_19
@@ -1375,8 +1327,6 @@
 
 	vbroadcastss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
 	vfmaddps 8 * SIZE(CO1),%xmm0, %xmm10,%xmm10
@@ -1392,23 +1342,6 @@
 	vfmaddps 8 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12
 	vfmaddps 12 * SIZE(CO1, LDC, 2),%xmm0, %xmm15,%xmm15
 
-#else
-	vmulps	%xmm0, %xmm4,%xmm4
-	vmulps	%xmm0, %xmm7,%xmm7
-	vmulps	%xmm0, %xmm10,%xmm10
-	vmulps	%xmm0, %xmm13,%xmm13
-
-	vmulps	%xmm0, %xmm5,%xmm5
-	vmulps	%xmm0, %xmm8,%xmm8
-	vmulps	%xmm0, %xmm11,%xmm11
-	vmulps	%xmm0, %xmm14,%xmm14
-
-	vmulps	%xmm0, %xmm6,%xmm6
-	vmulps	%xmm0, %xmm9,%xmm9
-	vmulps	%xmm0, %xmm12,%xmm12
-	vmulps	%xmm0, %xmm15,%xmm15
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 4 * SIZE(CO1)
@@ -1425,21 +1358,6 @@
 	vmovups	%xmm12, 8 * SIZE(CO1, LDC, 2)
 	vmovups	%xmm15,12 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $4, %rax                        // rax = rax * 16 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $16, KK				
-#endif
 
 	addq	$16 * SIZE, CO1		# coffset += 16
 	decq	I			# i --
@@ -1462,41 +1380,12 @@
 /**************************************************************************/
 
 .L6_20_1:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $8, %rax        // number of values in A
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L6_20_6
@@ -1543,11 +1432,7 @@
 	ALIGN_4
 
 .L6_20_6:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_20_9
@@ -1575,8 +1460,6 @@
 
 	vbroadcastss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
 
@@ -1586,17 +1469,6 @@
 	vfmaddps 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 	vfmaddps 4 * SIZE(CO1, LDC, 2),%xmm0, %xmm9,%xmm9
 
-#else
-	vmulps	%xmm0, %xmm4,%xmm4
-	vmulps	%xmm0, %xmm7,%xmm7
-
-	vmulps	%xmm0, %xmm5,%xmm5
-	vmulps	%xmm0, %xmm8,%xmm8
-
-	vmulps	%xmm0, %xmm6,%xmm6
-	vmulps	%xmm0, %xmm9,%xmm9
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 4 * SIZE(CO1)
@@ -1608,22 +1480,6 @@
 	vmovups	%xmm9 , 4 * SIZE(CO1, LDC, 2)
 
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $8, KK
-#endif
-
 	addq	$8 * SIZE, CO1		# coffset += 8
 	ALIGN_4
 	
@@ -1638,41 +1494,12 @@
 	ALIGN_4
 
 .L6_21:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $4, %rax        // number of values in A
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L6_26
@@ -1719,11 +1546,7 @@
 	ALIGN_4
 
 .L6_26:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_29
@@ -1751,40 +1574,15 @@
 
 	vbroadcastss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddps 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddps 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulps	%xmm0, %xmm4,%xmm4
-	vmulps	%xmm0, %xmm5,%xmm5
-	vmulps	%xmm0, %xmm6,%xmm6
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm5 ,  	(CO1, LDC)
 	vmovups	%xmm6 ,  	(CO1, LDC, 2)
 
-
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $4, KK
-#endif
-
 	addq	$4 * SIZE, CO1		# coffset += 4
 	ALIGN_4
 	
@@ -1796,41 +1594,12 @@
 	ALIGN_4
 
 .L6_31:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $2, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L6_36
@@ -1877,11 +1646,7 @@
 	ALIGN_4
 
 .L6_36:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_39
@@ -1909,8 +1674,6 @@
 
 	vmovss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddss 1 * SIZE(CO1),%xmm0, %xmm8,%xmm8
 	vfmaddss 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
@@ -1918,15 +1681,6 @@
 	vfmaddss 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 	vfmaddss 1 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12
 
-#else
-	vmulss	%xmm0, %xmm4,%xmm4
-	vmulss	%xmm0, %xmm8,%xmm8
-	vmulss	%xmm0, %xmm5,%xmm5
-	vmulss	%xmm0, %xmm10,%xmm10
-	vmulss	%xmm0, %xmm6,%xmm6
-	vmulss	%xmm0, %xmm12,%xmm12
-
-#endif
 
 	vmovss	%xmm4 ,  	(CO1)
 	vmovss	%xmm8 , 1 * SIZE(CO1)
@@ -1935,22 +1689,6 @@
 	vmovss	%xmm6 ,  	(CO1, LDC, 2)
 	vmovss	%xmm12, 1 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $2, KK
-#endif
-
 	addq	$2 * SIZE, CO1		# coffset += 2
 	ALIGN_4
 
@@ -1961,39 +1699,12 @@
 	ALIGN_4
 
 .L6_41:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER1, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER1, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $1, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 	andq	$-8, %rax
 	je	.L6_46
@@ -2036,11 +1747,7 @@
 	ALIGN_4
 
 .L6_46:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L6_49
@@ -2067,38 +1774,15 @@
 
 	vmovss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddss 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddss 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulss	%xmm0, %xmm4,%xmm4
-	vmulss	%xmm0, %xmm5,%xmm5
-	vmulss	%xmm0, %xmm6,%xmm6
-
-#endif
 
 	vmovss	%xmm4 ,  	(CO1)
 	vmovss	%xmm5 ,  	(CO1, LDC)
 	vmovss	%xmm6 ,  	(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $1, KK
-#endif
-
 	addq	$1 * SIZE, CO1		# coffset += 1
 	ALIGN_4
 	
@@ -2112,10 +1796,6 @@
 	leaq	(C, LDC, 2), C		 
 	leaq	(C, LDC, 1), C		// c += 3 * ldc
 
-#if defined(TRMMKERNEL) && defined(LEFT)
-        movq    OFFSET, %rax
-        movq    %rax, KK
-#endif
 	
 	movq	A, AO		 	// aoffset = a
 	addq	$32 * SIZE, AO
@@ -2127,40 +1807,12 @@
 	ALIGN_4
 
 .L7_11:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $4, %rax                        // rax = rax * 16 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $16, %rax	// number of values in AO
-#else
-        addq    $3, %rax	// number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 	andq	$-8, %rax			//  K = K - ( K % 8 )
 	je	.L7_16
@@ -2207,11 +1859,7 @@
 	ALIGN_4
 
 .L7_16:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_19
@@ -2239,8 +1887,6 @@
 
 	vbroadcastss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
 	vfmaddps 8 * SIZE(CO1),%xmm0, %xmm10,%xmm10
@@ -2256,23 +1902,6 @@
 	vfmaddps 8 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12
 	vfmaddps 12 * SIZE(CO1, LDC, 2),%xmm0, %xmm15,%xmm15
 
-#else
-	vmulps	%xmm0, %xmm4,%xmm4
-	vmulps	%xmm0, %xmm7,%xmm7
-	vmulps	%xmm0, %xmm10,%xmm10
-	vmulps	%xmm0, %xmm13,%xmm13
-
-	vmulps	%xmm0, %xmm5,%xmm5
-	vmulps	%xmm0, %xmm8,%xmm8
-	vmulps	%xmm0, %xmm11,%xmm11
-	vmulps	%xmm0, %xmm14,%xmm14
-
-	vmulps	%xmm0, %xmm6,%xmm6
-	vmulps	%xmm0, %xmm9,%xmm9
-	vmulps	%xmm0, %xmm12,%xmm12
-	vmulps	%xmm0, %xmm15,%xmm15
-
-#endif
 
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 4 * SIZE(CO1)
@@ -2289,21 +1918,6 @@
 	vmovups	%xmm12, 8 * SIZE(CO1, LDC, 2)
 	vmovups	%xmm15,12 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $4, %rax                        // rax = rax * 16 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $16, KK				
-#endif
 
 	addq	$16 * SIZE, CO1		# coffset += 16
 	decq	I			# i --
@@ -2326,41 +1940,12 @@
 /**************************************************************************/
 
 .L7_20_1:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // first buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // first buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $8, %rax        // number of values in A
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L7_20_6
@@ -2407,11 +1992,7 @@
 	ALIGN_4
 
 .L7_20_6:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_20_9
@@ -2434,12 +2015,10 @@
 	jl	.L7_20_7
 	ALIGN_4
 
-
 .L7_20_9:
 
-	vbroadcastss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
+	vbroadcastss	ALPHA, %xmm0
 
 	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
@@ -2450,18 +2029,6 @@
 	vfmaddps 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 	vfmaddps 4 * SIZE(CO1, LDC, 2),%xmm0, %xmm9,%xmm9
 
-#else
-	vmulps	%xmm0, %xmm4,%xmm4
-	vmulps	%xmm0, %xmm7,%xmm7
-
-	vmulps	%xmm0, %xmm5,%xmm5
-	vmulps	%xmm0, %xmm8,%xmm8
-
-	vmulps	%xmm0, %xmm6,%xmm6
-	vmulps	%xmm0, %xmm9,%xmm9
-
-#endif
-
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm7 , 4 * SIZE(CO1)
 
@@ -2472,22 +2039,6 @@
 	vmovups	%xmm9 , 4 * SIZE(CO1, LDC, 2)
 
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        salq    $3, %rax                        // rax = rax * 8 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $8, KK
-#endif
-
 	addq	$8 * SIZE, CO1		# coffset += 8
 	ALIGN_4
 	
@@ -2502,41 +2053,12 @@
 	ALIGN_4
 
 .L7_21:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $4, %rax        // number of values in A
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L7_26
@@ -2583,11 +2105,7 @@
 	ALIGN_4
 
 .L7_26:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_29
@@ -2615,40 +2133,14 @@
 
 	vbroadcastss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddps 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddps 	 (CO1, LDC, 2),%xmm0, %xmm6 ,%xmm6
 
-#else
-	vmulps	%xmm0, %xmm4,%xmm4
-	vmulps	%xmm0, %xmm5,%xmm5
-	vmulps	%xmm0, %xmm6,%xmm6
-
-#endif
-
 	vmovups	%xmm4 ,  	(CO1)
 	vmovups	%xmm5 ,  	(CO1, LDC)
 	vmovups	%xmm6 ,  	(CO1, LDC, 2)
 
-
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        salq    $2, %rax                        // rax = rax * 4 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $4, KK
-#endif
-
 	addq	$4 * SIZE, CO1		# coffset += 4
 	ALIGN_4
 	
@@ -2660,41 +2152,12 @@
 	ALIGN_4
 
 .L7_31:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $2, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
-
 
 	andq	$-8, %rax
 	je	.L7_36
@@ -2741,11 +2204,7 @@
 	ALIGN_4
 
 .L7_36:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_39
@@ -2773,8 +2232,6 @@
 
 	vmovss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddss 1 * SIZE(CO1),%xmm0, %xmm8,%xmm8
 	vfmaddss 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
@@ -2782,16 +2239,6 @@
 	vfmaddss 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 	vfmaddss 1 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12
 
-#else
-	vmulss	%xmm0, %xmm4,%xmm4
-	vmulss	%xmm0, %xmm8,%xmm8
-	vmulss	%xmm0, %xmm5,%xmm5
-	vmulss	%xmm0, %xmm10,%xmm10
-	vmulss	%xmm0, %xmm6,%xmm6
-	vmulss	%xmm0, %xmm12,%xmm12
-
-#endif
-
 	vmovss	%xmm4 ,  	(CO1)
 	vmovss	%xmm8 , 1 * SIZE(CO1)
 	vmovss	%xmm5 ,  	(CO1, LDC)
@@ -2799,22 +2246,6 @@
 	vmovss	%xmm6 ,  	(CO1, LDC, 2)
 	vmovss	%xmm12, 1 * SIZE(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        salq    $1, %rax                        // rax = rax * 2 ; number of values
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $2, KK
-#endif
-
 	addq	$2 * SIZE, CO1		# coffset += 2
 	ALIGN_4
 
@@ -2825,39 +2256,12 @@
 	ALIGN_4
 
 .L7_41:
-#if !defined(TRMMKERNEL) || \
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
         leaq    BUFFER2, BO             // second buffer to BO
         addq    $6 * SIZE, BO
-#else
-        movq    KK, %rax
-        leaq    BUFFER2, BO             // second buffer to BO
-        addq    $6 * SIZE, BO
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO
-        leaq    (AO, %rax, SIZE), AO
-#endif
-
 
 	vzeroall
 
-#ifndef TRMMKERNEL
         movq    K, %rax
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))
-        movq    K, %rax
-        subq    KK, %rax
-        movq    %rax, KKK
-#else
-        movq    KK, %rax
-#ifdef LEFT
-        addq    $1, %rax        // number of values in AO
-#else
-        addq    $3, %rax        // number of values in BO
-#endif
-        movq    %rax, KKK
-#endif
 
 	andq	$-8, %rax
 	je	.L7_46
@@ -2900,11 +2304,7 @@
 	ALIGN_4
 
 .L7_46:
-#ifndef TRMMKERNEL
         movq    K, %rax
-#else
-        movq    KKK, %rax
-#endif
 
 	andq	$7, %rax		# if (k & 1)
 	je .L7_49
@@ -2931,38 +2331,14 @@
 
 	vmovss	ALPHA, %xmm0
 
-#ifndef TRMMKERNEL
-
 	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
 	vfmaddss 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
 	vfmaddss 	 (CO1, LDC, 2),%xmm0, %xmm6,%xmm6
 
-#else
-	vmulss	%xmm0, %xmm4,%xmm4
-	vmulss	%xmm0, %xmm5,%xmm5
-	vmulss	%xmm0, %xmm6,%xmm6
-
-#endif
-
 	vmovss	%xmm4 ,  	(CO1)
 	vmovss	%xmm5 ,  	(CO1, LDC)
 	vmovss	%xmm6 ,  	(CO1, LDC, 2)
 
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))
-        movq    K, %rax 
-        subq    KKK, %rax
-        movq    %rax, BI                        //  Index for BO
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values
-        leaq    (BO, BI, SIZE), BO         
-        leaq    (AO, %rax, SIZE), AO
-#endif  
-
-
-#if defined(TRMMKERNEL) && defined(LEFT)
-        addq    $1, KK
-#endif
-
 	addq	$1 * SIZE, CO1		# coffset += 1
 	ALIGN_4
 	
@@ -3007,6 +2383,1195 @@
 
 	movq	BO1, B			// next offset of B
 
+.L2_10:
+	movq	C, CO1
+	leaq	(C, LDC, 2), C		// c += 2 * ldc
+
+	
+	movq	A, AO		 	// aoffset = a
+	addq	$32 * SIZE, AO
+
+	movq	M,  I
+	sarq	$4, I			// i = (m >> 4)
+	je	.L2_20
+
+	ALIGN_4
+
+.L2_11:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax			//  K = K - ( K % 8 )
+	je	.L2_16
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$4, %rax			// rax = rax * 16 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_12:
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL16x2_1(xxx)
+	KERNEL16x2_2(xxx)
+	KERNEL16x2_3(xxx)
+	KERNEL16x2_4(xxx)
+
+	KERNEL16x2_1(xxx)
+	KERNEL16x2_2(xxx)
+	KERNEL16x2_3(xxx)
+	KERNEL16x2_4(xxx)
+
+	je	.L2_16
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL16x2_1(xxx)
+	KERNEL16x2_2(xxx)
+	KERNEL16x2_3(xxx)
+	KERNEL16x2_4(xxx)
+
+	KERNEL16x2_1(xxx)
+	KERNEL16x2_2(xxx)
+	KERNEL16x2_3(xxx)
+	KERNEL16x2_4(xxx)
+
+	je	.L2_16
+
+	jmp	.L2_12
+	ALIGN_4
+
+.L2_16:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_19
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$4, %rax			// rax = rax * 16 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_17:
+
+	KERNEL16x2_SUB(xxx)
+	addq	$2, BI
+	addq	$16, %rax
+	jl	.L2_17
+	ALIGN_4
+
+
+.L2_19:
+
+	vbroadcastss	ALPHA, %xmm0
+
+	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+	vfmaddps 8 * SIZE(CO1),%xmm0, %xmm10,%xmm10
+	vfmaddps 12 * SIZE(CO1),%xmm0, %xmm13,%xmm13
+
+	vfmaddps 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+	vfmaddps 4 * SIZE(CO1, LDC),%xmm0, %xmm8,%xmm8
+	vfmaddps 8 * SIZE(CO1, LDC),%xmm0, %xmm11,%xmm11
+	vfmaddps 12 * SIZE(CO1, LDC),%xmm0, %xmm14,%xmm14
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 4 * SIZE(CO1)
+	vmovups	%xmm10, 8 * SIZE(CO1)
+	vmovups	%xmm13,12 * SIZE(CO1)
+
+	vmovups	%xmm5 ,  	(CO1, LDC)
+	vmovups	%xmm8 , 4 * SIZE(CO1, LDC)
+	vmovups	%xmm11, 8 * SIZE(CO1, LDC)
+	vmovups	%xmm14,12 * SIZE(CO1, LDC)
+
+	addq	$16 * SIZE, CO1		# coffset += 16
+	decq	I			# i --
+	jg	.L2_11
+	ALIGN_4	
+
+/**************************************************************************
+* Rest of M 
+***************************************************************************/
+.L2_20:
+	// Test rest of M
+
+	testq	$15, M
+	jz	.L2_60		// to next 3 lines of N
+
+	testq	$8, M		
+	jz	.L2_21pre
+	ALIGN_4
+
+/**************************************************************************/
+
+.L2_20_1:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_20_6
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_20_2:
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	je	.L2_20_6
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	KERNEL8x2_1(xxx)
+	KERNEL8x2_2(xxx)
+	KERNEL8x2_3(xxx)
+	KERNEL8x2_4(xxx)
+
+	je	.L2_20_6
+
+	jmp	.L2_20_2
+	ALIGN_4
+
+.L2_20_6:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_20_9
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_20_7:
+
+	KERNEL8x2_SUB(xxx)
+	addq	$2, BI
+	addq	$8, %rax
+	jl	.L2_20_7
+	ALIGN_4
+
+
+.L2_20_9:
+
+	vbroadcastss	ALPHA, %xmm0
+
+	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+
+	vfmaddps 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+	vfmaddps 4 * SIZE(CO1, LDC),%xmm0, %xmm8,%xmm8
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 4 * SIZE(CO1)
+
+	vmovups	%xmm5 ,  	(CO1, LDC)
+	vmovups	%xmm8 , 4 * SIZE(CO1, LDC)
+
+
+	addq	$8 * SIZE, CO1		# coffset += 8
+	ALIGN_4
+	
+
+
+/**************************************************************************/
+
+.L2_21pre:
+
+	testq	$4, M		
+	jz	.L2_30
+	ALIGN_4
+
+.L2_21:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_26
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 1 ; number of values
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_22:
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	je	.L2_26
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	KERNEL4x2_1(xxx)
+	KERNEL4x2_2(xxx)
+	KERNEL4x2_3(xxx)
+	KERNEL4x2_4(xxx)
+
+	je	.L2_26
+
+	jmp	.L2_22
+	ALIGN_4
+
+.L2_26:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_29
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_27:
+
+	KERNEL4x2_SUB(xxx)
+	addq	$2, BI
+	addq	$4, %rax
+	jl	.L2_27
+	ALIGN_4
+
+
+.L2_29:
+
+	vbroadcastss	ALPHA, %xmm0
+
+	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddps 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm5 ,  	(CO1, LDC)
+
+
+	addq	$4 * SIZE, CO1		# coffset += 4
+	ALIGN_4
+	
+
+.L2_30:
+	testq	$2, M		
+	jz	.L2_40
+
+	ALIGN_4
+
+.L2_31:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_36
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_32:
+
+	prefetcht0	B_PR1(BO,BI,SIZE)
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	je	.L2_36
+
+	prefetcht0	B_PR1(BO,BI,SIZE)
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	KERNEL2x2_1(xxx)
+	KERNEL2x2_2(xxx)
+	KERNEL2x2_3(xxx)
+	KERNEL2x2_4(xxx)
+
+	je	.L2_36
+
+	jmp	.L2_32
+	ALIGN_4
+
+.L2_36:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_39
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+	
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_37:
+
+	KERNEL2x2_SUB(xxx)
+	addq	$2, BI
+	addq	$2, %rax
+	jl	.L2_37
+	ALIGN_4
+
+
+.L2_39:
+
+	vmovss	ALPHA, %xmm0
+
+	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddss 1 * SIZE(CO1),%xmm0, %xmm8,%xmm8
+	vfmaddss 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+	vfmaddss 1 * SIZE(CO1, LDC),%xmm0, %xmm10,%xmm10
+
+	vmovss	%xmm4 ,  	(CO1)
+	vmovss	%xmm8 , 1 * SIZE(CO1)
+	vmovss	%xmm5 ,  	(CO1, LDC)
+	vmovss	%xmm10, 1 * SIZE(CO1, LDC)
+
+	addq	$2 * SIZE, CO1		# coffset += 2
+	ALIGN_4
+
+.L2_40:
+	testq	$1, M		
+	jz	.L2_60		// to next 2 lines of N
+
+	ALIGN_4
+
+.L2_41:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $4 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L2_46
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_42:
+
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	je	.L2_46
+
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	KERNEL1x2_1(xxx)
+	KERNEL1x2_2(xxx)
+	KERNEL1x2_3(xxx)
+	KERNEL1x2_4(xxx)
+
+	je	.L2_46
+
+	jmp	.L2_42
+	ALIGN_4
+
+.L2_46:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L2_49
+
+	movq    %rax, BI                        //  Index for BO
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values
+
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L2_47:
+
+	KERNEL1x2_SUB(xxx)
+	addq	$2, BI
+	addq	$1, %rax
+	jl	.L2_47
+	ALIGN_4
+
+
+.L2_49:
+
+	vmovss	ALPHA, %xmm0
+
+	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddss 	 (CO1, LDC),%xmm0, %xmm5,%xmm5
+
+	vmovss	%xmm4 ,  	(CO1)
+	vmovss	%xmm5 ,  	(CO1, LDC)
+
+	addq	$1 * SIZE, CO1		# coffset += 1
+	ALIGN_4
+	
+.L2_60:
+
+	decq	J			// j --
+	jg	.L2_01			// next 2 lines of N
+
+
+
+.L1_0:
+
+/************************************************************************************************
+* Loop for Nmod6 % 2 > 0
+*************************************************************************************************/
+
+	movq	Nmod6, J		
+	andq	$1, J			// j % 2
+	je	.L999
+	ALIGN_4
+
+.L1_01:
+	// copy to sub buffer
+	movq	B, BO1
+	leaq    BUFFER1, BO		// first buffer to BO
+	movq	K, %rax
+	ALIGN_4
+
+.L1_02b:
+
+	vmovss	(BO1), %xmm0
+	vmovss	%xmm0,       (BO)
+	addq	$1*SIZE,BO1
+	addq	$1*SIZE,BO
+	decq	%rax
+	jnz	.L1_02b
+
+.L1_02c:
+
+	movq	BO1, B			// next offset of B
+
+.L1_10:
+	movq	C, CO1
+	leaq	(C, LDC, 1), C		// c += 1 * ldc
+
+	
+	movq	A, AO		 	// aoffset = a
+	addq	$32 * SIZE, AO
+
+	movq	M,  I
+	sarq	$4, I			// i = (m >> 4)
+	je	.L1_20
+
+	ALIGN_4
+
+.L1_11:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax			//  K = K - ( K % 8 )
+	je	.L1_16
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$4, %rax			// rax = rax * 16 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_12:
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL16x1_1(xxx)
+	KERNEL16x1_2(xxx)
+	KERNEL16x1_3(xxx)
+	KERNEL16x1_4(xxx)
+
+	KERNEL16x1_1(xxx)
+	KERNEL16x1_2(xxx)
+	KERNEL16x1_3(xxx)
+	KERNEL16x1_4(xxx)
+
+	je	.L1_16
+
+	KERNEL16x1_1(xxx)
+	KERNEL16x1_2(xxx)
+	KERNEL16x1_3(xxx)
+	KERNEL16x1_4(xxx)
+
+	KERNEL16x1_1(xxx)
+	KERNEL16x1_2(xxx)
+	KERNEL16x1_3(xxx)
+	KERNEL16x1_4(xxx)
+
+	je	.L1_16
+
+	jmp	.L1_12
+	ALIGN_4
+
+.L1_16:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_19
+
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$4, %rax			// rax = rax * 16 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_17:
+
+	KERNEL16x1_SUB(xxx)
+	addq	$1, BI
+	addq	$16, %rax
+	jl	.L1_17
+	ALIGN_4
+
+
+.L1_19:
+
+	vbroadcastss	ALPHA, %xmm0
+
+	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+	vfmaddps 8 * SIZE(CO1),%xmm0, %xmm10,%xmm10
+	vfmaddps 12 * SIZE(CO1),%xmm0, %xmm13,%xmm13
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 4 * SIZE(CO1)
+	vmovups	%xmm10, 8 * SIZE(CO1)
+	vmovups	%xmm13,12 * SIZE(CO1)
+
+	addq	$16 * SIZE, CO1		# coffset += 16
+	decq	I			# i --
+	jg	.L1_11
+	ALIGN_4	
+
+/**************************************************************************
+* Rest of M 
+***************************************************************************/
+.L1_20:
+	// Test rest of M
+
+	testq	$15, M
+	jz	.L999
+
+	testq	$8, M		
+	jz	.L1_21pre
+	ALIGN_4
+
+/**************************************************************************/
+
+.L1_20_1:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_20_6
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_20_2:
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	je	.L1_20_6
+
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	KERNEL8x1_1(xxx)
+	KERNEL8x1_2(xxx)
+	KERNEL8x1_3(xxx)
+	KERNEL8x1_4(xxx)
+
+	je	.L1_20_6
+
+	jmp	.L1_20_2
+	ALIGN_4
+
+.L1_20_6:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_20_9
+
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$3, %rax			// rax = rax * 8 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_20_7:
+
+	KERNEL8x1_SUB(xxx)
+	addq	$1, BI
+	addq	$8, %rax
+	jl	.L1_20_7
+	ALIGN_4
+
+
+.L1_20_9:
+
+	vbroadcastss	ALPHA, %xmm0
+
+	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddps 4 * SIZE(CO1),%xmm0, %xmm7,%xmm7
+
+	vmovups	%xmm4 ,  	(CO1)
+	vmovups	%xmm7 , 4 * SIZE(CO1)
+
+	addq	$8 * SIZE, CO1		# coffset += 8
+	ALIGN_4
+	
+
+
+/**************************************************************************/
+
+.L1_21pre:
+
+	testq	$4, M		
+	jz	.L1_30
+	ALIGN_4
+
+.L1_21:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_26
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_22:
+
+	prefetcht0	B_PR1(BO,BI, SIZE)
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	je	.L1_26
+
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	KERNEL4x1_1(xxx)
+	KERNEL4x1_2(xxx)
+	KERNEL4x1_3(xxx)
+	KERNEL4x1_4(xxx)
+
+	je	.L1_26
+
+	jmp	.L1_22
+	ALIGN_4
+
+.L1_26:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_29
+
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$2, %rax			// rax = rax * 4 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_27:
+
+	KERNEL4x1_SUB(xxx)
+	addq	$1, BI
+	addq	$4, %rax
+	jl	.L1_27
+	ALIGN_4
+
+
+.L1_29:
+
+	vbroadcastss	ALPHA, %xmm0
+
+	vfmaddps 	 (CO1),%xmm0, %xmm4,%xmm4
+
+	vmovups	%xmm4 ,  	(CO1)
+
+	addq	$4 * SIZE, CO1		# coffset += 4
+	ALIGN_4
+	
+
+.L1_30:
+	testq	$2, M		
+	jz	.L1_40
+
+	ALIGN_4
+
+.L1_31:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_36
+	movq    %rax, BI                        //  Index for BO
+
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_32:
+
+	prefetcht0	B_PR1(BO,BI,SIZE)
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	je	.L1_36
+
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	KERNEL2x1_1(xxx)
+	KERNEL2x1_2(xxx)
+	KERNEL2x1_3(xxx)
+	KERNEL2x1_4(xxx)
+
+	je	.L1_36
+
+	jmp	.L1_32
+	ALIGN_4
+
+.L1_36:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_39
+
+	movq    %rax, BI                        //  Index for BO
+	
+	salq	$1, %rax			// rax = rax *2 ; number of values
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_37:
+
+	KERNEL2x1_SUB(xxx)
+	addq	$1, BI
+	addq	$2, %rax
+	jl	.L1_37
+	ALIGN_4
+
+
+.L1_39:
+
+	vmovss	ALPHA, %xmm0
+
+	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
+	vfmaddss 1 * SIZE(CO1),%xmm0, %xmm8,%xmm8
+
+	vmovss	%xmm4 ,  	(CO1)
+	vmovss	%xmm8 , 1 * SIZE(CO1)
+
+	addq	$2 * SIZE, CO1		# coffset += 2
+	ALIGN_4
+
+.L1_40:
+	testq	$1, M		
+	jz	.L999
+
+	ALIGN_4
+
+.L1_41:
+        leaq    BUFFER1, BO             // first buffer to BO
+        addq    $2 * SIZE, BO
+
+	vzeroall
+
+        movq    K, %rax
+
+	andq	$-8, %rax
+	je	.L1_46
+	movq    %rax, BI                        //  Index for BO
+
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_42:
+
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	je	.L1_46
+
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	KERNEL1x1_1(xxx)
+	KERNEL1x1_2(xxx)
+	KERNEL1x1_3(xxx)
+	KERNEL1x1_4(xxx)
+
+	je	.L1_46
+
+	jmp	.L1_42
+	ALIGN_4
+
+.L1_46:
+        movq    K, %rax
+
+	andq	$7, %rax		# if (k & 1)
+	je .L1_49
+
+	movq    %rax, BI                        //  Index for BO
+
+	leaq	(AO, %rax, SIZE), AO
+	leaq	(BO, BI, SIZE), BO
+	negq	BI
+	negq	%rax
+	ALIGN_4
+
+.L1_47:
+
+	KERNEL1x1_SUB(xxx)
+	addq	$1, BI
+	addq	$1, %rax
+	jl	.L1_47
+	ALIGN_4
+
+
+.L1_49:
+
+	vmovss	ALPHA, %xmm0
+
+	vfmaddss 	 (CO1),%xmm0, %xmm4,%xmm4
+
+	vmovss	%xmm4 ,  	(CO1)
+
+	addq	$1 * SIZE, CO1		# coffset += 1
+	ALIGN_4
+	
+
+.L999:
+	movq   		SP, %rsp
+	movq	   (%rsp), %rbx
+	movq	  8(%rsp), %rbp
+	movq	 16(%rsp), %r12
+	movq	 24(%rsp), %r13
+	movq	 32(%rsp), %r14
+	movq	 40(%rsp), %r15
+
+#ifdef WINDOWS_ABI
+	movq	 48(%rsp), %rdi
+	movq	 56(%rsp), %rsi
+	movups	 64(%rsp), %xmm6
+	movups	 80(%rsp), %xmm7
+	movups	 96(%rsp), %xmm8
+	movups	112(%rsp), %xmm9
+	movups	128(%rsp), %xmm10
+	movups	144(%rsp), %xmm11
+	movups	160(%rsp), %xmm12
+	movups	176(%rsp), %xmm13
+	movups	192(%rsp), %xmm14
+	movups	208(%rsp), %xmm15
+#endif
+
+	addq	$STACKSIZE, %rsp
+	ret
+
+	EPILOGUE
+
+
+#else
+/*************************************************************************************
+* TRMM Kernel
+*************************************************************************************/
+
+
+	PROLOGUE
+	PROFCODE
+	
+	subq	$STACKSIZE, %rsp
+	movq	%rbx,   (%rsp)
+	movq	%rbp,  8(%rsp)
+	movq	%r12, 16(%rsp)
+	movq	%r13, 24(%rsp)
+	movq	%r14, 32(%rsp)
+	movq	%r15, 40(%rsp)
+
+	vzeroupper
+
+#ifdef WINDOWS_ABI
+	movq	%rdi,    48(%rsp)
+	movq	%rsi,    56(%rsp)
+	movups	%xmm6,   64(%rsp)
+	movups	%xmm7,   80(%rsp)
+	movups	%xmm8,   96(%rsp)
+	movups	%xmm9,  112(%rsp)
+	movups	%xmm10, 128(%rsp)
+	movups	%xmm11, 144(%rsp)
+	movups	%xmm12, 160(%rsp)
+	movups	%xmm13, 176(%rsp)
+	movups	%xmm14, 192(%rsp)
+	movups	%xmm15, 208(%rsp)
+
+	movq	ARG1,      OLD_M
+	movq	ARG2,      OLD_N
+	movq	ARG3,      OLD_K
+	movq	OLD_A,     A
+	movq	OLD_B,     B
+	movq	OLD_C,     C
+	movq	OLD_LDC,   LDC
+#ifdef TRMMKERNEL
+	movsd	OLD_OFFSET, %xmm12
+#endif
+	vmovaps	%xmm3, %xmm0
+
+#else
+	movq	STACKSIZE +  8(%rsp), LDC
+#ifdef TRMMKERNEL
+	movsd	STACKSIZE + 16(%rsp), %xmm12
+#endif
+
+#endif
+
+	movq    %rsp, SP      # save old stack
+        subq    $128 + L_BUFFER_SIZE, %rsp
+        andq    $-4096, %rsp    # align stack
+
+        STACK_TOUCH
+
+	cmpq	$0, OLD_M
+	je	.L999
+
+	cmpq	$0, OLD_N
+	je	.L999
+
+	cmpq	$0, OLD_K
+	je	.L999
+
+	movq	OLD_M, M
+	movq	OLD_N, N
+	movq	OLD_K, K
+
+	vmovsd	 %xmm0, ALPHA
+
+	salq	$BASE_SHIFT, LDC
+
+	movq    N, %rax
+        xorq    %rdx, %rdx
+        movq    $2,  %rdi
+        divq    %rdi                    //    N / 6
+        movq    %rax, Ndiv6             //    N / 6
+        movq    %rdx, Nmod6             //    N % 6
+
+	
+
+#ifdef TRMMKERNEL
+	vmovsd	%xmm12, OFFSET
+	vmovsd	%xmm12, KK
+#ifndef LEFT
+	negq	KK
+#endif	
+#endif
+
+	movq	Ndiv6,  J
+	cmpq	$0, J
+	je	.L1_0
+	ALIGN_4
+
+.L2_01:
+	// copy to sub buffer
+	movq	B, BO1
+	leaq    BUFFER1, BO		// first buffer to BO
+	movq	K, %rax
+	ALIGN_4
+
+.L2_02b:
+
+	vmovsd	(BO1), %xmm0
+	vmovsd	%xmm0,       (BO)
+	addq	$2*SIZE,BO1
+	addq	$2*SIZE,BO
+	decq	%rax
+	jnz	.L2_02b
+
+.L2_02c:
+
+	movq	BO1, B			// next offset of B
+
 .L2_10:
 	movq	C, CO1
 	leaq	(C, LDC, 2), C		// c += 2 * ldc
@@ -3831,6 +4396,9 @@
 
 	
 .L2_60:
+#if defined(TRMMKERNEL) && !defined(LEFT)
+        addq    $2, KK
+#endif
 
 	decq	J			// j --
 	jg	.L2_01			// next 2 lines of N
@@ -4655,3 +5223,9 @@
 	ret
 
 	EPILOGUE
+
+
+
+
+
+#endif

From f645665dd693fb66f688817dd41ce852871be3d2 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 3 Aug 2013 12:19:29 +0200
Subject: [PATCH 07/11] fixed bug in dgemv_t_bulldozer.S

---
 kernel/x86_64/dgemv_t_bulldozer.S | 798 ------------------------------
 1 file changed, 798 deletions(-)

diff --git a/kernel/x86_64/dgemv_t_bulldozer.S b/kernel/x86_64/dgemv_t_bulldozer.S
index 487ff77ad..36ae2b9df 100644
--- a/kernel/x86_64/dgemv_t_bulldozer.S
+++ b/kernel/x86_64/dgemv_t_bulldozer.S
@@ -40,7 +40,6 @@
 #include "common.h"
 #include "l2param.h"
 
-// #undef ALIGNED_ACCESS
 
 #define A_PRE 256
 
@@ -111,11 +110,7 @@
 #define Y1	%rbp
 #define X1	%r15
 
-#ifdef ALIGNED_ACCESS
-#define MM	INCX
-#else
 #define MM	M
-#endif
 
 #define ALPHA	%xmm15
 
@@ -216,23 +211,6 @@
 
 	movq	BUFFER, X1
 	
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L01
-
-	vmovsd	(X), %xmm0
-	addq	INCX, X
-
-	vmovsd	%xmm0, 1 * SIZE(BUFFER)
-	addq	$1 * SIZE, BUFFER
-	addq	$2 * SIZE, X1
-	decq	M
-	jle	.L10
-	ALIGN_4
-
-.L01:
-#endif
-
 	movq	M,  I
 	sarq	$3, I
 	jle	.L05
@@ -287,10 +265,6 @@
 .L10:
 	movq	Y, Y1
 
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, LDA
-	jne	.L50
-#endif
 
 #if GEMV_UNROLL >= 8
 	cmpq	$8, N
@@ -316,41 +290,6 @@
 	vxorps %xmm7 , 	%xmm7, %xmm7
 
 
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L1X
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-        vmovsd   -16 * SIZE(A1), %xmm8
-        vmovsd   -16 * SIZE(A1, LDA), %xmm9
-        vmovsd   -16 * SIZE(A1, LDA, 2), %xmm10
-        vmovsd   -16 * SIZE(A1, LDA3), %xmm11
-
-	vfmaddpd %xmm0, %xmm8 , %xmm12, %xmm0
-	vfmaddpd %xmm1, %xmm9 , %xmm12, %xmm1
-	vfmaddpd %xmm2, %xmm10, %xmm12, %xmm2
-	vfmaddpd %xmm3, %xmm11, %xmm12, %xmm3
-
-        vmovsd   -16 * SIZE(A2), %xmm8
-        vmovsd   -16 * SIZE(A2, LDA), %xmm9
-        vmovsd   -16 * SIZE(A2, LDA, 2), %xmm10
-        vmovsd   -16 * SIZE(A2, LDA3), %xmm11
-
-	vfmaddpd %xmm4, %xmm8 , %xmm12, %xmm4
-	vfmaddpd %xmm5, %xmm9 , %xmm12, %xmm5
-	vfmaddpd %xmm6, %xmm10, %xmm12, %xmm6
-	vfmaddpd %xmm7, %xmm11, %xmm12, %xmm7
-
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, A2
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L1X:
-#endif
-
 	movq	M,  I
 	sarq	$3,  I
 	jle	.L15
@@ -671,31 +610,6 @@
 	vxorps %xmm3 , 	%xmm3, %xmm3
 
 
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L2X
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-	vmovsd   -16 * SIZE(A1), %xmm8
-        vmovsd   -16 * SIZE(A1, LDA), %xmm9
-	vmovsd   -16 * SIZE(A2), %xmm10
-        vmovsd   -16 * SIZE(A2, LDA), %xmm11
-
-
-        vfmaddpd %xmm0, %xmm8 , %xmm12, %xmm0
-        vfmaddpd %xmm1, %xmm9 , %xmm12, %xmm1
-        vfmaddpd %xmm2, %xmm10, %xmm12, %xmm2
-        vfmaddpd %xmm3, %xmm11, %xmm12, %xmm3
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, A2
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L2X:
-#endif
-
 	movq	M,  I
 	sarq	$3,  I
 	jle	.L25
@@ -924,26 +838,6 @@
         vxorps %xmm3 ,  %xmm3, %xmm3
 
 
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L3X
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-	vmovsd	-16 * SIZE(A1), %xmm8
-	vmovsd	-16 * SIZE(A2), %xmm9
-
-        vfmaddpd %xmm0, %xmm8 , %xmm12, %xmm0
-        vfmaddpd %xmm1, %xmm9 , %xmm12, %xmm1
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, A2
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L3X:
-#endif
-
 	movq	M,  I
 	sarq	$3,  I
 	jle	.L35
@@ -1100,21 +994,6 @@
         vxorps %xmm3 ,  %xmm3, %xmm3
 
 
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L4X
-
-	movsd	-16 * SIZE(X1), %xmm12
-	movsd	-16 * SIZE(A1), %xmm8
-
-	vfmaddpd %xmm0, %xmm8 , %xmm12, %xmm0
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L4X:
-#endif
 
 	movq	M,  I
 	sarq	$3,  I
@@ -1223,683 +1102,6 @@
 	vmovlpd	%xmm0, (Y1)
 	addq	INCY, Y1
 
-#ifdef ALIGNED_ACCESS
-	jmp	.L999
-	ALIGN_4
-
-.L50:
-#if GEMV_UNROLL >= 4
-
-	cmpq	$4, N
-	jl	.L60
-	ALIGN_3
-
-.L51:
-	subq	$4, N
-
-	leaq	16 * SIZE(BUFFER), X1
-
-	movq	A, A1
-	leaq	(A1, LDA, 2), A2
-	leaq	(A1, LDA, 4), A
-
-        vxorps %xmm0 ,  %xmm0, %xmm0
-        vxorps %xmm1 ,  %xmm1, %xmm1
-        vxorps %xmm2 ,  %xmm2, %xmm2
-        vxorps %xmm3 ,  %xmm3, %xmm3
-
-
-
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L5X
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-	vmovsd	-16 * SIZE(A1), %xmm4
-	vmovsd	-16 * SIZE(A1, LDA), %xmm5
-	vmovsd	-16 * SIZE(A2), %xmm6
-	vmovsd	-16 * SIZE(A2, LDA), %xmm7
-
-	vfmaddpd %xmm0, %xmm4 , %xmm12, %xmm0
-        vfmaddpd %xmm1, %xmm5 , %xmm12, %xmm1
-        vfmaddpd %xmm2, %xmm6 , %xmm12, %xmm2
-        vfmaddpd %xmm3, %xmm7 , %xmm12, %xmm3
-
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, A2
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L5X:
-#endif
-
-        vxorps %xmm8 ,  %xmm8, %xmm8
-        vxorps %xmm9 ,  %xmm9, %xmm9
-	vmovhpd	-16 * SIZE(A1, LDA), %xmm8 , %xmm8
-	vmovhpd	-16 * SIZE(A2, LDA), %xmm9 , %xmm9
-
-	movq	M,  I
-	sarq	$3,  I
-	jle	.L55
-
-	VMOVUPS_A2(-15 * SIZE, A1, LDA, 1, %xmm5)
-	VMOVUPS_A2(-15 * SIZE, A2, LDA, 1, %xmm7)
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-14 * SIZE, X1, %xmm13)
-
-	decq	I
-	jle	.L53
-	ALIGN_4
-
-.L52:
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_A2(-13 * SIZE, A1, LDA, 1, %xmm8)
-
-	vfmaddpd %xmm2 , -16 * SIZE(A2)           , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm7, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-	VMOVUPS_XL1(-12 * SIZE, X1, %xmm12)
-	VMOVUPS_A2(-13 * SIZE, A2, LDA, 1, %xmm9)
-
-	vfmaddpd %xmm0 , -14 * SIZE(A1)           , %xmm13 , %xmm0
-
-	VMOVUPS_A1(-12 * SIZE, A1, %xmm4)
-	vshufpd	$1, %xmm8, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-	VMOVUPS_A2(-11 * SIZE, A1, LDA, 1, %xmm5)
-
-	vfmaddpd %xmm2 , -14 * SIZE(A2)           , %xmm13 , %xmm2
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm3 , %xmm7 , %xmm13 , %xmm3
-	VMOVUPS_XL1(-10 * SIZE, X1, %xmm13)
-	VMOVUPS_A2(-11 * SIZE, A2, LDA, 1, %xmm7)
-
-	vfmaddpd %xmm0 , -12 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_A2( -9 * SIZE, A1, LDA, 1, %xmm8)
-
-	vfmaddpd %xmm2 , -12 * SIZE(A2)           , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm7, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-	VMOVUPS_XL1(-8 * SIZE, X1, %xmm12)
-	VMOVUPS_A2( -9 * SIZE, A2, LDA, 1, %xmm9)
-
-	vfmaddpd %xmm0 , -10 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-	VMOVUPS_A2(-7 * SIZE, A1, LDA, 1, %xmm5)
-
-	vfmaddpd %xmm2 , -10 * SIZE(A2)           , %xmm13 , %xmm2
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm3 , %xmm7 , %xmm13 , %xmm3
-	VMOVUPS_XL1(-6 * SIZE, X1, %xmm13)
-	VMOVUPS_A2(-7 * SIZE, A2, LDA, 1, %xmm7)
-
-	addq	$8 * SIZE, A1
-	addq	$8 * SIZE, A2
-	addq	$8 * SIZE, X1
-
-	decq	I
-	jg	.L52
-	ALIGN_4
-
-.L53:
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_A2(-13 * SIZE, A1, LDA, 1, %xmm8)
-
-	vfmaddpd %xmm2 , -16 * SIZE(A2)           , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm7, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-	VMOVUPS_XL1(-12 * SIZE, X1, %xmm12)
-	VMOVUPS_A2(-13 * SIZE, A2, LDA, 1, %xmm9)
-
-	vfmaddpd %xmm0 , -14 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-	VMOVUPS_A2(-11 * SIZE, A1, LDA, 1, %xmm5)
-
-	vfmaddpd %xmm2 , -14 * SIZE(A2)           , %xmm13 , %xmm2
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm3 , %xmm7 , %xmm13 , %xmm3
-	VMOVUPS_XL1(-10 * SIZE, X1, %xmm13)
-	VMOVUPS_A2(-11 * SIZE, A2, LDA, 1, %xmm7)
-
-	vfmaddpd %xmm0 , -12 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_A2( -9 * SIZE, A1, LDA, 1, %xmm8)
-
-	vfmaddpd %xmm2 , -12 * SIZE(A2)           , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm7, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-	VMOVUPS_XL1(-8 * SIZE, X1, %xmm12)
-	VMOVUPS_A2( -9 * SIZE, A2, LDA, 1, %xmm9)
-
-	vfmaddpd %xmm0 , -10 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-	VMOVUPS_A2(-7 * SIZE, A1, LDA, 1, %xmm5)
-
-	vfmaddpd %xmm2 , -10 * SIZE(A2)           , %xmm13 , %xmm2
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm3 , %xmm7 , %xmm13 , %xmm3
-	VMOVUPS_XL1(-6 * SIZE, X1, %xmm13)
-	VMOVUPS_A2(-7 * SIZE, A2, LDA, 1, %xmm7)
-
-	addq	$8 * SIZE, A1
-	addq	$8 * SIZE, A2
-	addq	$8 * SIZE, X1
-	ALIGN_4
-
-.L55:
-	testq	$4, M
-	jle	.L56
-
-	VMOVUPS_A2(-15 * SIZE, A1, LDA, 1, %xmm5)
-	VMOVUPS_A2(-15 * SIZE, A2, LDA, 1, %xmm7)
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-14 * SIZE, X1, %xmm13)
-
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_A2(-13 * SIZE, A1, LDA, 1, %xmm8)
-
-	vfmaddpd %xmm2 , -16 * SIZE(A2)           , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm7, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-	VMOVUPS_A2(-13 * SIZE, A2, LDA, 1, %xmm9)
-
-	vfmaddpd %xmm0 , -14 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-
-	vfmaddpd %xmm2 , -14 * SIZE(A2)           , %xmm13 , %xmm2
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm3 , %xmm7 , %xmm13 , %xmm3
-
-
-	addq	$4 * SIZE, A1
-	addq	$4 * SIZE, A2
-	addq	$4 * SIZE, X1
-	ALIGN_4
-
-.L56:
-	testq	$2, M
-	jle	.L57
-
-	VMOVUPS_A2(-15 * SIZE, A1, LDA, 1, %xmm5)
-	VMOVUPS_A2(-15 * SIZE, A2, LDA, 1, %xmm7)
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-
-	vfmaddpd %xmm2 , -16 * SIZE(A2)           , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm7, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-
-	addq	$2 * SIZE, A1
-	addq	$2 * SIZE, A2
-	addq	$2 * SIZE, X1
-	ALIGN_4
-
-.L57:
-	testq	$1, M
-	je	.L58
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-	vmovsd	-16 * SIZE(A1), %xmm4
-	vmovsd	-16 * SIZE(A2), %xmm6
-
-	vfmaddpd %xmm0 , %xmm4 , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-
-	vfmaddpd %xmm2 , %xmm6 , %xmm12 , %xmm2
-
-	vshufpd	$1, %xmm9, %xmm9 , %xmm9
-	vfmaddpd %xmm3 , %xmm9 , %xmm12 , %xmm3
-
-	ALIGN_4
-
-.L58:
-	vhaddpd	%xmm1, %xmm0 , %xmm0
-	vhaddpd	%xmm3, %xmm2 , %xmm2
-
-	vmulpd	ALPHA, %xmm0 , %xmm0
-	vmulpd	ALPHA, %xmm2 , %xmm2
-
-	cmpq	$SIZE, INCY
-	jne	.L59
-
-	vmovups  0 * SIZE(Y), %xmm4
-	vmovups  2 * SIZE(Y), %xmm5
-	addq	$4 * SIZE, Y
-
-	vaddpd	%xmm4, %xmm0 , %xmm0
-	vaddpd	%xmm5, %xmm2 , %xmm2
-
-	vmovups	%xmm0,  0 * SIZE(Y1)
-	vmovups	%xmm2,  2 * SIZE(Y1)
-	addq	$4 * SIZE, Y1
-
-	cmpq	$4, N
-	jge	.L51
-	jmp	.L60
-	ALIGN_4
-
-.L59:
-	vmovsd	(Y), %xmm4
-	addq	INCY, Y
-	vmovhpd	(Y), %xmm4 , %xmm4
-	addq	INCY, Y
-	vmovsd	(Y), %xmm5
-	addq	INCY, Y
-	vmovhpd	(Y), %xmm5 , %xmm5
-	addq	INCY, Y
-
-	vaddpd	%xmm4, %xmm0 , %xmm0
-	vaddpd	%xmm5, %xmm2 , %xmm2
-
-	vmovlpd	%xmm0, (Y1)
-	addq	INCY, Y1
-	vmovhpd	%xmm0, (Y1)
-	addq	INCY, Y1
-	vmovlpd	%xmm2, (Y1)
-	addq	INCY, Y1
-	vmovhpd	%xmm2, (Y1)
-	addq	INCY, Y1
-	cmpq	$4, N
-	jge	.L51
-	ALIGN_4
-
-.L60:
-#endif
-
-#if GEMV_UNROLL >= 2
-
-	cmpq	$2, N
-	jl	.L70
-
-#if GEMV_UNROLL == 2
-	ALIGN_3
-
-.L61:
-#endif
-
-	subq	$2, N
-
-	leaq	16 * SIZE(BUFFER), X1
-
-	movq	A, A1
-	leaq	(A1, LDA), A2
-	leaq	(A1, LDA, 2), A
-
-        vxorps %xmm0 ,  %xmm0, %xmm0
-        vxorps %xmm1 ,  %xmm1, %xmm1
-        vxorps %xmm2 ,  %xmm2, %xmm2
-        vxorps %xmm3 ,  %xmm3, %xmm3
-
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L6X
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-	vmovsd	-16 * SIZE(A1), %xmm4
-	vmovsd	-16 * SIZE(A2), %xmm5
-
-	vfmaddpd %xmm0 , %xmm4 , %xmm12 , %xmm0
-	vfmaddpd %xmm1 , %xmm5 , %xmm12 , %xmm1
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, A2
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L6X:
-#endif
-
-        vxorps %xmm8 ,  %xmm8, %xmm8
-	vmovhpd	-16 * SIZE(A2), %xmm8 , %xmm8
-
-	movq	M,  I
-	sarq	$3,  I
-	jle	.L65
-
-	VMOVUPS_A1(-15 * SIZE, A2, %xmm5)
-	VMOVUPS_A1(-13 * SIZE, A2, %xmm7)
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-14 * SIZE, X1, %xmm13)
-
-	decq	I
-	jle	.L63
-	ALIGN_4
-
-.L62:
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_XL1(-12 * SIZE, X1, %xmm12)
-	VMOVUPS_A1(-11 * SIZE, A2, %xmm9)
-
-	vfmaddpd %xmm0 , -14 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm7, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-	VMOVUPS_XL1(-10 * SIZE, X1, %xmm13)
-	VMOVUPS_A1( -9 * SIZE, A2, %xmm8)
-
-	vfmaddpd %xmm0 , -12 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm1 , %xmm7 , %xmm12 , %xmm1
-	VMOVUPS_XL1(-8 * SIZE, X1, %xmm12)
-	VMOVUPS_A1(-7 * SIZE, A2, %xmm5)
-
-	vfmaddpd %xmm0 , -10 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm9 , %xmm9
-	vfmaddpd %xmm1 , %xmm9 , %xmm13 , %xmm1
-	VMOVUPS_XL1(-6 * SIZE, X1, %xmm13)
-	VMOVUPS_A1(-5 * SIZE, A2, %xmm7)
-
-	addq	$8 * SIZE, A1
-	addq	$8 * SIZE, A2
-	addq	$8 * SIZE, X1
-
-	decq	I
-	jg	.L62
-	ALIGN_4
-
-.L63:
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	VMOVUPS_XL1(-12 * SIZE, X1, %xmm12)
-	VMOVUPS_A1(-11 * SIZE, A2, %xmm9)
-
-	vfmaddpd %xmm0 , -14 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm7, %xmm5 , %xmm5
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-	VMOVUPS_XL1(-10 * SIZE, X1, %xmm13)
-	VMOVUPS_A1( -9 * SIZE, A2, %xmm8)
-
-	vfmaddpd %xmm0 , -12 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm9, %xmm7 , %xmm7
-	vfmaddpd %xmm1 , %xmm7 , %xmm12 , %xmm1
-
-	vfmaddpd %xmm0 , -10 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm8, %xmm9 , %xmm9
-	vfmaddpd %xmm1 , %xmm9 , %xmm13 , %xmm1
-
-
-	addq	$8 * SIZE, A1
-	addq	$8 * SIZE, A2
-	addq	$8 * SIZE, X1
-	ALIGN_4
-
-.L65:
-	testq	$4, M
-	jle	.L66
-
-	VMOVUPS_A1(-15 * SIZE, A2, %xmm5)
-	VMOVUPS_A1(-13 * SIZE, A2, %xmm7)
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-14 * SIZE, X1, %xmm13)
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-
-	vfmaddpd %xmm0 , -14 * SIZE(A1)           , %xmm13 , %xmm0
-
-	vshufpd	$1, %xmm7, %xmm5 , %xmm5
-	vmovups	%xmm7, %xmm8
-	vfmaddpd %xmm1 , %xmm5 , %xmm13 , %xmm1
-
-	addq	$4 * SIZE, A1
-	addq	$4 * SIZE, A2
-	addq	$4 * SIZE, X1
-	ALIGN_4
-
-.L66:
-	testq	$2, M
-	jle	.L67
-
-	VMOVUPS_A1(-15 * SIZE, A2, %xmm5)
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	vshufpd	$1, %xmm5, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	movaps	%xmm5, %xmm8
-
-	addq	$2 * SIZE, A1
-	addq	$2 * SIZE, A2
-	addq	$2 * SIZE, X1
-	ALIGN_4
-
-.L67:
-	testq	$1, M
-	je	.L68
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-	vshufpd	$1, %xmm8, %xmm8 , %xmm8
-	vfmaddpd %xmm1 , %xmm8 , %xmm12 , %xmm1
-	ALIGN_4
-
-.L68:
-	vaddpd	%xmm2, %xmm0 , %xmm0
-	vaddpd	%xmm3, %xmm1 , %xmm1
-
-	vhaddpd	%xmm1, %xmm0 , %xmm0
-
-	vmulpd	ALPHA, %xmm0 , %xmm0
-
-	vmovsd	(Y), %xmm4
-	addq	INCY, Y
-	vmovhpd	(Y), %xmm4 , %xmm4
-	addq	INCY, Y
-
-	vaddpd	%xmm4, %xmm0 , %xmm0
-
-	vmovlpd	%xmm0, (Y1)
-	addq	INCY, Y1
-	vmovhpd	%xmm0, (Y1)
-	addq	INCY, Y1
-
-#if GEMV_UNROLL == 2
-	cmpq	$2, N
-	jge	.L61
-#endif
-	ALIGN_4
-
-.L70:
-	cmpq	$1, N
-	jl	.L999
-
-#endif
-
-	leaq	16 * SIZE(BUFFER), X1
-
-	movq	A, A1
-
-        vxorps %xmm0 ,  %xmm0, %xmm0
-        vxorps %xmm1 ,  %xmm1, %xmm1
-        vxorps %xmm2 ,  %xmm2, %xmm2
-        vxorps %xmm3 ,  %xmm3, %xmm3
-
-#ifdef ALIGNED_ACCESS
-	testq	$SIZE, A
-	je	.L7X
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-	vmovsd	-16 * SIZE(A1), %xmm4
-
-	vfmaddpd %xmm0 , %xmm4 , %xmm12 , %xmm0
-
-	addq	 $SIZE, A1
-	addq	 $SIZE, X1
-	ALIGN_3
-
-.L7X:
-#endif
-	movq	M,  I
-	sarq	$3,  I
-	jle	.L75
-
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-14 * SIZE, X1, %xmm13)
-
-	decq	I
-	jle	.L73
-	ALIGN_4
-
-.L72:
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-	vfmaddpd %xmm2 , -14 * SIZE(A1)           , %xmm13 , %xmm2
-
-	VMOVUPS_XL1(-12 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-10 * SIZE, X1, %xmm13)
-
-	vfmaddpd %xmm0 , -12 * SIZE(A1)           , %xmm12 , %xmm0
-	vfmaddpd %xmm2 , -10 * SIZE(A1)           , %xmm13 , %xmm2
-
-	VMOVUPS_XL1( -8 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1( -6 * SIZE, X1, %xmm13)
-
-	addq	$8 * SIZE, A1
-	addq	$8 * SIZE, X1
-
-	decq	I
-	jg	.L72
-	ALIGN_4
-
-.L73:
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-	vfmaddpd %xmm2 , -14 * SIZE(A1)           , %xmm13 , %xmm2
-
-	VMOVUPS_XL1(-12 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-10 * SIZE, X1, %xmm13)
-
-	vfmaddpd %xmm0 , -12 * SIZE(A1)           , %xmm12 , %xmm0
-	vfmaddpd %xmm2 , -10 * SIZE(A1)           , %xmm13 , %xmm2
-
-	addq	$8 * SIZE, A1
-	addq	$8 * SIZE, X1
-	ALIGN_4
-
-.L75:
-	testq	$4, M
-	jle	.L76
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-	VMOVUPS_XL1(-14 * SIZE, X1, %xmm13)
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-	vfmaddpd %xmm2 , -14 * SIZE(A1)           , %xmm13 , %xmm2
-
-	addq	$4 * SIZE, A1
-	addq	$4 * SIZE, X1
-	ALIGN_4
-
-.L76:
-	testq	$2, M
-	jle	.L77
-
-	VMOVUPS_XL1(-16 * SIZE, X1, %xmm12)
-
-	vfmaddpd %xmm0 , -16 * SIZE(A1)           , %xmm12 , %xmm0
-
-	addq	$2 * SIZE, A1
-	addq	$2 * SIZE, X1
-	ALIGN_4
-
-.L77:
-	testq	$1, M
-	je	.L78
-
-	vmovsd	-16 * SIZE(X1), %xmm12
-	vmovsd	-16 * SIZE(A1), %xmm4
-
-	vfmaddpd %xmm0 , %xmm4 , %xmm12 , %xmm0
-	ALIGN_4
-
-.L78:
-	vaddpd	%xmm2, %xmm0 , %xmm0
-	vaddpd	%xmm3, %xmm1 , %xmm1
-
-	vaddpd	%xmm1, %xmm0 , %xmm0
-
-	vhaddpd	%xmm1, %xmm0 , %xmm0
-
-	vmulsd	ALPHA, %xmm0 , %xmm0
-
-	vmovsd	(Y), %xmm4
-	addq	INCY, Y
-
-	vaddsd	%xmm4, %xmm0 , %xmm0
-
-	vmovlpd	%xmm0, (Y1)
-	addq	INCY, Y1
-#endif
 	ALIGN_4
 
 .L999:

From 564aa60fec0bf6e89df4faaf6659013cbf16ee91 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sat, 3 Aug 2013 15:40:51 +0200
Subject: [PATCH 08/11] removed dtrsm_kernel_LT_8x2_bulldozer.S

---
 kernel/x86_64/KERNEL.BULLDOZER                |   18 +
 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S | 1395 -----------------
 2 files changed, 18 insertions(+), 1395 deletions(-)
 delete mode 100644 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S

diff --git a/kernel/x86_64/KERNEL.BULLDOZER b/kernel/x86_64/KERNEL.BULLDOZER
index 8ebd42244..b19f14244 100644
--- a/kernel/x86_64/KERNEL.BULLDOZER
+++ b/kernel/x86_64/KERNEL.BULLDOZER
@@ -53,6 +53,7 @@ STRSMKERNEL_RN  =  ../generic/trsm_kernel_RN.c
 STRSMKERNEL_RT  =  ../generic/trsm_kernel_RT.c
 
 DTRSMKERNEL_LN  = ../generic/trsm_kernel_LN.c
+#DTRSMKERNEL_LT  = dtrsm_kernel_LT_8x2_bulldozer.S
 DTRSMKERNEL_LT  = ../generic/trsm_kernel_LT.c
 DTRSMKERNEL_RN  = ../generic/trsm_kernel_RN.c
 DTRSMKERNEL_RT  = ../generic/trsm_kernel_RT.c
@@ -67,4 +68,21 @@ ZTRSMKERNEL_LT  = ../generic/trsm_kernel_LT.c
 ZTRSMKERNEL_RN  = ../generic/trsm_kernel_RN.c
 ZTRSMKERNEL_RT  = ../generic/trsm_kernel_RT.c
 
+#STRMMKERNEL	= ../generic/trmmkernel_16x2.c
+STRMMKERNEL	= sgemm_kernel_16x2_bulldozer.S
+#STRMMKERNEL_RT	= ../generic/trmmkernel_16x2.c
+#STRMMKERNEL_RN	= ../generic/trmmkernel_16x2.c
+
+DTRMMKERNEL	= dgemm_kernel_8x2_bulldozer.S
+#DTRMMKERNEL_RT	= ../generic/trmmkernel_8x2.c
+#DTRMMKERNEL_RN	= ../generic/trmmkernel_8x2.c
+
+CTRMMKERNEL	= cgemm_kernel_4x2_bulldozer.S
+
+ZTRMMKERNEL	= zgemm_kernel_2x2_bulldozer.S
+#ZTRMMKERNEL	= ../generic/ztrmmkernel_4x2.c
+#ZTRMMKERNEL_RR	= ../generic/ztrmmkernel_2x2.c
+#ZTRMMKERNEL_RC	= ../generic/ztrmmkernel_2x2.c
+
+
 
diff --git a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
deleted file mode 100644
index af7f18f21..000000000
--- a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
+++ /dev/null
@@ -1,1395 +0,0 @@
-/*********************************************************************/
-/* Copyright 2009, 2010 The University of Texas at Austin.           */
-/* All rights reserved.                                              */
-/*                                                                   */
-/* Redistribution and use in source and binary forms, with or        */
-/* without modification, are permitted provided that the following   */
-/* conditions are met:                                               */
-/*                                                                   */
-/*   1. Redistributions of source code must retain the above         */
-/*      copyright notice, this list of conditions and the following  */
-/*      disclaimer.                                                  */
-/*                                                                   */
-/*   2. Redistributions in binary form must reproduce the above      */
-/*      copyright notice, this list of conditions and the following  */
-/*      disclaimer in the documentation and/or other materials       */
-/*      provided with the distribution.                              */
-/*                                                                   */
-/*    THIS  SOFTWARE IS PROVIDED  BY THE  UNIVERSITY OF  TEXAS AT    */
-/*    AUSTIN  ``AS IS''  AND ANY  EXPRESS OR  IMPLIED WARRANTIES,    */
-/*    INCLUDING, BUT  NOT LIMITED  TO, THE IMPLIED  WARRANTIES OF    */
-/*    MERCHANTABILITY  AND FITNESS FOR  A PARTICULAR  PURPOSE ARE    */
-/*    DISCLAIMED.  IN  NO EVENT SHALL THE UNIVERSITY  OF TEXAS AT    */
-/*    AUSTIN OR CONTRIBUTORS BE  LIABLE FOR ANY DIRECT, INDIRECT,    */
-/*    INCIDENTAL,  SPECIAL, EXEMPLARY,  OR  CONSEQUENTIAL DAMAGES    */
-/*    (INCLUDING, BUT  NOT LIMITED TO,  PROCUREMENT OF SUBSTITUTE    */
-/*    GOODS  OR  SERVICES; LOSS  OF  USE,  DATA,  OR PROFITS;  OR    */
-/*    BUSINESS INTERRUPTION) HOWEVER CAUSED  AND ON ANY THEORY OF    */
-/*    LIABILITY, WHETHER  IN CONTRACT, STRICT  LIABILITY, OR TORT    */
-/*    (INCLUDING NEGLIGENCE OR OTHERWISE)  ARISING IN ANY WAY OUT    */
-/*    OF  THE  USE OF  THIS  SOFTWARE,  EVEN  IF ADVISED  OF  THE    */
-/*    POSSIBILITY OF SUCH DAMAGE.                                    */
-/*                                                                   */
-/* The views and conclusions contained in the software and           */
-/* documentation are those of the authors and should not be          */
-/* interpreted as representing official policies, either expressed   */
-/* or implied, of The University of Texas at Austin.                 */
-/*********************************************************************/
-
-#define ASSEMBLER
-#include "common.h"
- 
-#define OLD_M	%rdi
-#define OLD_N	%rsi
-#define M	%r13
-#define N	%r14
-#define K	%rdx
-
-#define A	%rcx
-#define B	%r8
-#define C	%r9
-#define LDC	%r10
-	
-#define I	%r11
-#define AO	%rdi
-#define BO	%rsi
-#define	CO1	%r15
-#define CO2	%r12
-#define BB	%rbp
-#define	J	%rbx
-
-#ifndef WINDOWS_ABI
-
-#define STACKSIZE 96
-
-#define OFFSET	 48(%rsp)
-#define AORIG	 56(%rsp)
-#define KK	 64(%rsp)
-#define KKK	 72(%rsp)
-
-#else
-
-#define STACKSIZE 256
-
-#define OLD_A		40 + STACKSIZE(%rsp)
-#define OLD_B		48 + STACKSIZE(%rsp)
-#define OLD_C		56 + STACKSIZE(%rsp)
-#define OLD_LDC		64 + STACKSIZE(%rsp)
-#define OLD_OFFSET	72 + STACKSIZE(%rsp)
-
-#define OFFSET	224(%rsp)
-#define AORIG	232(%rsp)
-#define KK	240(%rsp)
-#define KKK	248(%rsp)
-
-#endif
-
-#define PREFETCH     prefetch
-#define PREFETCHSIZE  (8 *  7 + 0)
-
-#define movlpd	vmovsd
-#define movapd	vmovups
-#define movupd	vmovups
-
-.macro KERNEL8x2_SUB
-	vmovddup	-16*SIZE(BO,%rax,2), %xmm1
-	vmovddup	-15*SIZE(BO,%rax,2), %xmm2
-	vmovups		-16*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
-	vfmaddpd	%xmm9 , %xmm0 , %xmm2 , %xmm9
-	vmovups		-14*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
-	vfmaddpd	%xmm11, %xmm0 , %xmm2 , %xmm11
-	vmovups		-12*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm12, %xmm0 , %xmm1 , %xmm12
-	vfmaddpd	%xmm13, %xmm0 , %xmm2 , %xmm13
-	vmovups		-10*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm14, %xmm0 , %xmm1 , %xmm14
-	vfmaddpd	%xmm15, %xmm0 , %xmm2 , %xmm15
-	addq    $SIZE, %rax
-.endm
-
-.macro KERNEL8x1_SUB
-	vmovddup	-16*SIZE(BO,%rax,1), %xmm1
-	vmovups		-16*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
-	vmovups		-14*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm9 , %xmm0 , %xmm1 , %xmm9
-	vmovups		-12*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
-	vmovups		-10*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm11, %xmm0 , %xmm1 , %xmm11
-	addq    $SIZE, %rax
-.endm
-
-
-
-
-	PROLOGUE
-	PROFCODE
-	
-	subq	$STACKSIZE, %rsp
-	movq	%rbx,   (%rsp)
-	movq	%rbp,  8(%rsp)
-	movq	%r12, 16(%rsp)
-	movq	%r13, 24(%rsp)
-	movq	%r14, 32(%rsp)
-	movq	%r15, 40(%rsp)
-
-#ifdef WINDOWS_ABI
-	movq	%rdi,    48(%rsp)
-	movq	%rsi,    56(%rsp)
-	movups	%xmm6,   64(%rsp)
-	movups	%xmm7,   80(%rsp)
-	movups	%xmm8,   96(%rsp)
-	movups	%xmm9,  112(%rsp)
-	movups	%xmm10, 128(%rsp)
-	movups	%xmm11, 144(%rsp)
-	movups	%xmm12, 160(%rsp)
-	movups	%xmm13, 176(%rsp)
-	movups	%xmm14, 192(%rsp)
-	movups	%xmm15, 208(%rsp)
-
-	movq	ARG1,      OLD_M
-	movq	ARG2,      OLD_N
-	movq	ARG3,      K
-	movq	OLD_A,     A
-	movq	OLD_B,     B
-	movq	OLD_C,     C
-	movq	OLD_LDC,   LDC
-	movsd	OLD_OFFSET, %xmm12
-#else
-	movq	STACKSIZE +  8(%rsp), LDC
-	movsd	STACKSIZE + 16(%rsp), %xmm12
-#endif
-
-	movq	OLD_M, M
-	movq	OLD_N, N
-
-	subq	$-16 * SIZE, A
-	subq	$-16 * SIZE, B
-
-	movsd	%xmm12, OFFSET
-	movsd	%xmm12, KK
-
-	leaq	(, LDC, SIZE), LDC
-
-
-	movq	N,  J
-	sarq	$1, J		# j = (n >> 1)
-	jle	.L80
-	ALIGN_4
-
-.L01:
-
-	movq	A, AO
-
-	movq	C, CO1			# coffset1 = c
-	leaq	(C, LDC, 1), CO2	# coffset2 = c + ldc
-	leaq    (C, LDC, 2), C
-
-	movq	OFFSET, %rax
-	movq	%rax, KK
-
-	movq	M,  I
-	sarq	$3, I	# i = (m >> 3)
-	jle	.L50_A
-	ALIGN_4
-/*********************************************************************************/
-.L51:
-
-	movq	B, BO
-
-	vxorpd	%xmm8 , %xmm8 , %xmm8
-	vxorpd	%xmm9 , %xmm9 , %xmm9
-	vxorpd	%xmm10, %xmm10, %xmm10
-	vxorpd	%xmm11, %xmm11, %xmm11
-	vxorpd	%xmm12, %xmm12, %xmm12
-	vxorpd	%xmm13, %xmm13, %xmm13
-	vxorpd	%xmm14, %xmm14, %xmm14
-	vxorpd	%xmm15, %xmm15, %xmm15
-
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 8), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	NOBRANCH
-	je	.L56
-	ALIGN_4
-
-.L52:
-	KERNEL8x2_SUB
-	KERNEL8x2_SUB
-	KERNEL8x2_SUB
-	KERNEL8x2_SUB
-
-	jl	.L52
-	ALIGN_4
-
-.L56:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L59
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 8), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	ALIGN_4
-
-.L57:
-	KERNEL8x2_SUB
-
-	jl	.L57
-	ALIGN_4
-
-.L59:
-
-        vmovups  %xmm8 , %xmm1
-        unpcklpd %xmm9 , %xmm8
-        unpckhpd %xmm9 , %xmm1
-
-	vmovups		-16 * SIZE(BO), %xmm0
-        vsubpd  	%xmm8 , %xmm0 , %xmm0
-	vmovups		-14 * SIZE(BO), %xmm8
-        vsubpd  	%xmm1 , %xmm8 , %xmm1
-
-        vmovups  %xmm10, %xmm3
-        unpcklpd %xmm11, %xmm10
-        unpckhpd %xmm11, %xmm3
-
-	vmovups		-12 * SIZE(BO), %xmm8
-	vmovups		-10 * SIZE(BO), %xmm9
-        vsubpd  	%xmm10, %xmm8 , %xmm2
-        vsubpd  	%xmm3 , %xmm9 , %xmm3
-
-        vmovups  %xmm12, %xmm5
-        unpcklpd %xmm13, %xmm12
-        unpckhpd %xmm13, %xmm5
-
-	vmovups		 -8 * SIZE(BO), %xmm8
-	vmovups		 -6 * SIZE(BO), %xmm9
-        vsubpd  	%xmm12, %xmm8 , %xmm4
-        vsubpd  	%xmm5 , %xmm9 , %xmm5
-
-        vmovups  %xmm14, %xmm7
-        unpcklpd %xmm15, %xmm14
-        unpckhpd %xmm15, %xmm7
-
-	vmovups		 -4 * SIZE(BO), %xmm8
-	vmovups		 -2 * SIZE(BO), %xmm9
-        vsubpd  	%xmm14, %xmm8 , %xmm6
-        vsubpd  	%xmm7 , %xmm9 , %xmm7
-
-	vmovddup        -16 * SIZE(AO), %xmm8
-        vmulpd                  %xmm0 , %xmm8 , %xmm0
-        vmovddup        -15 * SIZE(AO), %xmm9
-        vfnmaddpd       %xmm1 , %xmm0 , %xmm9 , %xmm1 
-        vmovddup        -14 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm2 , %xmm0 , %xmm10, %xmm2 
-        vmovddup        -13 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm3 , %xmm0 , %xmm11, %xmm3 
-	vmovddup        -12 * SIZE(AO), %xmm8
-        vfnmaddpd       %xmm4 , %xmm0 , %xmm8 , %xmm4 
-        vmovddup        -11 * SIZE(AO), %xmm9
-        vfnmaddpd       %xmm5 , %xmm0 , %xmm9 , %xmm5 
-        vmovddup        -10 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm6 , %xmm0 , %xmm10, %xmm6 
-        vmovddup         -9 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm0 , %xmm11, %xmm7 
-
-	vmovddup         -7 * SIZE(AO), %xmm8
-	vmulpd                  %xmm1 , %xmm8 , %xmm1
-        vmovddup         -6 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm2 , %xmm1 , %xmm10, %xmm2 
-        vmovddup         -5 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm3 , %xmm1 , %xmm11, %xmm3 
-	vmovddup         -4 * SIZE(AO), %xmm8
-        vfnmaddpd       %xmm4 , %xmm1 , %xmm8 , %xmm4 
-        vmovddup         -3 * SIZE(AO), %xmm9
-        vfnmaddpd       %xmm5 , %xmm1 , %xmm9 , %xmm5 
-        vmovddup         -2 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm6 , %xmm1 , %xmm10, %xmm6 
-        vmovddup         -1 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm1 , %xmm11, %xmm7 
-
-	vmovddup          2 * SIZE(AO), %xmm8
-	vmulpd                  %xmm2 , %xmm8 , %xmm2
-        vmovddup          3 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm3 , %xmm2 , %xmm11, %xmm3 
-	vmovddup          4 * SIZE(AO), %xmm8
-        vfnmaddpd       %xmm4 , %xmm2 , %xmm8 , %xmm4 
-        vmovddup          5 * SIZE(AO), %xmm9
-        vfnmaddpd       %xmm5 , %xmm2 , %xmm9 , %xmm5 
-        vmovddup          6 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm6 , %xmm2 , %xmm10, %xmm6 
-        vmovddup          7 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm2 , %xmm11, %xmm7 
-
-	vmovddup         11 * SIZE(AO), %xmm8
-	vmulpd                  %xmm3 , %xmm8 , %xmm3
-        vmovddup         12 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm4 , %xmm3 , %xmm11, %xmm4 
-        vmovddup         13 * SIZE(AO), %xmm9
-        vfnmaddpd       %xmm5 , %xmm3 , %xmm9 , %xmm5 
-        vmovddup         14 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm6 , %xmm3 , %xmm10, %xmm6 
-        vmovddup         15 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm3 , %xmm11, %xmm7 
-
-	vmovddup         20 * SIZE(AO), %xmm8
-	vmulpd                  %xmm4 , %xmm8 , %xmm4
-        vmovddup         21 * SIZE(AO), %xmm9
-        vfnmaddpd       %xmm5 , %xmm4 , %xmm9 , %xmm5 
-        vmovddup         22 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm6 , %xmm4 , %xmm10, %xmm6 
-        vmovddup         23 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm4 , %xmm11, %xmm7 
-
-	vmovddup         29 * SIZE(AO), %xmm8
-	vmulpd                  %xmm5 , %xmm8 , %xmm5
-        vmovddup         30 * SIZE(AO), %xmm10
-        vfnmaddpd       %xmm6 , %xmm5 , %xmm10, %xmm6 
-        vmovddup         31 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm5 , %xmm11, %xmm7 
-
-	vmovddup         38 * SIZE(AO), %xmm8
-	vmulpd                  %xmm6 , %xmm8 , %xmm6
-        vmovddup         39 * SIZE(AO), %xmm11
-        vfnmaddpd       %xmm7 , %xmm6 , %xmm11, %xmm7 
-
-	vmovddup         47 * SIZE(AO), %xmm8
-	vmulpd                  %xmm7 , %xmm8 , %xmm7
-
-
-	vmovsd	%xmm0 ,  0 * SIZE(CO1)
-	vmovsd	%xmm1 ,  1 * SIZE(CO1)
-	vmovsd	%xmm2 ,  2 * SIZE(CO1)
-	vmovsd	%xmm3 ,  3 * SIZE(CO1)
-	vmovsd	%xmm4 ,  4 * SIZE(CO1)
-	vmovsd	%xmm5 ,  5 * SIZE(CO1)
-	vmovsd	%xmm6 ,  6 * SIZE(CO1)
-	vmovsd	%xmm7 ,  7 * SIZE(CO1)
-
-	vmovhpd	%xmm0 ,  0 * SIZE(CO2)
-	vmovhpd	%xmm1 ,  1 * SIZE(CO2)
-	vmovhpd	%xmm2 ,  2 * SIZE(CO2)
-	vmovhpd	%xmm3 ,  3 * SIZE(CO2)
-	vmovhpd	%xmm4 ,  4 * SIZE(CO2)
-	vmovhpd	%xmm5 ,  5 * SIZE(CO2)
-	vmovhpd	%xmm6 ,  6 * SIZE(CO2)
-	vmovhpd	%xmm7 ,  7 * SIZE(CO2)
-
-	vmovups	%xmm0 , -16 * SIZE(BO)
-	vmovups	%xmm1 , -14 * SIZE(BO)
-	vmovups	%xmm2 , -12 * SIZE(BO)
-	vmovups	%xmm3 , -10 * SIZE(BO)
-	vmovups	%xmm4 ,  -8 * SIZE(BO)
-	vmovups	%xmm5 ,  -6 * SIZE(BO)
-	vmovups	%xmm6 ,  -4 * SIZE(BO)
-	vmovups	%xmm7 ,  -2 * SIZE(BO)
-
-	addq	$8 * SIZE, CO1
-	addq	$8 * SIZE, CO2
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 8), AO
-	leaq	(BO, %rax, 2), BO
-
-	addq	$8, KK
-
-	decq	I			# i --
-	jg	.L51
-	ALIGN_4	
-
-/*********************************************************************************/
-
-.L50_A:
-	testq	$4, M
-	je	.L80
-
-.L51_A:
-
-	movq	B, BO
-
-	movddup	-16 * SIZE(BO), %xmm1
-	movddup	-15 * SIZE(BO), %xmm5
-	pxor	%xmm8, %xmm8
-	movddup	-12 * SIZE(BO), %xmm3
-	pxor	%xmm9, %xmm9
-	movapd	-16 * SIZE(AO), %xmm0
-	pxor	%xmm12, %xmm12
-	movapd	 -8 * SIZE(AO), %xmm4
-	pxor	%xmm13, %xmm13
-
-	movapd	%xmm0, %xmm2
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 4), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	NOBRANCH
-	je	.L56_A
-	ALIGN_4
-
-.L52_A:
-	mulpd	%xmm1, %xmm0
-	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
-	addpd	%xmm0, %xmm8
-	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
-	addpd	%xmm1, %xmm12
-	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm5, %xmm2
-	mulpd	-14 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm2, %xmm9
-	addpd	%xmm5, %xmm13
-	movddup	-13 * SIZE(BO, %rax, 2), %xmm5
-	movapd	%xmm0, %xmm2
-	mulpd	%xmm1, %xmm0
-	mulpd	-10 * SIZE(AO, %rax, 4), %xmm1
-	addpd	%xmm0, %xmm8
-	movapd	  (AO, %rax, 4), %xmm0
-	addpd	%xmm1, %xmm12
-	movddup	 -8 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm5, %xmm2
-	mulpd	-10 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm2, %xmm9
-	addpd	%xmm5, %xmm13
-	movddup	-11 * SIZE(BO, %rax, 2), %xmm5
-	movapd	%xmm4, %xmm2
-	mulpd	%xmm3, %xmm4
-	mulpd	 -6 * SIZE(AO, %rax, 4), %xmm3
-	addpd	%xmm4, %xmm8
-	movapd	 -4 * SIZE(AO, %rax, 4), %xmm4
-	addpd	%xmm3, %xmm12
-	movddup	-10 * SIZE(BO, %rax, 2), %xmm3
-	mulpd	%xmm5, %xmm2
-	mulpd	 -6 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm2, %xmm9
-	addpd	%xmm5, %xmm13
-	movddup	 -9 * SIZE(BO, %rax, 2), %xmm5
-	movapd	%xmm4, %xmm2
-	mulpd	%xmm3, %xmm4
-	mulpd	 -2 * SIZE(AO, %rax, 4), %xmm3
-	addpd	%xmm4, %xmm8
-	movapd	  8 * SIZE(AO, %rax, 4), %xmm4
-	addpd	%xmm3, %xmm12
-	movddup	 -4 * SIZE(BO, %rax, 2), %xmm3
-	mulpd	%xmm5, %xmm2
-	mulpd	 -2 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm2, %xmm9
-	addpd	%xmm5, %xmm13
-	movddup	 -7 * SIZE(BO, %rax, 2), %xmm5
-	movapd	%xmm0, %xmm2
-
-	addq	$4 * SIZE, %rax
-	BRANCH
-	jl	.L52_A
-	ALIGN_4
-
-.L56_A:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L59_A
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 4), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	ALIGN_4
-
-.L57_A:
-	mulpd	%xmm1, %xmm0
-	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
-	addpd	%xmm0, %xmm8
-	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
-	addpd	%xmm1, %xmm12
-	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm5, %xmm2
-	mulpd	-14 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm2, %xmm9
-	addpd	%xmm5, %xmm13
-	movddup	-13 * SIZE(BO, %rax, 2), %xmm5
-	movapd	%xmm0, %xmm2
-
-	addq	$SIZE, %rax
-	jl	.L57_A
-	ALIGN_4
-
-.L59_A:
-
-	movapd	%xmm8, %xmm0
-	unpcklpd %xmm9, %xmm8
-	unpckhpd %xmm9, %xmm0
-
-	movapd	%xmm12, %xmm4
-	unpcklpd %xmm13, %xmm12
-	unpckhpd %xmm13, %xmm4
-
-	movapd	-16 * SIZE(BO), %xmm9
-	movapd	-14 * SIZE(BO), %xmm13
-	movapd	-12 * SIZE(BO), %xmm1
-	movapd	-10 * SIZE(BO), %xmm5
-
-	subpd	%xmm8,  %xmm9
-	subpd	%xmm0,  %xmm13
-	subpd	%xmm12, %xmm1
-	subpd	%xmm4,  %xmm5
-
-	movddup -16 * SIZE(AO), %xmm8
-	mulpd	 %xmm8, %xmm9
-	movddup	-15 * SIZE(AO), %xmm10
-	mulpd	 %xmm9, %xmm10
-	subpd	 %xmm10, %xmm13
-	movddup	-14 * SIZE(AO), %xmm12
-	mulpd	 %xmm9, %xmm12
-	subpd	 %xmm12, %xmm1
-	movddup	-13 * SIZE(AO), %xmm14
-	mulpd	 %xmm9, %xmm14
-	subpd	 %xmm14, %xmm5
-
-
-	movddup	-11 * SIZE(AO), %xmm8
-	mulpd	 %xmm8, %xmm13
-
-	movddup	-10 * SIZE(AO), %xmm10
-	mulpd	 %xmm13, %xmm10
-	subpd	 %xmm10, %xmm1
-	movddup	 -9 * SIZE(AO), %xmm12
-	mulpd	 %xmm13, %xmm12
-	subpd	 %xmm12, %xmm5
-
-	movddup	 -6 * SIZE(AO), %xmm8
-	mulpd	 %xmm8, %xmm1
-	movddup	 -5 * SIZE(AO), %xmm10
-	mulpd	 %xmm1, %xmm10
-	subpd	 %xmm10, %xmm5
-
-	movddup	 -1 * SIZE(AO), %xmm8
-	mulpd	 %xmm8, %xmm5
-
-	movlpd	%xmm9,  0 * SIZE(CO1)
-	movlpd	%xmm13, 1 * SIZE(CO1)
-	movlpd	%xmm1,  2 * SIZE(CO1)
-	movlpd	%xmm5,  3 * SIZE(CO1)
-
-	movhpd	%xmm9,  0 * SIZE(CO2)
-	movhpd	%xmm13, 1 * SIZE(CO2)
-	movhpd	%xmm1,  2 * SIZE(CO2)
-	movhpd	%xmm5,  3 * SIZE(CO2)
-
-	movaps	%xmm9, -16 * SIZE(BO)
-	movaps	%xmm13,-14 * SIZE(BO)
-	movaps	%xmm1, -12 * SIZE(BO)
-	movaps	%xmm5, -10 * SIZE(BO)
-
-	addq	$4 * SIZE, CO1
-	addq	$4 * SIZE, CO2
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 4), AO
-	leaq	(BO, %rax, 2), BO
-
-	addq	$4, KK
-
-	ALIGN_4	
-
-/*********************************************************************************/
-
-
-.L60:
-	testq	$2, M
-	je	.L70
-
-.L61:
-	movq	B, BO
-
-	movapd	-16 * SIZE(AO), %xmm0
-	pxor	%xmm8, %xmm8
-	movapd	-12 * SIZE(AO), %xmm2
-	pxor	%xmm9, %xmm9
-	movddup	-16 * SIZE(BO), %xmm1
-	pxor	%xmm10, %xmm10
-	movddup	-15 * SIZE(BO), %xmm3
-	pxor	%xmm11, %xmm11
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 2), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	NOBRANCH
-	je	.L66
-	ALIGN_4
-
-.L62:
-	mulpd	%xmm0, %xmm1
-	addpd	%xmm1, %xmm8
-	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm0, %xmm3
-	movapd	-14 * SIZE(AO, %rax, 2), %xmm0
-	addpd	%xmm3, %xmm9
-	movddup	-13 * SIZE(BO, %rax, 2), %xmm3
-	mulpd	%xmm0, %xmm1
-	addpd	%xmm1, %xmm10
-	movddup	-12 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm0, %xmm3
-	movapd	 -8 * SIZE(AO, %rax, 2), %xmm0
-	addpd	%xmm3, %xmm11
-	movddup	-11 * SIZE(BO, %rax, 2), %xmm3
-	mulpd	%xmm2, %xmm1
-	addpd	%xmm1, %xmm8
-	movddup	-10 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm2, %xmm3
-	movapd	-10 * SIZE(AO, %rax, 2), %xmm2
-	addpd	%xmm3, %xmm9
-	movddup	 -9 * SIZE(BO, %rax, 2), %xmm3
-	mulpd	%xmm2, %xmm1
-	addpd	%xmm1, %xmm10
-	movddup	 -8 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm2, %xmm3
-	movapd	 -4 * SIZE(AO, %rax, 2), %xmm2
-	addpd	%xmm3, %xmm11
-	movddup	 -7 * SIZE(BO, %rax, 2), %xmm3
-
-	addq	$4 * SIZE, %rax
-	BRANCH
-	jl	.L62
-	ALIGN_4
-
-.L66:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L69
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 2), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	ALIGN_4
-
-.L67:
-	mulpd	%xmm0, %xmm1
-	addpd	%xmm1, %xmm8
-	movddup	-14 * SIZE(BO, %rax, 2), %xmm1
-	mulpd	%xmm0, %xmm3
-	movapd	-14 * SIZE(AO, %rax, 2), %xmm0
-	addpd	%xmm3, %xmm9
-	movddup	-13 * SIZE(BO, %rax, 2), %xmm3
-
-	addq	$SIZE, %rax
-	jl	.L67
-	ALIGN_4
-
-.L69:
-	addpd	%xmm10, %xmm8
-	addpd	%xmm11, %xmm9
-
-	movapd	%xmm8, %xmm0
-	unpcklpd %xmm9, %xmm8
-	unpckhpd %xmm9, %xmm0
-
-	movapd	-16 * SIZE(BO), %xmm9
-	movapd	-14 * SIZE(BO), %xmm13
-
-	subpd	%xmm8,  %xmm9
-	subpd	%xmm0,  %xmm13
-
-	movddup	-16 * SIZE(AO), %xmm8
-	mulpd	 %xmm8, %xmm9
-
-	movddup	-15 * SIZE(AO), %xmm10
-	mulpd	 %xmm9, %xmm10
-	subpd	 %xmm10, %xmm13
-
-	movddup	-13 * SIZE(AO), %xmm8
-	mulpd	 %xmm8, %xmm13
-
-	movlpd	%xmm9,   0 * SIZE(CO1)
-	movlpd	%xmm13,  1 * SIZE(CO1)
-
-	movhpd	%xmm9,   0 * SIZE(CO2)
-	movhpd	%xmm13,  1 * SIZE(CO2)
-
-	movaps	%xmm9,  -16 * SIZE(BO)
-	movaps	%xmm13, -14 * SIZE(BO)
-
-	addq	$2 * SIZE, CO1
-	addq	$2 * SIZE, CO2
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 2), AO
-	leaq	(BO, %rax, 2), BO
-
-	addq	$2, KK
-
-	ALIGN_4	
-/********************************************************************************/
-.L70:
-	testq	$1, M
-	je	.L79
-	ALIGN_4
-
-.L71:
-	movq	B, BO
-
-	movddup	-16 * SIZE(AO), %xmm0
-	pxor	%xmm8, %xmm8
-	movddup	-15 * SIZE(AO), %xmm1
-	pxor	%xmm9, %xmm9
-	movddup	-14 * SIZE(AO), %xmm2
-	pxor	%xmm10, %xmm10
-	movddup	-13 * SIZE(AO), %xmm3
-	pxor	%xmm11, %xmm11
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 1), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	NOBRANCH
-	je	.L76
-	ALIGN_4
-
-.L72:
-	mulpd	-16 * SIZE(BO, %rax, 2), %xmm0
-	addpd	%xmm0, %xmm8
-	movddup	-12 * SIZE(AO, %rax, 1), %xmm0
-
-	mulpd	-14 * SIZE(BO, %rax, 2), %xmm1
-	addpd	%xmm1, %xmm9
-	movddup	-11 * SIZE(AO, %rax, 1), %xmm1
-
-	mulpd	-12 * SIZE(BO, %rax, 2), %xmm2
-	addpd	%xmm2, %xmm10
-	movddup	-10 * SIZE(AO, %rax, 1), %xmm2
-
-	mulpd	-10 * SIZE(BO, %rax, 2), %xmm3
-	addpd	%xmm3, %xmm11
-	movddup	 -9 * SIZE(AO, %rax, 1), %xmm3
-
-	addq	$4 * SIZE, %rax
-	BRANCH
-	jl	.L72
-	ALIGN_4
-
-.L76:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L78
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 1), AO
-	leaq	(BO, %rax, 2), BO
-	negq	%rax
-	ALIGN_4
-
-.L77:
-	mulpd	-16 * SIZE(BO, %rax, 2), %xmm0
-	addpd	%xmm0, %xmm8
-	movddup	-15 * SIZE(AO, %rax, 1), %xmm0
-
-	addq	$SIZE, %rax
-	jl	.L77
-	ALIGN_4
-
-.L78:
-	addpd	%xmm9,  %xmm8
-	addpd	%xmm11, %xmm10
-	addpd	%xmm10, %xmm8
-
-	movapd	-16 * SIZE(BO), %xmm2
-
-	subpd	%xmm8,  %xmm2
-
-	movddup	-16 * SIZE(AO), %xmm0
-	mulpd	 %xmm0, %xmm2
-
-	movlpd	%xmm2,  0 * SIZE(CO1)
-	movhpd	%xmm2,  0 * SIZE(CO2)
-
-	movaps	%xmm2, -16 * SIZE(BO)
-
-	addq	$1 * SIZE, CO1
-	addq	$1 * SIZE, CO2
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 1), AO
-	leaq	(BO, %rax, 2), BO
-
-	addq	$1, KK
-
-	ALIGN_4	
-	
-.L79:
-
-	movq	BO, B
-
-	decq	J			# j --
-	jg	.L01
-	ALIGN_4
-/***************************************************************************************/
-.L80:
-	testq	$1, N
-	je	.L999
-
-	movq	A, AO
-	movq	C, CO1			# coffset1 = c
-
-	movq	OFFSET, %rax
-	movq	%rax, KK
-
-	movq	M,  I
-	sarq	$3, I	# i = (m >> 3)
-	jle	.L90_A
-	ALIGN_4
-/*************************************************************************************/
-.L91:
-
-	movq	B, BO
-
-	pxor	%xmm8, %xmm8
-	pxor	%xmm9, %xmm9
-	pxor	%xmm10, %xmm10
-	pxor	%xmm11, %xmm11
-
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 8), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	NOBRANCH
-	je	.L96
-	ALIGN_4
-
-.L92:
-	KERNEL8x1_SUB
-	KERNEL8x1_SUB
-	KERNEL8x1_SUB
-	KERNEL8x1_SUB
-
-	jl	.L92
-	ALIGN_4
-
-.L96:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L99
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 8), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	ALIGN_4
-
-.L97:
-	KERNEL8x1_SUB
-
-	jl	.L97
-	ALIGN_4
-.L99:
-
-	movapd	-16 * SIZE(BO), %xmm1
-	movapd	-14 * SIZE(BO), %xmm3
-	movapd	-12 * SIZE(BO), %xmm5
-	movapd	-10 * SIZE(BO), %xmm7
-
-	subpd	%xmm8 ,  %xmm1
-	subpd	%xmm9 ,  %xmm3
-	subpd	%xmm10,  %xmm5
-	subpd	%xmm11,  %xmm7
-
-	vmovups	 %xmm1 , %xmm0
-        unpckhpd %xmm1 , %xmm1
-
-	vmovups	 %xmm3 , %xmm2
-        unpckhpd %xmm3 , %xmm3
-
-	vmovups	 %xmm5 , %xmm4
-        unpckhpd %xmm5 , %xmm5
-
-	vmovups	 %xmm7 , %xmm6
-        unpckhpd %xmm7 , %xmm7
-
-	vmulsd		 -16 * SIZE(AO), %xmm0 , %xmm0
-	vfnmaddsd %xmm1 ,-15 * SIZE(AO), %xmm0 , %xmm1
-	vfnmaddsd %xmm2 ,-14 * SIZE(AO), %xmm0 , %xmm2
-	vfnmaddsd %xmm3 ,-13 * SIZE(AO), %xmm0 , %xmm3
-	vfnmaddsd %xmm4 ,-12 * SIZE(AO), %xmm0 , %xmm4
-	vfnmaddsd %xmm5 ,-11 * SIZE(AO), %xmm0 , %xmm5
-	vfnmaddsd %xmm6 ,-10 * SIZE(AO), %xmm0 , %xmm6
-	vfnmaddsd %xmm7 , -9 * SIZE(AO), %xmm0 , %xmm7
-
-	vmulsd		  -7 * SIZE(AO), %xmm1 , %xmm1
-	vfnmaddsd %xmm2 , -6 * SIZE(AO), %xmm1 , %xmm2
-	vfnmaddsd %xmm3 , -5 * SIZE(AO), %xmm1 , %xmm3
-	vfnmaddsd %xmm4 , -4 * SIZE(AO), %xmm1 , %xmm4
-	vfnmaddsd %xmm5 , -3 * SIZE(AO), %xmm1 , %xmm5
-	vfnmaddsd %xmm6 , -2 * SIZE(AO), %xmm1 , %xmm6
-	vfnmaddsd %xmm7 , -1 * SIZE(AO), %xmm1 , %xmm7
-
-	vmulsd		   2 * SIZE(AO), %xmm2 , %xmm2
-	vfnmaddsd %xmm3 ,  3 * SIZE(AO), %xmm2 , %xmm3
-	vfnmaddsd %xmm4 ,  4 * SIZE(AO), %xmm2 , %xmm4
-	vfnmaddsd %xmm5 ,  5 * SIZE(AO), %xmm2 , %xmm5
-	vfnmaddsd %xmm6 ,  6 * SIZE(AO), %xmm2 , %xmm6
-	vfnmaddsd %xmm7 ,  7 * SIZE(AO), %xmm2 , %xmm7
-
-	vmulsd		  11 * SIZE(AO), %xmm3 , %xmm3
-	vfnmaddsd %xmm4 , 12 * SIZE(AO), %xmm3 , %xmm4
-	vfnmaddsd %xmm5 , 13 * SIZE(AO), %xmm3 , %xmm5
-	vfnmaddsd %xmm6 , 14 * SIZE(AO), %xmm3 , %xmm6
-	vfnmaddsd %xmm7 , 15 * SIZE(AO), %xmm3 , %xmm7
-
-	vmulsd		  20 * SIZE(AO), %xmm4 , %xmm4
-	vfnmaddsd %xmm5 , 21 * SIZE(AO), %xmm4 , %xmm5
-	vfnmaddsd %xmm6 , 22 * SIZE(AO), %xmm4 , %xmm6
-	vfnmaddsd %xmm7 , 23 * SIZE(AO), %xmm4 , %xmm7
-
-	vmulsd		  29 * SIZE(AO), %xmm5 , %xmm5
-	vfnmaddsd %xmm6 , 30 * SIZE(AO), %xmm5 , %xmm6
-	vfnmaddsd %xmm7 , 31 * SIZE(AO), %xmm5 , %xmm7
-
-	vmulsd		  38 * SIZE(AO), %xmm6 , %xmm6
-	vfnmaddsd %xmm7 , 39 * SIZE(AO), %xmm6 , %xmm7
-
-	vmulsd		  47 * SIZE(AO), %xmm7 , %xmm7
-
-
-	vmovsd	%xmm0 ,  0 * SIZE(CO1)
-	vmovsd	%xmm1 ,  1 * SIZE(CO1)
-	vmovsd	%xmm2 ,  2 * SIZE(CO1)
-	vmovsd	%xmm3 ,  3 * SIZE(CO1)
-	vmovsd	%xmm4 ,  4 * SIZE(CO1)
-	vmovsd	%xmm5 ,  5 * SIZE(CO1)
-	vmovsd	%xmm6 ,  6 * SIZE(CO1)
-	vmovsd	%xmm7 ,  7 * SIZE(CO1)
-
-	vmovsd	%xmm0 , -16 * SIZE(BO)
-	vmovsd	%xmm1 , -15 * SIZE(BO)
-	vmovsd	%xmm2 , -14 * SIZE(BO)
-	vmovsd	%xmm3 , -13 * SIZE(BO)
-	vmovsd	%xmm4 , -12 * SIZE(BO)
-	vmovsd	%xmm5 , -11 * SIZE(BO)
-	vmovsd	%xmm6 , -10 * SIZE(BO)
-	vmovsd	%xmm7 ,  -9 * SIZE(BO)
-
-
-
-	addq	$8 * SIZE, CO1
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 8), AO
-	addq	%rax, BO
-
-	addq	$8, KK
-
-
-	decq	I			# i --
-	jg	.L91
-	ALIGN_4	
-
-/*****************************************************************************/
-.L90_A:
-	testq	$4, M
-	je	.L100
-
-.L91_A:
-	movq	B, BO
-
-	movapd	-16 * SIZE(AO), %xmm0
-	pxor	%xmm8, %xmm8
-	movapd	 -8 * SIZE(AO), %xmm2
-	pxor	%xmm9, %xmm9
-	movddup	-16 * SIZE(BO), %xmm1
-	pxor	%xmm10, %xmm10
-	movddup	-15 * SIZE(BO), %xmm5
-	pxor	%xmm11, %xmm11
-	movddup	-14 * SIZE(BO), %xmm3
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 4), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	NOBRANCH
-	je	.L96_A
-	ALIGN_4
-
-.L92_A:
-	mulpd	%xmm1, %xmm0
-	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
-	addpd	%xmm0, %xmm8
-	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
-	addpd	%xmm1, %xmm9
-	movddup	-12 * SIZE(BO, %rax, 1), %xmm1
-	mulpd	%xmm5, %xmm0
-	mulpd	-10 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm0, %xmm10
-	movapd	  (AO, %rax, 4), %xmm0
-	addpd	%xmm5, %xmm11
-	movddup	-13 * SIZE(BO, %rax, 1), %xmm5
-	mulpd	%xmm3, %xmm2
-	mulpd	 -6 * SIZE(AO, %rax, 4), %xmm3
-	addpd	%xmm2, %xmm8
-	movapd	 -4 * SIZE(AO, %rax, 4), %xmm2
-	addpd	%xmm3, %xmm9
-	movddup	-10 * SIZE(BO, %rax, 1), %xmm3
-	mulpd	%xmm5, %xmm2
-	mulpd	 -2 * SIZE(AO, %rax, 4), %xmm5
-	addpd	%xmm2, %xmm10
-	movapd	  8 * SIZE(AO, %rax, 4), %xmm2
-	addpd	%xmm5, %xmm11
-	movddup	-11 * SIZE(BO, %rax, 1), %xmm5
-
-	addq	$4 * SIZE, %rax
-	BRANCH
-	jl	.L92_A
-	ALIGN_4
-
-.L96_A:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L99_A
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 4), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	ALIGN_4
-
-.L97_A:
-	mulpd	%xmm1, %xmm0
-	mulpd	-14 * SIZE(AO, %rax, 4), %xmm1
-	addpd	%xmm0, %xmm8
-	movapd	-12 * SIZE(AO, %rax, 4), %xmm0
-	addpd	%xmm1, %xmm9
-	movddup	-15 * SIZE(BO, %rax, 1), %xmm1
-
-	addq	$SIZE, %rax
-	jl	.L97_A
-	ALIGN_4
-.L99_A:
-	addpd	%xmm10, %xmm8
-	addpd	%xmm11, %xmm9
-
-
-	movapd	-16 * SIZE(BO), %xmm10
-	movapd	-14 * SIZE(BO), %xmm11
-
-	subpd	%xmm8,  %xmm10
-	subpd	%xmm9,  %xmm11
-
-	movapd	%xmm10, %xmm8
-        unpckhpd %xmm8, %xmm8
-
-	movapd	%xmm11, %xmm9
-        unpckhpd %xmm9, %xmm9
-
-	movsd	-16 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm10
-
-	movsd	-15 * SIZE(AO), %xmm13
-	mulsd	 %xmm10, %xmm13
-	subsd	 %xmm13, %xmm8
-	movsd	-14 * SIZE(AO), %xmm14
-	mulsd	 %xmm10, %xmm14
-	subsd	 %xmm14, %xmm11
-	movsd	-13 * SIZE(AO), %xmm15
-	mulsd	 %xmm10, %xmm15
-	subsd	 %xmm15, %xmm9
-
-	movsd	-11 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm8
-
-	movsd	-10 * SIZE(AO), %xmm13
-	mulsd	 %xmm8, %xmm13
-	subsd	 %xmm13, %xmm11
-	movsd	 -9 * SIZE(AO), %xmm14
-	mulsd	 %xmm8, %xmm14
-	subsd	 %xmm14, %xmm9
-
-	movsd	 -6 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm11
-
-	movsd	 -5 * SIZE(AO), %xmm13
-	mulsd	 %xmm11, %xmm13
-	subsd	 %xmm13, %xmm9
-
-	movsd	 -1 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm9
-
-	unpcklpd %xmm8, %xmm10
-	unpcklpd %xmm9, %xmm11
-
-	movlpd	%xmm10,  0 * SIZE(CO1)
-	movhpd	%xmm10,  1 * SIZE(CO1)
-	movlpd	%xmm11,  2 * SIZE(CO1)
-	movhpd	%xmm11,  3 * SIZE(CO1)
-
-	movaps	%xmm10, -16 * SIZE(BO)
-	movaps	%xmm11, -14 * SIZE(BO)
-
-	addq	$4 * SIZE, CO1
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 4), AO
-	addq	%rax, BO
-
-	addq	$4, KK
-
-
-	ALIGN_4	
-
-/*************************************************************************************/
-.L100:
-	testq	$2, M
-	je	.L110
-
-
-
-	movq	B, BO
-
-	movddup	-16 * SIZE(BO), %xmm0
-	pxor	%xmm8, %xmm8
-	movddup	-15 * SIZE(BO), %xmm1
-	pxor	%xmm9, %xmm9
-	movddup	-14 * SIZE(BO), %xmm2
-	pxor	%xmm10, %xmm10
-	movddup	-13 * SIZE(BO), %xmm3
-	pxor	%xmm11, %xmm11
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 2), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	NOBRANCH
-	je	.L106
-	ALIGN_4
-
-.L102:
-	mulpd	-16 * SIZE(AO, %rax, 2), %xmm0
-	addpd	%xmm0, %xmm8
-	movddup	-12 * SIZE(BO, %rax, 1), %xmm0
-
-	mulpd	-14 * SIZE(AO, %rax, 2), %xmm1
-	addpd	%xmm1, %xmm9
-	movddup	-11 * SIZE(BO, %rax, 1), %xmm1
-
-	mulpd	-12 * SIZE(AO, %rax, 2), %xmm2
-	addpd	%xmm2, %xmm10
-	movddup	-10 * SIZE(BO, %rax, 1), %xmm2
-
-	mulpd	-10 * SIZE(AO, %rax, 2), %xmm3
-	addpd	%xmm3, %xmm11
-	movddup	 -9 * SIZE(BO, %rax, 1), %xmm3
-
-	addq	$4 * SIZE, %rax
-	BRANCH
-	jl	.L102
-	ALIGN_4
-
-.L106:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L109
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 2), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	ALIGN_4
-
-.L107:
-	movddup	-16 * SIZE(BO, %rax, 1), %xmm0
-	mulpd	-16 * SIZE(AO, %rax, 2), %xmm0
-	addpd	%xmm0, %xmm8
-
-	addq	$SIZE, %rax
-	jl	.L107
-	ALIGN_4
-
-.L109:
-	addpd	%xmm9, %xmm8
-	addpd	%xmm11, %xmm10
-	addpd	%xmm10, %xmm8
-
-
-	movapd	-16 * SIZE(BO), %xmm10
-	subpd	%xmm8,  %xmm10
-
-
-	movapd	%xmm10, %xmm8
-        unpckhpd %xmm8, %xmm8
-
-	movsd	-16 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm10
-
-	movsd	-15 * SIZE(AO), %xmm13
-	mulsd	 %xmm10, %xmm13
-	subsd	 %xmm13, %xmm8
-
-	movsd	-13 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm8
-
-	unpcklpd %xmm8, %xmm10
-
-	movlpd	%xmm10,  0 * SIZE(CO1)
-	movhpd	%xmm10,  1 * SIZE(CO1)
-
-	movaps	%xmm10, -16 * SIZE(BO)
-
-	addq	$2 * SIZE, CO1
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	leaq	(AO, %rax, 2), AO
-	addq	%rax, BO
-
-	addq	$2, KK
-
-	ALIGN_4	
-
-.L110:
-	testq	$1, M
-	je	.L119
-	ALIGN_4
-
-.L111:
-	movq	B, BO
-
-	movapd	-16 * SIZE(AO), %xmm0
-	pxor	%xmm8, %xmm8
-	movapd	-14 * SIZE(AO), %xmm1
-	pxor	%xmm9, %xmm9
-
-	movq	KK, %rax
-	andq	$-4, %rax
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 1), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	NOBRANCH
-	je	.L116
-	ALIGN_4
-
-.L112:
-	mulpd	-16 * SIZE(BO, %rax, 1), %xmm0
-	addpd	%xmm0, %xmm8
-	movapd	-12 * SIZE(AO, %rax, 1), %xmm0
-
-	mulpd	-14 * SIZE(BO, %rax, 1), %xmm1
-	addpd	%xmm1, %xmm9
-	movapd	-10 * SIZE(AO, %rax, 1), %xmm1
-
-	addq	$4 * SIZE, %rax
-	BRANCH
-	jl	.L112
-	ALIGN_4
-
-.L116:
-	movq	KK, %rax
-	andq	$3, %rax		# if (k & 1)
-	je .L118
-
-	leaq	(, %rax, SIZE), %rax
-	leaq	(AO, %rax, 1), AO
-	leaq	(BO, %rax, 1), BO
-	negq	%rax
-	ALIGN_4
-
-.L117:
-	mulsd	-16 * SIZE(BO, %rax, 1), %xmm0
-	addsd	%xmm0, %xmm8
-	movsd	-15 * SIZE(AO, %rax, 1), %xmm0
-
-	addq	$SIZE, %rax
-	jl	.L117
-	ALIGN_4
-
-.L118:
-	addpd	%xmm9, %xmm8
-	haddpd	%xmm8, %xmm8
-
-	movsd	-16 * SIZE(BO), %xmm10
-	subsd	%xmm8,  %xmm10
-
-	movsd	-16 * SIZE(AO), %xmm12
-	mulsd	 %xmm12, %xmm10
-
-	movsd	%xmm10,  0 * SIZE(CO1)
-
-	movlpd	%xmm10, -16 * SIZE(BO)
-
-	addq	$1 * SIZE, CO1
-
-	movq	K,  %rax
-	subq	KK, %rax
-	leaq	(,%rax, SIZE), %rax
-	addq	%rax, AO
-	addq	%rax, BO
-
-	addq	$1, KK
-
-	ALIGN_4	
-
-.L119:
-
-	movq	BO, B
-
-
-	ALIGN_4
-
-	
-.L999:
-	movq	   (%rsp), %rbx
-	movq	  8(%rsp), %rbp
-	movq	 16(%rsp), %r12
-	movq	 24(%rsp), %r13
-	movq	 32(%rsp), %r14
-	movq	 40(%rsp), %r15
-
-#ifdef WINDOWS_ABI
-	movq	 48(%rsp), %rdi
-	movq	 56(%rsp), %rsi
-	movups	 64(%rsp), %xmm6
-	movups	 80(%rsp), %xmm7
-	movups	 96(%rsp), %xmm8
-	movups	112(%rsp), %xmm9
-	movups	128(%rsp), %xmm10
-	movups	144(%rsp), %xmm11
-	movups	160(%rsp), %xmm12
-	movups	176(%rsp), %xmm13
-	movups	192(%rsp), %xmm14
-	movups	208(%rsp), %xmm15
-#endif
-
-	addq	$STACKSIZE, %rsp
-	ret
-
-	EPILOGUE

From 87fc9de572f6e383909c0e6282b45b6815a80257 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 4 Aug 2013 09:54:40 +0200
Subject: [PATCH 09/11] added dtrsm_kernel_LT_8x2_bulldozer.S

---
 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S | 1282 +++++++++++++++++
 1 file changed, 1282 insertions(+)
 create mode 100644 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S

diff --git a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
new file mode 100644
index 000000000..bc1553722
--- /dev/null
+++ b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
@@ -0,0 +1,1282 @@
+/*********************************************************************/
+/* Copyright 2009, 2010 The University of Texas at Austin.           */
+/* All rights reserved.                                              */
+/*                                                                   */
+/* Redistribution and use in source and binary forms, with or        */
+/* without modification, are permitted provided that the following   */
+/* conditions are met:                                               */
+/*                                                                   */
+/*   1. Redistributions of source code must retain the above         */
+/*      copyright notice, this list of conditions and the following  */
+/*      disclaimer.                                                  */
+/*                                                                   */
+/*   2. Redistributions in binary form must reproduce the above      */
+/*      copyright notice, this list of conditions and the following  */
+/*      disclaimer in the documentation and/or other materials       */
+/*      provided with the distribution.                              */
+/*                                                                   */
+/*    THIS  SOFTWARE IS PROVIDED  BY THE  UNIVERSITY OF  TEXAS AT    */
+/*    AUSTIN  ``AS IS''  AND ANY  EXPRESS OR  IMPLIED WARRANTIES,    */
+/*    INCLUDING, BUT  NOT LIMITED  TO, THE IMPLIED  WARRANTIES OF    */
+/*    MERCHANTABILITY  AND FITNESS FOR  A PARTICULAR  PURPOSE ARE    */
+/*    DISCLAIMED.  IN  NO EVENT SHALL THE UNIVERSITY  OF TEXAS AT    */
+/*    AUSTIN OR CONTRIBUTORS BE  LIABLE FOR ANY DIRECT, INDIRECT,    */
+/*    INCIDENTAL,  SPECIAL, EXEMPLARY,  OR  CONSEQUENTIAL DAMAGES    */
+/*    (INCLUDING, BUT  NOT LIMITED TO,  PROCUREMENT OF SUBSTITUTE    */
+/*    GOODS  OR  SERVICES; LOSS  OF  USE,  DATA,  OR PROFITS;  OR    */
+/*    BUSINESS INTERRUPTION) HOWEVER CAUSED  AND ON ANY THEORY OF    */
+/*    LIABILITY, WHETHER  IN CONTRACT, STRICT  LIABILITY, OR TORT    */
+/*    (INCLUDING NEGLIGENCE OR OTHERWISE)  ARISING IN ANY WAY OUT    */
+/*    OF  THE  USE OF  THIS  SOFTWARE,  EVEN  IF ADVISED  OF  THE    */
+/*    POSSIBILITY OF SUCH DAMAGE.                                    */
+/*                                                                   */
+/* The views and conclusions contained in the software and           */
+/* documentation are those of the authors and should not be          */
+/* interpreted as representing official policies, either expressed   */
+/* or implied, of The University of Texas at Austin.                 */
+/*********************************************************************/
+
+#define ASSEMBLER
+#include "common.h"
+ 
+#define OLD_M	%rdi
+#define OLD_N	%rsi
+#define M	%r13
+#define N	%r14
+#define K	%rdx
+
+#define A	%rcx
+#define B	%r8
+#define C	%r9
+#define LDC	%r10
+	
+#define I	%r11
+#define AO	%rdi
+#define BO	%rsi
+#define	CO1	%r15
+#define CO2	%r12
+#define BB	%rbp
+#define	J	%rbx
+
+#ifndef WINDOWS_ABI
+
+#define STACKSIZE 96
+
+#define OFFSET	 48(%rsp)
+#define AORIG	 56(%rsp)
+#define KK	 64(%rsp)
+#define KKK	 72(%rsp)
+
+#else
+
+#define STACKSIZE 256
+
+#define OLD_A		40 + STACKSIZE(%rsp)
+#define OLD_B		48 + STACKSIZE(%rsp)
+#define OLD_C		56 + STACKSIZE(%rsp)
+#define OLD_LDC		64 + STACKSIZE(%rsp)
+#define OLD_OFFSET	72 + STACKSIZE(%rsp)
+
+#define OFFSET	224(%rsp)
+#define AORIG	232(%rsp)
+#define KK	240(%rsp)
+#define KKK	248(%rsp)
+
+#endif
+
+#define PREFETCH     prefetch
+#define PREFETCHSIZE  (8 *  7 + 0)
+
+#define movlpd	vmovsd
+#define movapd	vmovups
+#define movupd	vmovups
+
+.macro KERNEL8x2_SUB
+	vmovddup	-16*SIZE(BO,%rax,2), %xmm1
+	vmovddup	-15*SIZE(BO,%rax,2), %xmm2
+	vmovups		-16*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vfmaddpd	%xmm9 , %xmm0 , %xmm2 , %xmm9
+	vmovups		-14*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
+	vfmaddpd	%xmm11, %xmm0 , %xmm2 , %xmm11
+	vmovups		-12*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm12, %xmm0 , %xmm1 , %xmm12
+	vfmaddpd	%xmm13, %xmm0 , %xmm2 , %xmm13
+	vmovups		-10*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm14, %xmm0 , %xmm1 , %xmm14
+	vfmaddpd	%xmm15, %xmm0 , %xmm2 , %xmm15
+	addq    $SIZE, %rax
+.endm
+
+.macro SOLVE_8x2
+
+        vmovups   %xmm8 , %xmm1
+        vunpcklpd %xmm9 , %xmm8 , %xmm8
+        vunpckhpd %xmm9 , %xmm1 , %xmm1
+
+	vmovups		-16 * SIZE(BO), %xmm0
+        vsubpd  	%xmm8 , %xmm0 , %xmm0
+	vmovups		-14 * SIZE(BO), %xmm8
+        vsubpd  	%xmm1 , %xmm8 , %xmm1
+
+        vmovups   %xmm10, %xmm3
+        vunpcklpd %xmm11, %xmm10 , %xmm10
+        vunpckhpd %xmm11, %xmm3  , %xmm3
+
+	vmovups		-12 * SIZE(BO), %xmm8
+	vmovups		-10 * SIZE(BO), %xmm9
+        vsubpd  	%xmm10, %xmm8 , %xmm2
+        vsubpd  	%xmm3 , %xmm9 , %xmm3
+
+        vmovups   %xmm12, %xmm5
+        vunpcklpd %xmm13, %xmm12 , %xmm12
+        vunpckhpd %xmm13, %xmm5  , %xmm5
+
+	vmovups		 -8 * SIZE(BO), %xmm8
+	vmovups		 -6 * SIZE(BO), %xmm9
+        vsubpd  	%xmm12, %xmm8 , %xmm4
+        vsubpd  	%xmm5 , %xmm9 , %xmm5
+
+        vmovups  %xmm14, %xmm7
+        vunpcklpd %xmm15, %xmm14 , %xmm14
+        vunpckhpd %xmm15, %xmm7  , %xmm7
+
+	vmovups		 -4 * SIZE(BO), %xmm8
+	vmovups		 -2 * SIZE(BO), %xmm9
+        vsubpd  	%xmm14, %xmm8 , %xmm6
+        vsubpd  	%xmm7 , %xmm9 , %xmm7
+
+	vmovddup        -16 * SIZE(AO), %xmm8
+        vmulpd                  %xmm0 , %xmm8 , %xmm0
+        vmovddup        -15 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm1 , %xmm0 , %xmm9 , %xmm1 
+        vmovddup        -14 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm2 , %xmm0 , %xmm10, %xmm2 
+        vmovddup        -13 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm0 , %xmm11, %xmm3 
+	vmovddup        -12 * SIZE(AO), %xmm8
+        vfnmaddpd       %xmm4 , %xmm0 , %xmm8 , %xmm4 
+        vmovddup        -11 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm0 , %xmm9 , %xmm5 
+        vmovddup        -10 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm0 , %xmm10, %xmm6 
+        vmovddup         -9 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm0 , %xmm11, %xmm7 
+
+	vmovddup         -7 * SIZE(AO), %xmm8
+	vmulpd                  %xmm1 , %xmm8 , %xmm1
+        vmovddup         -6 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm2 , %xmm1 , %xmm10, %xmm2 
+        vmovddup         -5 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm1 , %xmm11, %xmm3 
+	vmovddup         -4 * SIZE(AO), %xmm8
+        vfnmaddpd       %xmm4 , %xmm1 , %xmm8 , %xmm4 
+        vmovddup         -3 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm1 , %xmm9 , %xmm5 
+        vmovddup         -2 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm1 , %xmm10, %xmm6 
+        vmovddup         -1 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm1 , %xmm11, %xmm7 
+
+	vmovddup          2 * SIZE(AO), %xmm8
+	vmulpd                  %xmm2 , %xmm8 , %xmm2
+        vmovddup          3 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm2 , %xmm11, %xmm3 
+	vmovddup          4 * SIZE(AO), %xmm8
+        vfnmaddpd       %xmm4 , %xmm2 , %xmm8 , %xmm4 
+        vmovddup          5 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm2 , %xmm9 , %xmm5 
+        vmovddup          6 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm2 , %xmm10, %xmm6 
+        vmovddup          7 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm2 , %xmm11, %xmm7 
+
+	vmovddup         11 * SIZE(AO), %xmm8
+	vmulpd                  %xmm3 , %xmm8 , %xmm3
+        vmovddup         12 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm4 , %xmm3 , %xmm11, %xmm4 
+        vmovddup         13 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm3 , %xmm9 , %xmm5 
+        vmovddup         14 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm3 , %xmm10, %xmm6 
+        vmovddup         15 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm3 , %xmm11, %xmm7 
+
+	vmovddup         20 * SIZE(AO), %xmm8
+	vmulpd                  %xmm4 , %xmm8 , %xmm4
+        vmovddup         21 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm5 , %xmm4 , %xmm9 , %xmm5 
+        vmovddup         22 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm4 , %xmm10, %xmm6 
+        vmovddup         23 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm4 , %xmm11, %xmm7 
+
+	vmovddup         29 * SIZE(AO), %xmm8
+	vmulpd                  %xmm5 , %xmm8 , %xmm5
+        vmovddup         30 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm6 , %xmm5 , %xmm10, %xmm6 
+        vmovddup         31 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm5 , %xmm11, %xmm7 
+
+	vmovddup         38 * SIZE(AO), %xmm8
+	vmulpd                  %xmm6 , %xmm8 , %xmm6
+        vmovddup         39 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm7 , %xmm6 , %xmm11, %xmm7 
+
+	vmovddup         47 * SIZE(AO), %xmm8
+	vmulpd                  %xmm7 , %xmm8 , %xmm7
+
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+	vmovsd	%xmm2 ,  2 * SIZE(CO1)
+	vmovsd	%xmm3 ,  3 * SIZE(CO1)
+	vmovsd	%xmm4 ,  4 * SIZE(CO1)
+	vmovsd	%xmm5 ,  5 * SIZE(CO1)
+	vmovsd	%xmm6 ,  6 * SIZE(CO1)
+	vmovsd	%xmm7 ,  7 * SIZE(CO1)
+
+	vmovhpd	%xmm0 ,  0 * SIZE(CO2)
+	vmovhpd	%xmm1 ,  1 * SIZE(CO2)
+	vmovhpd	%xmm2 ,  2 * SIZE(CO2)
+	vmovhpd	%xmm3 ,  3 * SIZE(CO2)
+	vmovhpd	%xmm4 ,  4 * SIZE(CO2)
+	vmovhpd	%xmm5 ,  5 * SIZE(CO2)
+	vmovhpd	%xmm6 ,  6 * SIZE(CO2)
+	vmovhpd	%xmm7 ,  7 * SIZE(CO2)
+
+	vmovups	%xmm0 , -16 * SIZE(BO)
+	vmovups	%xmm1 , -14 * SIZE(BO)
+	vmovups	%xmm2 , -12 * SIZE(BO)
+	vmovups	%xmm3 , -10 * SIZE(BO)
+	vmovups	%xmm4 ,  -8 * SIZE(BO)
+	vmovups	%xmm5 ,  -6 * SIZE(BO)
+	vmovups	%xmm6 ,  -4 * SIZE(BO)
+	vmovups	%xmm7 ,  -2 * SIZE(BO)
+
+.endm
+
+
+
+.macro KERNEL4x2_SUB
+	vmovddup	-16*SIZE(BO,%rax,2), %xmm1
+	vmovddup	-15*SIZE(BO,%rax,2), %xmm2
+	vmovups		-16*SIZE(AO,%rax,4), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vfmaddpd	%xmm9 , %xmm0 , %xmm2 , %xmm9
+	vmovups		-14*SIZE(AO,%rax,4), %xmm0
+	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
+	vfmaddpd	%xmm11, %xmm0 , %xmm2 , %xmm11
+	addq    $SIZE, %rax
+.endm
+
+
+.macro SOLVE_4x2
+
+        vmovups   %xmm8 , %xmm1
+        vunpcklpd %xmm9 , %xmm8  , %xmm8
+        vunpckhpd %xmm9 , %xmm1  , %xmm1
+
+	vmovups		-16 * SIZE(BO), %xmm0
+        vsubpd  	%xmm8 , %xmm0 , %xmm0
+	vmovups		-14 * SIZE(BO), %xmm8
+        vsubpd  	%xmm1 , %xmm8 , %xmm1
+
+        vmovups  %xmm10, %xmm3
+        vunpcklpd %xmm11, %xmm10 , %xmm10
+        vunpckhpd %xmm11, %xmm3  , %xmm3
+
+	vmovups		-12 * SIZE(BO), %xmm8
+	vmovups		-10 * SIZE(BO), %xmm9
+        vsubpd  	%xmm10, %xmm8 , %xmm2
+        vsubpd  	%xmm3 , %xmm9 , %xmm3
+
+	vmovddup        -16 * SIZE(AO), %xmm8
+        vmulpd                  %xmm0 , %xmm8 , %xmm0
+        vmovddup        -15 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm1 , %xmm0 , %xmm9 , %xmm1 
+        vmovddup        -14 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm2 , %xmm0 , %xmm10, %xmm2 
+        vmovddup        -13 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm0 , %xmm11, %xmm3 
+
+	vmovddup        -11 * SIZE(AO), %xmm8
+	vmulpd                  %xmm1 , %xmm8 , %xmm1
+        vmovddup        -10 * SIZE(AO), %xmm10
+        vfnmaddpd       %xmm2 , %xmm1 , %xmm10, %xmm2 
+        vmovddup         -9 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm1 , %xmm11, %xmm3 
+
+	vmovddup         -6 * SIZE(AO), %xmm8
+	vmulpd                  %xmm2 , %xmm8 , %xmm2
+        vmovddup         -5 * SIZE(AO), %xmm11
+        vfnmaddpd       %xmm3 , %xmm2 , %xmm11, %xmm3 
+
+	vmovddup         -1 * SIZE(AO), %xmm8
+	vmulpd                  %xmm3 , %xmm8 , %xmm3
+
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+	vmovsd	%xmm2 ,  2 * SIZE(CO1)
+	vmovsd	%xmm3 ,  3 * SIZE(CO1)
+
+	vmovhpd	%xmm0 ,  0 * SIZE(CO2)
+	vmovhpd	%xmm1 ,  1 * SIZE(CO2)
+	vmovhpd	%xmm2 ,  2 * SIZE(CO2)
+	vmovhpd	%xmm3 ,  3 * SIZE(CO2)
+
+	vmovups	%xmm0 , -16 * SIZE(BO)
+	vmovups	%xmm1 , -14 * SIZE(BO)
+	vmovups	%xmm2 , -12 * SIZE(BO)
+	vmovups	%xmm3 , -10 * SIZE(BO)
+
+.endm
+
+
+
+.macro KERNEL2x2_SUB
+	vmovddup	-16*SIZE(BO,%rax,2), %xmm1
+	vmovddup	-15*SIZE(BO,%rax,2), %xmm2
+	vmovups		-16*SIZE(AO,%rax,2), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vfmaddpd	%xmm9 , %xmm0 , %xmm2 , %xmm9
+	addq    $SIZE, %rax
+.endm
+
+
+.macro SOLVE_2x2
+
+        vmovups   %xmm8 , %xmm1
+        vunpcklpd %xmm9 , %xmm8 , %xmm8
+        vunpckhpd %xmm9 , %xmm1 , %xmm1
+
+	vmovups		-16 * SIZE(BO), %xmm0
+        vsubpd  	%xmm8 , %xmm0 , %xmm0
+	vmovups		-14 * SIZE(BO), %xmm8
+        vsubpd  	%xmm1 , %xmm8 , %xmm1
+
+	vmovddup        -16 * SIZE(AO), %xmm8
+        vmulpd                  %xmm0 , %xmm8 , %xmm0
+        vmovddup        -15 * SIZE(AO), %xmm9
+        vfnmaddpd       %xmm1 , %xmm0 , %xmm9 , %xmm1 
+
+	vmovddup        -13 * SIZE(AO), %xmm8
+	vmulpd                  %xmm1 , %xmm8 , %xmm1
+
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+
+	vmovhpd	%xmm0 ,  0 * SIZE(CO2)
+	vmovhpd	%xmm1 ,  1 * SIZE(CO2)
+
+	vmovups	%xmm0 , -16 * SIZE(BO)
+	vmovups	%xmm1 , -14 * SIZE(BO)
+
+.endm
+
+
+
+.macro KERNEL1x2_SUB
+	vmovups 	-16*SIZE(BO,%rax,2), %xmm1
+	vmovddup	-16*SIZE(AO,%rax,1), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	addq    $SIZE, %rax
+.endm
+
+.macro SOLVE_1x2
+
+	vmovups		-16 * SIZE(BO), %xmm0
+        vsubpd  	%xmm8 , %xmm0 , %xmm0
+
+	vmovddup        -16 * SIZE(AO), %xmm8
+	vmulpd                  %xmm0 , %xmm8 , %xmm0
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+
+	vmovhpd	%xmm0 ,  0 * SIZE(CO2)
+
+	vmovups	%xmm0 , -16 * SIZE(BO)
+
+.endm
+
+
+/******************************************************************************************/
+
+
+.macro KERNEL8x1_SUB
+	vmovddup	-16*SIZE(BO,%rax,1), %xmm1
+	vmovups		-16*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vmovups		-14*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm9 , %xmm0 , %xmm1 , %xmm9
+	vmovups		-12*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
+	vmovups		-10*SIZE(AO,%rax,8), %xmm0
+	vfmaddpd	%xmm11, %xmm0 , %xmm1 , %xmm11
+	addq    $SIZE, %rax
+.endm
+
+.macro SOLVE_8x1
+
+	vmovups	-16 * SIZE(BO), %xmm1
+	vmovups	-14 * SIZE(BO), %xmm3
+	vmovups	-12 * SIZE(BO), %xmm5
+	vmovups	-10 * SIZE(BO), %xmm7
+
+	vsubpd	%xmm8 ,  %xmm1 , %xmm1
+	vsubpd	%xmm9 ,  %xmm3 , %xmm3
+	vsubpd	%xmm10,  %xmm5 , %xmm5
+	vsubpd	%xmm11,  %xmm7 , %xmm7
+
+	vmovups	  %xmm1 , %xmm0
+        vunpckhpd %xmm1 , %xmm1 , %xmm1
+
+	vmovups	  %xmm3 , %xmm2
+        vunpckhpd %xmm3 , %xmm3 , %xmm3
+
+	vmovups	  %xmm5 , %xmm4
+        vunpckhpd %xmm5 , %xmm5 , %xmm5
+
+	vmovups	  %xmm7 , %xmm6
+        vunpckhpd %xmm7 , %xmm7 , %xmm7
+
+	vmulsd		 -16 * SIZE(AO), %xmm0 , %xmm0
+	vfnmaddsd %xmm1 ,-15 * SIZE(AO), %xmm0 , %xmm1
+	vfnmaddsd %xmm2 ,-14 * SIZE(AO), %xmm0 , %xmm2
+	vfnmaddsd %xmm3 ,-13 * SIZE(AO), %xmm0 , %xmm3
+	vfnmaddsd %xmm4 ,-12 * SIZE(AO), %xmm0 , %xmm4
+	vfnmaddsd %xmm5 ,-11 * SIZE(AO), %xmm0 , %xmm5
+	vfnmaddsd %xmm6 ,-10 * SIZE(AO), %xmm0 , %xmm6
+	vfnmaddsd %xmm7 , -9 * SIZE(AO), %xmm0 , %xmm7
+
+	vmulsd		  -7 * SIZE(AO), %xmm1 , %xmm1
+	vfnmaddsd %xmm2 , -6 * SIZE(AO), %xmm1 , %xmm2
+	vfnmaddsd %xmm3 , -5 * SIZE(AO), %xmm1 , %xmm3
+	vfnmaddsd %xmm4 , -4 * SIZE(AO), %xmm1 , %xmm4
+	vfnmaddsd %xmm5 , -3 * SIZE(AO), %xmm1 , %xmm5
+	vfnmaddsd %xmm6 , -2 * SIZE(AO), %xmm1 , %xmm6
+	vfnmaddsd %xmm7 , -1 * SIZE(AO), %xmm1 , %xmm7
+
+	vmulsd		   2 * SIZE(AO), %xmm2 , %xmm2
+	vfnmaddsd %xmm3 ,  3 * SIZE(AO), %xmm2 , %xmm3
+	vfnmaddsd %xmm4 ,  4 * SIZE(AO), %xmm2 , %xmm4
+	vfnmaddsd %xmm5 ,  5 * SIZE(AO), %xmm2 , %xmm5
+	vfnmaddsd %xmm6 ,  6 * SIZE(AO), %xmm2 , %xmm6
+	vfnmaddsd %xmm7 ,  7 * SIZE(AO), %xmm2 , %xmm7
+
+	vmulsd		  11 * SIZE(AO), %xmm3 , %xmm3
+	vfnmaddsd %xmm4 , 12 * SIZE(AO), %xmm3 , %xmm4
+	vfnmaddsd %xmm5 , 13 * SIZE(AO), %xmm3 , %xmm5
+	vfnmaddsd %xmm6 , 14 * SIZE(AO), %xmm3 , %xmm6
+	vfnmaddsd %xmm7 , 15 * SIZE(AO), %xmm3 , %xmm7
+
+	vmulsd		  20 * SIZE(AO), %xmm4 , %xmm4
+	vfnmaddsd %xmm5 , 21 * SIZE(AO), %xmm4 , %xmm5
+	vfnmaddsd %xmm6 , 22 * SIZE(AO), %xmm4 , %xmm6
+	vfnmaddsd %xmm7 , 23 * SIZE(AO), %xmm4 , %xmm7
+
+	vmulsd		  29 * SIZE(AO), %xmm5 , %xmm5
+	vfnmaddsd %xmm6 , 30 * SIZE(AO), %xmm5 , %xmm6
+	vfnmaddsd %xmm7 , 31 * SIZE(AO), %xmm5 , %xmm7
+
+	vmulsd		  38 * SIZE(AO), %xmm6 , %xmm6
+	vfnmaddsd %xmm7 , 39 * SIZE(AO), %xmm6 , %xmm7
+
+	vmulsd		  47 * SIZE(AO), %xmm7 , %xmm7
+
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+	vmovsd	%xmm2 ,  2 * SIZE(CO1)
+	vmovsd	%xmm3 ,  3 * SIZE(CO1)
+	vmovsd	%xmm4 ,  4 * SIZE(CO1)
+	vmovsd	%xmm5 ,  5 * SIZE(CO1)
+	vmovsd	%xmm6 ,  6 * SIZE(CO1)
+	vmovsd	%xmm7 ,  7 * SIZE(CO1)
+
+	vmovsd	%xmm0 , -16 * SIZE(BO)
+	vmovsd	%xmm1 , -15 * SIZE(BO)
+	vmovsd	%xmm2 , -14 * SIZE(BO)
+	vmovsd	%xmm3 , -13 * SIZE(BO)
+	vmovsd	%xmm4 , -12 * SIZE(BO)
+	vmovsd	%xmm5 , -11 * SIZE(BO)
+	vmovsd	%xmm6 , -10 * SIZE(BO)
+	vmovsd	%xmm7 ,  -9 * SIZE(BO)
+
+.endm
+
+
+
+.macro KERNEL4x1_SUB
+	vmovddup	-16*SIZE(BO,%rax,1), %xmm1
+	vmovups		-16*SIZE(AO,%rax,4), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	vmovups		-14*SIZE(AO,%rax,4), %xmm0
+	vfmaddpd	%xmm9 , %xmm0 , %xmm1 , %xmm9
+	addq    $SIZE, %rax
+.endm
+
+
+.macro SOLVE_4x1
+
+	vmovups	-16 * SIZE(BO), %xmm1
+	vmovups	-14 * SIZE(BO), %xmm3
+
+	vsubpd	%xmm8 ,  %xmm1 , %xmm1
+	vsubpd	%xmm9 ,  %xmm3 , %xmm3
+
+	vmovups	  %xmm1 , %xmm0
+        vunpckhpd %xmm1 , %xmm1 , %xmm1
+
+	vmovups	  %xmm3 , %xmm2
+        vunpckhpd %xmm3 , %xmm3 , %xmm3
+
+	vmulsd		 -16 * SIZE(AO), %xmm0 , %xmm0
+	vfnmaddsd %xmm1 ,-15 * SIZE(AO), %xmm0 , %xmm1
+	vfnmaddsd %xmm2 ,-14 * SIZE(AO), %xmm0 , %xmm2
+	vfnmaddsd %xmm3 ,-13 * SIZE(AO), %xmm0 , %xmm3
+
+	vmulsd		 -11 * SIZE(AO), %xmm1 , %xmm1
+	vfnmaddsd %xmm2 ,-10 * SIZE(AO), %xmm1 , %xmm2
+	vfnmaddsd %xmm3 , -9 * SIZE(AO), %xmm1 , %xmm3
+
+	vmulsd		  -6 * SIZE(AO), %xmm2 , %xmm2
+	vfnmaddsd %xmm3 , -5 * SIZE(AO), %xmm2 , %xmm3
+
+	vmulsd		  -1 * SIZE(AO), %xmm3 , %xmm3
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+	vmovsd	%xmm2 ,  2 * SIZE(CO1)
+	vmovsd	%xmm3 ,  3 * SIZE(CO1)
+
+	vmovsd	%xmm0 , -16 * SIZE(BO)
+	vmovsd	%xmm1 , -15 * SIZE(BO)
+	vmovsd	%xmm2 , -14 * SIZE(BO)
+	vmovsd	%xmm3 , -13 * SIZE(BO)
+
+.endm
+
+
+
+.macro KERNEL2x1_SUB
+	vmovddup	-16*SIZE(BO,%rax,1), %xmm1
+	vmovups		-16*SIZE(AO,%rax,2), %xmm0
+	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	addq    $SIZE, %rax
+.endm
+
+
+.macro SOLVE_2x1
+
+	vmovups	-16 * SIZE(BO), %xmm1
+
+	vsubpd	%xmm8 ,  %xmm1 , %xmm1
+
+	vmovups	  %xmm1 , %xmm0
+        vunpckhpd %xmm1 , %xmm1 , %xmm1
+
+	vmulsd		 -16 * SIZE(AO), %xmm0 , %xmm0
+	vfnmaddsd %xmm1 ,-15 * SIZE(AO), %xmm0 , %xmm1
+
+	vmulsd		 -13 * SIZE(AO), %xmm1 , %xmm1
+
+	vmovsd	%xmm0 ,  0 * SIZE(CO1)
+	vmovsd	%xmm1 ,  1 * SIZE(CO1)
+
+	vmovsd	%xmm0 , -16 * SIZE(BO)
+	vmovsd	%xmm1 , -15 * SIZE(BO)
+
+.endm
+
+
+
+.macro KERNEL1x1_SUB
+	vmovsd  	-16*SIZE(BO,%rax,1), %xmm1
+	vmovsd 		-16*SIZE(AO,%rax,1), %xmm0
+	vfmaddsd	%xmm8 , %xmm0 , %xmm1 , %xmm8
+	addq    $SIZE, %rax
+.endm
+
+.macro SOLVE_1x1
+
+	vmovsd	-16 * SIZE(BO), %xmm1
+
+	vsubsd	%xmm8 ,  %xmm1 , %xmm1
+
+	vmulsd		 -16 * SIZE(AO), %xmm1 , %xmm1
+
+	vmovsd	%xmm1 ,  0 * SIZE(CO1)
+
+	vmovsd	%xmm1 , -16 * SIZE(BO)
+.endm
+
+
+
+
+
+/***************************************************************************************************************/
+
+
+	PROLOGUE
+	PROFCODE
+	
+	subq	$STACKSIZE, %rsp
+	movq	%rbx,   (%rsp)
+	movq	%rbp,  8(%rsp)
+	movq	%r12, 16(%rsp)
+	movq	%r13, 24(%rsp)
+	movq	%r14, 32(%rsp)
+	movq	%r15, 40(%rsp)
+
+#ifdef WINDOWS_ABI
+	movq	%rdi,    48(%rsp)
+	movq	%rsi,    56(%rsp)
+	movups	%xmm6,   64(%rsp)
+	movups	%xmm7,   80(%rsp)
+	movups	%xmm8,   96(%rsp)
+	movups	%xmm9,  112(%rsp)
+	movups	%xmm10, 128(%rsp)
+	movups	%xmm11, 144(%rsp)
+	movups	%xmm12, 160(%rsp)
+	movups	%xmm13, 176(%rsp)
+	movups	%xmm14, 192(%rsp)
+	movups	%xmm15, 208(%rsp)
+
+	movq	ARG1,      OLD_M
+	movq	ARG2,      OLD_N
+	movq	ARG3,      K
+	movq	OLD_A,     A
+	movq	OLD_B,     B
+	movq	OLD_C,     C
+	movq	OLD_LDC,   LDC
+	movsd	OLD_OFFSET, %xmm12
+#else
+	movq	STACKSIZE +  8(%rsp), LDC
+	movsd	STACKSIZE + 16(%rsp), %xmm12
+#endif
+
+	movq	OLD_M, M
+	movq	OLD_N, N
+
+	subq	$-16 * SIZE, A
+	subq	$-16 * SIZE, B
+
+	movsd	%xmm12, OFFSET
+	movsd	%xmm12, KK
+
+	leaq	(, LDC, SIZE), LDC
+
+
+	movq	N,  J
+	sarq	$1, J		# j = (n >> 1)
+	jle	.L80
+	ALIGN_4
+
+.L01:
+
+	movq	A, AO
+
+	movq	C, CO1			# coffset1 = c
+	leaq	(C, LDC, 1), CO2	# coffset2 = c + ldc
+	leaq    (C, LDC, 2), C
+
+	movq	OFFSET, %rax
+	movq	%rax, KK
+
+	movq	M,  I
+	sarq	$3, I	# i = (m >> 3)
+	jle	.L50_A
+	ALIGN_4
+/*********************************************************************************/
+.L51:
+
+	movq	B, BO
+
+	vxorpd	%xmm8 , %xmm8 , %xmm8
+	vxorpd	%xmm9 , %xmm9 , %xmm9
+	vxorpd	%xmm10, %xmm10, %xmm10
+	vxorpd	%xmm11, %xmm11, %xmm11
+	vxorpd	%xmm12, %xmm12, %xmm12
+	vxorpd	%xmm13, %xmm13, %xmm13
+	vxorpd	%xmm14, %xmm14, %xmm14
+	vxorpd	%xmm15, %xmm15, %xmm15
+
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L56
+	ALIGN_4
+
+.L52:
+	KERNEL8x2_SUB
+	KERNEL8x2_SUB
+	KERNEL8x2_SUB
+	KERNEL8x2_SUB
+
+	jl	.L52
+	ALIGN_4
+
+.L56:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L59
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L57:
+	KERNEL8x2_SUB
+
+	jl	.L57
+	ALIGN_4
+
+.L59:
+
+	SOLVE_8x2
+
+	addq	$8 * SIZE, CO1
+	addq	$8 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$8, KK
+
+	decq	I			# i --
+	jg	.L51
+	ALIGN_4	
+
+/*********************************************************************************/
+
+.L50_A:
+	testq	$4, M
+	je	.L60
+
+.L51_A:
+
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+	pxor	%xmm9, %xmm9
+	pxor	%xmm10, %xmm10
+	pxor	%xmm11, %xmm11
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L56_A
+	ALIGN_4
+
+.L52_A:
+
+	KERNEL4x2_SUB
+	KERNEL4x2_SUB
+	KERNEL4x2_SUB
+	KERNEL4x2_SUB
+
+	jl	.L52_A
+	ALIGN_4
+
+.L56_A:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L59_A
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L57_A:
+
+	KERNEL4x2_SUB
+
+	jl	.L57_A
+	ALIGN_4
+
+.L59_A:
+
+	SOLVE_4x2
+
+	addq	$4 * SIZE, CO1
+	addq	$4 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$4, KK
+
+	ALIGN_4	
+
+/*********************************************************************************/
+
+
+.L60:
+	testq	$2, M
+	je	.L70
+
+.L61:
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+	pxor	%xmm9, %xmm9
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L66
+	ALIGN_4
+
+.L62:
+
+	KERNEL2x2_SUB
+	KERNEL2x2_SUB
+	KERNEL2x2_SUB
+	KERNEL2x2_SUB
+
+	jl	.L62
+	ALIGN_4
+
+.L66:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L69
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L67:
+
+	KERNEL2x2_SUB
+
+	jl	.L67
+	ALIGN_4
+
+.L69:
+
+	SOLVE_2x2
+
+	addq	$2 * SIZE, CO1
+	addq	$2 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$2, KK
+
+	ALIGN_4	
+/********************************************************************************/
+.L70:
+	testq	$1, M
+	je	.L79
+	ALIGN_4
+
+.L71:
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	NOBRANCH
+	je	.L76
+	ALIGN_4
+
+.L72:
+
+	KERNEL1x2_SUB
+	KERNEL1x2_SUB
+	KERNEL1x2_SUB
+	KERNEL1x2_SUB
+
+	jl	.L72
+	ALIGN_4
+
+.L76:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L78
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 2), BO
+	negq	%rax
+	ALIGN_4
+
+.L77:
+
+	KERNEL1x2_SUB
+
+	jl	.L77
+	ALIGN_4
+
+.L78:
+
+	SOLVE_1x2
+
+	addq	$1 * SIZE, CO1
+	addq	$1 * SIZE, CO2
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 2), BO
+
+	addq	$1, KK
+
+	ALIGN_4	
+	
+.L79:
+
+	movq	BO, B
+
+	decq	J			# j --
+	jg	.L01
+	ALIGN_4
+/***************************************************************************************/
+.L80:
+	testq	$1, N
+	je	.L999
+
+	movq	A, AO
+	movq	C, CO1			# coffset1 = c
+
+	movq	OFFSET, %rax
+	movq	%rax, KK
+
+	movq	M,  I
+	sarq	$3, I	# i = (m >> 3)
+	jle	.L90_A
+	ALIGN_4
+/*************************************************************************************/
+.L91:
+
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+	pxor	%xmm9, %xmm9
+	pxor	%xmm10, %xmm10
+	pxor	%xmm11, %xmm11
+
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L96
+	ALIGN_4
+
+.L92:
+	KERNEL8x1_SUB
+	KERNEL8x1_SUB
+	KERNEL8x1_SUB
+	KERNEL8x1_SUB
+
+	jl	.L92
+	ALIGN_4
+
+.L96:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L99
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L97:
+	KERNEL8x1_SUB
+
+	jl	.L97
+	ALIGN_4
+.L99:
+
+	SOLVE_8x1
+
+	addq	$8 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 8), AO
+	addq	%rax, BO
+
+	addq	$8, KK
+
+
+	decq	I			# i --
+	jg	.L91
+	ALIGN_4	
+
+/*****************************************************************************/
+.L90_A:
+	testq	$4, M
+	je	.L100
+
+.L91_A:
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+	pxor	%xmm9, %xmm9
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L96_A
+	ALIGN_4
+
+.L92_A:
+
+	KERNEL4x1_SUB
+	KERNEL4x1_SUB
+	KERNEL4x1_SUB
+	KERNEL4x1_SUB
+
+	jl	.L92_A
+	ALIGN_4
+
+.L96_A:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L99_A
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L97_A:
+
+	KERNEL4x1_SUB
+
+	jl	.L97_A
+	ALIGN_4
+.L99_A:
+
+	SOLVE_4x1
+
+	addq	$4 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 4), AO
+	addq	%rax, BO
+
+	addq	$4, KK
+
+
+	ALIGN_4	
+
+/*************************************************************************************/
+.L100:
+	testq	$2, M
+	je	.L110
+
+
+
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L106
+	ALIGN_4
+
+.L102:
+
+	KERNEL2x1_SUB
+	KERNEL2x1_SUB
+	KERNEL2x1_SUB
+	KERNEL2x1_SUB
+
+	jl	.L102
+	ALIGN_4
+
+.L106:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L109
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L107:
+
+	KERNEL2x1_SUB
+
+	jl	.L107
+	ALIGN_4
+
+.L109:
+
+	SOLVE_2x1
+
+	addq	$2 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	leaq	(AO, %rax, 2), AO
+	addq	%rax, BO
+
+	addq	$2, KK
+
+	ALIGN_4	
+
+.L110:
+	testq	$1, M
+	je	.L119
+	ALIGN_4
+
+.L111:
+	movq	B, BO
+
+	pxor	%xmm8, %xmm8
+
+	movq	KK, %rax
+	andq	$-4, %rax
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	NOBRANCH
+	je	.L116
+	ALIGN_4
+
+.L112:
+
+	KERNEL1x1_SUB
+	KERNEL1x1_SUB
+	KERNEL1x1_SUB
+	KERNEL1x1_SUB
+
+	jl	.L112
+	ALIGN_4
+
+.L116:
+	movq	KK, %rax
+	andq	$3, %rax		# if (k & 1)
+	je .L118
+
+	leaq	(, %rax, SIZE), %rax
+	leaq	(AO, %rax, 1), AO
+	leaq	(BO, %rax, 1), BO
+	negq	%rax
+	ALIGN_4
+
+.L117:
+
+	KERNEL1x1_SUB
+
+	jl	.L117
+	ALIGN_4
+
+.L118:
+
+	SOLVE_1x1
+
+	addq	$1 * SIZE, CO1
+
+	movq	K,  %rax
+	subq	KK, %rax
+	leaq	(,%rax, SIZE), %rax
+	addq	%rax, AO
+	addq	%rax, BO
+
+	addq	$1, KK
+
+	ALIGN_4	
+
+.L119:
+
+	movq	BO, B
+
+
+	ALIGN_4
+
+	
+.L999:
+	movq	   (%rsp), %rbx
+	movq	  8(%rsp), %rbp
+	movq	 16(%rsp), %r12
+	movq	 24(%rsp), %r13
+	movq	 32(%rsp), %r14
+	movq	 40(%rsp), %r15
+
+#ifdef WINDOWS_ABI
+	movq	 48(%rsp), %rdi
+	movq	 56(%rsp), %rsi
+	movups	 64(%rsp), %xmm6
+	movups	 80(%rsp), %xmm7
+	movups	 96(%rsp), %xmm8
+	movups	112(%rsp), %xmm9
+	movups	128(%rsp), %xmm10
+	movups	144(%rsp), %xmm11
+	movups	160(%rsp), %xmm12
+	movups	176(%rsp), %xmm13
+	movups	192(%rsp), %xmm14
+	movups	208(%rsp), %xmm15
+#endif
+
+	addq	$STACKSIZE, %rsp
+	ret
+
+	EPILOGUE

From 8aeec32ea05ea16c9c95c522ef9068729541e213 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 4 Aug 2013 10:15:33 +0200
Subject: [PATCH 10/11] modified dtrsm_kernel_LT_8x2_bulldozer.S

---
 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S | 24 +++++++------------
 1 file changed, 9 insertions(+), 15 deletions(-)

diff --git a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
index bc1553722..e9b3665c1 100644
--- a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
+++ b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
@@ -84,12 +84,6 @@
 
 #endif
 
-#define PREFETCH     prefetch
-#define PREFETCHSIZE  (8 *  7 + 0)
-
-#define movlpd	vmovsd
-#define movapd	vmovups
-#define movupd	vmovups
 
 .macro KERNEL8x2_SUB
 	vmovddup	-16*SIZE(BO,%rax,2), %xmm1
@@ -97,15 +91,15 @@
 	vmovups		-16*SIZE(AO,%rax,8), %xmm0
 	vfmaddpd	%xmm8 , %xmm0 , %xmm1 , %xmm8
 	vfmaddpd	%xmm9 , %xmm0 , %xmm2 , %xmm9
-	vmovups		-14*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm10, %xmm0 , %xmm1 , %xmm10
-	vfmaddpd	%xmm11, %xmm0 , %xmm2 , %xmm11
-	vmovups		-12*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm12, %xmm0 , %xmm1 , %xmm12
-	vfmaddpd	%xmm13, %xmm0 , %xmm2 , %xmm13
-	vmovups		-10*SIZE(AO,%rax,8), %xmm0
-	vfmaddpd	%xmm14, %xmm0 , %xmm1 , %xmm14
-	vfmaddpd	%xmm15, %xmm0 , %xmm2 , %xmm15
+	vmovups		-14*SIZE(AO,%rax,8), %xmm4
+	vfmaddpd	%xmm10, %xmm4 , %xmm1 , %xmm10
+	vfmaddpd	%xmm11, %xmm4 , %xmm2 , %xmm11
+	vmovups		-12*SIZE(AO,%rax,8), %xmm5
+	vfmaddpd	%xmm12, %xmm5 , %xmm1 , %xmm12
+	vfmaddpd	%xmm13, %xmm5 , %xmm2 , %xmm13
+	vmovups		-10*SIZE(AO,%rax,8), %xmm6
+	vfmaddpd	%xmm14, %xmm6 , %xmm1 , %xmm14
+	vfmaddpd	%xmm15, %xmm6 , %xmm2 , %xmm15
 	addq    $SIZE, %rax
 .endm
 

From aaeb8eaecde7b00915dbe7c89458d44765dffe30 Mon Sep 17 00:00:00 2001
From: wernsaar <wernsaar@googlemail.com>
Date: Sun, 4 Aug 2013 12:16:12 +0200
Subject: [PATCH 11/11] modified dtrsm_kernel_LT_8x2_bulldozer.S

---
 kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S | 49 +++++++++----------
 1 file changed, 23 insertions(+), 26 deletions(-)

diff --git a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
index e9b3665c1..12bca72b2 100644
--- a/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
+++ b/kernel/x86_64/dtrsm_kernel_LT_8x2_bulldozer.S
@@ -310,7 +310,6 @@
 	vmovddup         -1 * SIZE(AO), %xmm8
 	vmulpd                  %xmm3 , %xmm8 , %xmm3
 
-
 	vmovsd	%xmm0 ,  0 * SIZE(CO1)
 	vmovsd	%xmm1 ,  1 * SIZE(CO1)
 	vmovsd	%xmm2 ,  2 * SIZE(CO1)
@@ -359,7 +358,6 @@
 	vmovddup        -13 * SIZE(AO), %xmm8
 	vmulpd                  %xmm1 , %xmm8 , %xmm1
 
-
 	vmovsd	%xmm0 ,  0 * SIZE(CO1)
 	vmovsd	%xmm1 ,  1 * SIZE(CO1)
 
@@ -481,7 +479,6 @@
 
 	vmulsd		  47 * SIZE(AO), %xmm7 , %xmm7
 
-
 	vmovsd	%xmm0 ,  0 * SIZE(CO1)
 	vmovsd	%xmm1 ,  1 * SIZE(CO1)
 	vmovsd	%xmm2 ,  2 * SIZE(CO1)
@@ -706,7 +703,7 @@
 	leaq	(AO, %rax, 8), AO
 	leaq	(BO, %rax, 2), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L56
 	ALIGN_4
 
@@ -765,10 +762,10 @@
 
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
-	pxor	%xmm9, %xmm9
-	pxor	%xmm10, %xmm10
-	pxor	%xmm11, %xmm11
+	vxorpd	%xmm8 , %xmm8 , %xmm8
+	vxorpd	%xmm9 , %xmm9 , %xmm9
+	vxorpd	%xmm10, %xmm10, %xmm10
+	vxorpd	%xmm11, %xmm11, %xmm11
 
 	movq	KK, %rax
 	andq	$-4, %rax
@@ -776,7 +773,7 @@
 	leaq	(AO, %rax, 4), AO
 	leaq	(BO, %rax, 2), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L56_A
 	ALIGN_4
 
@@ -835,8 +832,8 @@
 .L61:
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
-	pxor	%xmm9, %xmm9
+	vxorpd	%xmm8, %xmm8 , %xmm8
+	vxorpd	%xmm9, %xmm9 , %xmm9
 
 	movq	KK, %rax
 	andq	$-4, %rax
@@ -844,7 +841,7 @@
 	leaq	(AO, %rax, 2), AO
 	leaq	(BO, %rax, 2), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L66
 	ALIGN_4
 
@@ -901,7 +898,7 @@
 .L71:
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
+	vxorpd	%xmm8, %xmm8 , %xmm8
 
 	movq	KK, %rax
 	andq	$-4, %rax
@@ -909,7 +906,7 @@
 	leaq	(AO, %rax, 1), AO
 	leaq	(BO, %rax, 2), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L76
 	ALIGN_4
 
@@ -985,10 +982,10 @@
 
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
-	pxor	%xmm9, %xmm9
-	pxor	%xmm10, %xmm10
-	pxor	%xmm11, %xmm11
+	vxorpd	%xmm8, %xmm8  , %xmm8
+	vxorpd	%xmm9, %xmm9  , %xmm9
+	vxorpd	%xmm10, %xmm10, %xmm10
+	vxorpd	%xmm11, %xmm11, %xmm11
 
 
 	movq	KK, %rax
@@ -997,7 +994,7 @@
 	leaq	(AO, %rax, 8), AO
 	leaq	(BO, %rax, 1), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L96
 	ALIGN_4
 
@@ -1053,8 +1050,8 @@
 .L91_A:
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
-	pxor	%xmm9, %xmm9
+	vxorpd	%xmm8, %xmm8 , %xmm8
+	vxorpd	%xmm9, %xmm9 , %xmm9
 
 	movq	KK, %rax
 	andq	$-4, %rax
@@ -1062,7 +1059,7 @@
 	leaq	(AO, %rax, 4), AO
 	leaq	(BO, %rax, 1), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L96_A
 	ALIGN_4
 
@@ -1119,7 +1116,7 @@
 
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
+	vxorpd	%xmm8, %xmm8 , %xmm8
 
 	movq	KK, %rax
 	andq	$-4, %rax
@@ -1127,7 +1124,7 @@
 	leaq	(AO, %rax, 2), AO
 	leaq	(BO, %rax, 1), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L106
 	ALIGN_4
 
@@ -1183,7 +1180,7 @@
 .L111:
 	movq	B, BO
 
-	pxor	%xmm8, %xmm8
+	vxorpd	%xmm8, %xmm8 , %xmm8
 
 	movq	KK, %rax
 	andq	$-4, %rax
@@ -1191,7 +1188,7 @@
 	leaq	(AO, %rax, 1), AO
 	leaq	(BO, %rax, 1), BO
 	negq	%rax
-	NOBRANCH
+
 	je	.L116
 	ALIGN_4