From 7af8a5445d0cd3750521d57c7495c977e6f1dc2c Mon Sep 17 00:00:00 2001 From: Arjan van de Ven Date: Sun, 5 Aug 2018 18:28:47 +0000 Subject: [PATCH] saxpy_haswell: Go to a more compact intrinsics notation --- kernel/x86_64/saxpy_microk_haswell-2.c | 40 ++++++-------------------- 1 file changed, 8 insertions(+), 32 deletions(-) diff --git a/kernel/x86_64/saxpy_microk_haswell-2.c b/kernel/x86_64/saxpy_microk_haswell-2.c index bf5099b70..0f6587367 100644 --- a/kernel/x86_64/saxpy_microk_haswell-2.c +++ b/kernel/x86_64/saxpy_microk_haswell-2.c @@ -52,43 +52,19 @@ static void saxpy_kernel_16( BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *alpha) n64 = n & ~63; for (; i < n64; i+= 64) { - __m512 y0, y16, y32, y48; - - y0 = _mm512_loadu_ps(&y[i + 0]); - y16 = _mm512_loadu_ps(&y[i + 16]); - y32 = _mm512_loadu_ps(&y[i + 32]); - y48 = _mm512_loadu_ps(&y[i + 48]); - - y0 += __alpha5 * _mm512_loadu_ps(&x[i + 0]); - y16 += __alpha5 * _mm512_loadu_ps(&x[i + 16]); - y32 += __alpha5 * _mm512_loadu_ps(&x[i + 32]); - y48 += __alpha5 * _mm512_loadu_ps(&x[i + 48]); - - _mm512_storeu_ps(&y[i + 0], y0); - _mm512_storeu_ps(&y[i + 16], y16); - _mm512_storeu_ps(&y[i + 32], y32); - _mm512_storeu_ps(&y[i + 48], y48); + _mm512_storeu_ps(&y[i + 0], _mm512_loadu_ps(&y[i + 0]) + __alpha5 * _mm512_loadu_ps(&x[i + 0])); + _mm512_storeu_ps(&y[i + 16], _mm512_loadu_ps(&y[i + 16]) + __alpha5 * _mm512_loadu_ps(&x[i + 16])); + _mm512_storeu_ps(&y[i + 32], _mm512_loadu_ps(&y[i + 32]) + __alpha5 * _mm512_loadu_ps(&x[i + 32])); + _mm512_storeu_ps(&y[i + 48], _mm512_loadu_ps(&y[i + 48]) + __alpha5 * _mm512_loadu_ps(&x[i + 48])); } #endif for (; i < n; i+= 32) { - __m256 y0, y8, y16, y24; - - y0 = _mm256_loadu_ps(&y[i + 0]); - y8 = _mm256_loadu_ps(&y[i + 8]); - y16 = _mm256_loadu_ps(&y[i + 16]); - y24 = _mm256_loadu_ps(&y[i + 24]); - - y0 += __alpha * _mm256_loadu_ps(&x[i + 0]); - y8 += __alpha * _mm256_loadu_ps(&x[i + 8]); - y16 += __alpha * _mm256_loadu_ps(&x[i + 16]); - y24 += __alpha * _mm256_loadu_ps(&x[i + 24]); - - _mm256_storeu_ps(&y[i + 0], y0); - _mm256_storeu_ps(&y[i + 8], y8); - _mm256_storeu_ps(&y[i + 16], y16); - _mm256_storeu_ps(&y[i + 24], y24); + _mm256_storeu_ps(&y[i + 0], _mm256_loadu_ps(&y[i + 0]) + __alpha * _mm256_loadu_ps(&x[i + 0])); + _mm256_storeu_ps(&y[i + 8], _mm256_loadu_ps(&y[i + 8]) + __alpha * _mm256_loadu_ps(&x[i + 8])); + _mm256_storeu_ps(&y[i + 16], _mm256_loadu_ps(&y[i + 16]) + __alpha * _mm256_loadu_ps(&x[i + 16])); + _mm256_storeu_ps(&y[i + 24], _mm256_loadu_ps(&y[i + 24]) + __alpha * _mm256_loadu_ps(&x[i + 24])); } } #endif