diff --git a/lapack-netlib/SRC/clatrs3.f b/lapack-netlib/SRC/clatrs3.f
new file mode 100644
index 000000000..a902f1ed0
--- /dev/null
+++ b/lapack-netlib/SRC/clatrs3.f
@@ -0,0 +1,666 @@
+*> \brief \b CLATRS3 solves a triangular system of equations with the scale factors set to prevent overflow.
+*
+*  Definition:
+*  ===========
+*
+*      SUBROUTINE CLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+*                          X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+*
+*       .. Scalar Arguments ..
+*       CHARACTER          DIAG, NORMIN, TRANS, UPLO
+*       INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*       ..
+*       .. Array Arguments ..
+*       REAL               CNORM( * ), SCALE( * ), WORK( * )
+*       COMPLEX            A( LDA, * ), X( LDX, * )
+*       ..
+*
+*
+*> \par Purpose:
+*  =============
+*>
+*> \verbatim
+*>
+*> CLATRS3 solves one of the triangular systems
+*>
+*>    A * X = B * diag(scale),  A**T * X = B * diag(scale), or
+*>    A**H * X = B * diag(scale)
+*>
+*> with scaling to prevent overflow.  Here A is an upper or lower
+*> triangular matrix, A**T denotes the transpose of A, A**H denotes the
+*> conjugate transpose of A. X and B are n-by-nrhs matrices and scale
+*> is an nrhs-element vector of scaling factors. A scaling factor scale(j)
+*> is usually less than or equal to 1, chosen such that X(:,j) is less
+*> than the overflow threshold. If the matrix A is singular (A(j,j) = 0
+*> for some j), then a non-trivial solution to A*X = 0 is returned. If
+*> the system is so badly scaled that the solution cannot be represented
+*> as (1/scale(k))*X(:,k), then x(:,k) = 0 and scale(k) is returned.
+*>
+*> This is a BLAS-3 version of LATRS for solving several right
+*> hand sides simultaneously.
+*>
+*> \endverbatim
+*
+*  Arguments:
+*  ==========
+*
+*> \param[in] UPLO
+*> \verbatim
+*>          UPLO is CHARACTER*1
+*>          Specifies whether the matrix A is upper or lower triangular.
+*>          = 'U':  Upper triangular
+*>          = 'L':  Lower triangular
+*> \endverbatim
+*>
+*> \param[in] TRANS
+*> \verbatim
+*>          TRANS is CHARACTER*1
+*>          Specifies the operation applied to A.
+*>          = 'N':  Solve A * x = s*b  (No transpose)
+*>          = 'T':  Solve A**T* x = s*b  (Transpose)
+*>          = 'C':  Solve A**T* x = s*b  (Conjugate transpose)
+*> \endverbatim
+*>
+*> \param[in] DIAG
+*> \verbatim
+*>          DIAG is CHARACTER*1
+*>          Specifies whether or not the matrix A is unit triangular.
+*>          = 'N':  Non-unit triangular
+*>          = 'U':  Unit triangular
+*> \endverbatim
+*>
+*> \param[in] NORMIN
+*> \verbatim
+*>          NORMIN is CHARACTER*1
+*>          Specifies whether CNORM has been set or not.
+*>          = 'Y':  CNORM contains the column norms on entry
+*>          = 'N':  CNORM is not set on entry.  On exit, the norms will
+*>                  be computed and stored in CNORM.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix A.  N >= 0.
+*> \endverbatim
+*>
+*> \param[in] NRHS
+*> \verbatim
+*>          NRHS is INTEGER
+*>          The number of columns of X.  NRHS >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is COMPLEX array, dimension (LDA,N)
+*>          The triangular matrix A.  If UPLO = 'U', the leading n by n
+*>          upper triangular part of the array A contains the upper
+*>          triangular matrix, and the strictly lower triangular part of
+*>          A is not referenced.  If UPLO = 'L', the leading n by n lower
+*>          triangular part of the array A contains the lower triangular
+*>          matrix, and the strictly upper triangular part of A is not
+*>          referenced.  If DIAG = 'U', the diagonal elements of A are
+*>          also not referenced and are assumed to be 1.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A.  LDA >= max (1,N).
+*> \endverbatim
+*>
+*> \param[in,out] X
+*> \verbatim
+*>          X is COMPLEX array, dimension (LDX,NRHS)
+*>          On entry, the right hand side B of the triangular system.
+*>          On exit, X is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDX
+*> \verbatim
+*>          LDX is INTEGER
+*>          The leading dimension of the array X.  LDX >= max (1,N).
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is REAL array, dimension (NRHS)
+*>          The scaling factor s(k) is for the triangular system
+*>          A * x(:,k) = s(k)*b(:,k)  or  A**T* x(:,k) = s(k)*b(:,k).
+*>          If SCALE = 0, the matrix A is singular or badly scaled.
+*>          If A(j,j) = 0 is encountered, a non-trivial vector x(:,k)
+*>          that is an exact or approximate solution to A*x(:,k) = 0
+*>          is returned. If the system so badly scaled that solution
+*>          cannot be presented as x(:,k) * 1/s(k), then x(:,k) = 0
+*>          is returned.
+*> \endverbatim
+*>
+*> \param[in,out] CNORM
+*> \verbatim
+*>          CNORM is REAL array, dimension (N)
+*>
+*>          If NORMIN = 'Y', CNORM is an input argument and CNORM(j)
+*>          contains the norm of the off-diagonal part of the j-th column
+*>          of A.  If TRANS = 'N', CNORM(j) must be greater than or equal
+*>          to the infinity-norm, and if TRANS = 'T' or 'C', CNORM(j)
+*>          must be greater than or equal to the 1-norm.
+*>
+*>          If NORMIN = 'N', CNORM is an output argument and CNORM(j)
+*>          returns the 1-norm of the offdiagonal part of the j-th column
+*>          of A.
+*> \endverbatim
+*>
+*> \param[out] WORK
+*> \verbatim
+*>          WORK is REAL array, dimension (LWORK).
+*>          On exit, if INFO = 0, WORK(1) returns the optimal size of
+*>          WORK.
+*> \endverbatim
+*>
+*> \param[in] LWORK
+*>          LWORK is INTEGER
+*>          LWORK >= MAX(1, 2*NBA * MAX(NBA, MIN(NRHS, 32)), where
+*>          NBA = (N + NB - 1)/NB and NB is the optimal block size.
+*>
+*>          If LWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the WORK array, returns
+*>          this value as the first entry of the WORK array, and no error
+*>          message related to LWORK is issued by XERBLA.
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0:  successful exit
+*>          < 0:  if INFO = -k, the k-th argument had an illegal value
+*> \endverbatim
+*
+*  Authors:
+*  ========
+*
+*> \author Univ. of Tennessee
+*> \author Univ. of California Berkeley
+*> \author Univ. of Colorado Denver
+*> \author NAG Ltd.
+*
+*> \ingroup doubleOTHERauxiliary
+*> \par Further Details:
+*  =====================
+*  \verbatim
+*  The algorithm follows the structure of a block triangular solve.
+*  The diagonal block is solved with a call to the robust the triangular
+*  solver LATRS for every right-hand side RHS = 1, ..., NRHS
+*     op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS ),
+*  where op( A ) = A or op( A ) = A**T or op( A ) = A**H.
+*  The linear block updates operate on block columns of X,
+*     B( I, K ) - op(A( I, J )) * X( J, K )
+*  and use GEMM. To avoid overflow in the linear block update, the worst case
+*  growth is estimated. For every RHS, a scale factor s <= 1.0 is computed
+*  such that
+*     || s * B( I, RHS )||_oo
+*   + || op(A( I, J )) ||_oo * || s *  X( J, RHS ) ||_oo <= Overflow threshold
+*
+*  Once all columns of a block column have been rescaled (BLAS-1), the linear
+*  update is executed with GEMM without overflow.
+*
+*  To limit rescaling, local scale factors track the scaling of column segments.
+*  There is one local scale factor s( I, RHS ) per block row I = 1, ..., NBA
+*  per right-hand side column RHS = 1, ..., NRHS. The global scale factor
+*  SCALE( RHS ) is chosen as the smallest local scale factor s( I, RHS )
+*  I = 1, ..., NBA.
+*  A triangular solve op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS )
+*  updates the local scale factor s( J, RHS ) := s( J, RHS ) * SCALOC. The
+*  linear update of potentially inconsistently scaled vector segments
+*     s( I, RHS ) * b( I, RHS ) - op(A( I, J )) * ( s( J, RHS )* x( J, RHS ) )
+*  computes a consistent scaling SCAMIN = MIN( s(I, RHS ), s(J, RHS) ) and,
+*  if necessary, rescales the blocks prior to calling GEMM.
+*
+*  \endverbatim
+*  =====================================================================
+*  References:
+*  C. C. Kjelgaard Mikkelsen, A. B. Schwarz and L. Karlsson (2019).
+*  Parallel robust solution of triangular linear systems. Concurrency
+*  and Computation: Practice and Experience, 31(19), e5064.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE CLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+     $                    X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          DIAG, TRANS, NORMIN, UPLO
+      INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*     ..
+*     .. Array Arguments ..
+      COMPLEX            A( LDA, * ), X( LDX, * )
+      REAL               CNORM( * ), SCALE( * ), WORK( * )
+*     ..
+*
+*  =====================================================================
+*
+*     .. Parameters ..
+      REAL               ZERO, ONE
+      PARAMETER          ( ZERO = 0.0E+0, ONE = 1.0E+0 )
+      COMPLEX            CZERO, CONE
+      PARAMETER          ( CZERO = ( 0.0E+0, 0.0E+0 ) )
+      PARAMETER          ( CONE = ( 1.0E+0, 0.0E+0 ) )
+      INTEGER            NBMAX, NBMIN, NBRHS, NRHSMIN
+      PARAMETER          ( NRHSMIN = 2, NBRHS = 32 )
+      PARAMETER          ( NBMIN = 8, NBMAX = 64 )
+*     ..
+*     .. Local Arrays ..
+      REAL               W( NBMAX ), XNRM( NBRHS )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            LQUERY, NOTRAN, NOUNIT, UPPER
+      INTEGER            AWRK, I, IFIRST, IINC, ILAST, II, I1, I2, J,
+     $                   JFIRST, JINC, JLAST, J1, J2, K, KK, K1, K2,
+     $                   LANRM, LDS, LSCALE, NB, NBA, NBX, RHS
+      REAL               ANRM, BIGNUM, BNRM, RSCAL, SCAL, SCALOC,
+     $                   SCAMIN, SMLNUM, TMAX
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      REAL               SLAMCH, CLANGE, SLARMM
+      EXTERNAL           ILAENV, LSAME, SLAMCH, CLANGE, SLARMM
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           CLATRS, CSSCAL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, MAX, MIN
+*     ..
+*     .. Executable Statements ..
+*
+      INFO = 0
+      UPPER = LSAME( UPLO, 'U' )
+      NOTRAN = LSAME( TRANS, 'N' )
+      NOUNIT = LSAME( DIAG, 'N' )
+      LQUERY = ( LWORK.EQ.-1 )
+*
+*     Partition A and X into blocks.
+*
+      NB = MAX( NBMIN, ILAENV( 1, 'CLATRS', '', N, N, -1, -1 ) )
+      NB = MIN( NBMAX, NB )
+      NBA = MAX( 1, (N + NB - 1) / NB )
+      NBX = MAX( 1, (NRHS + NBRHS - 1) / NBRHS )
+*
+*     Compute the workspace
+*
+*     The workspace comprises two parts.
+*     The first part stores the local scale factors. Each simultaneously
+*     computed right-hand side requires one local scale factor per block
+*     row. WORK( I + KK * LDS ) is the scale factor of the vector
+*     segment associated with the I-th block row and the KK-th vector
+*     in the block column.
+      LSCALE = NBA * MAX( NBA, MIN( NRHS, NBRHS ) )
+      LDS = NBA
+*     The second part stores upper bounds of the triangular A. There are
+*     a total of NBA x NBA blocks, of which only the upper triangular
+*     part or the lower triangular part is referenced. The upper bound of
+*     the block A( I, J ) is stored as WORK( AWRK + I + J * NBA ).
+      LANRM = NBA * NBA
+      AWRK = LSCALE
+      WORK( 1 ) = LSCALE + LANRM
+*
+*     Test the input parameters.
+*
+      IF( .NOT.UPPER .AND. .NOT.LSAME( UPLO, 'L' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRAN .AND. .NOT.LSAME( TRANS, 'T' ) .AND. .NOT.
+     $         LSAME( TRANS, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( .NOT.NOUNIT .AND. .NOT.LSAME( DIAG, 'U' ) ) THEN
+         INFO = -3
+      ELSE IF( .NOT.LSAME( NORMIN, 'Y' ) .AND. .NOT.
+     $         LSAME( NORMIN, 'N' ) ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( NRHS.LT.0 ) THEN
+         INFO = -6
+      ELSE IF( LDA.LT.MAX( 1, N ) ) THEN
+         INFO = -8
+      ELSE IF( LDX.LT.MAX( 1, N ) ) THEN
+         INFO = -10
+      ELSE IF( .NOT.LQUERY .AND. LWORK.LT.WORK( 1 ) ) THEN
+         INFO = -14
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'CLATRS3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Initialize scaling factors
+*
+      DO KK = 1, NRHS
+         SCALE( KK ) = ONE
+      END DO
+*
+*     Quick return if possible
+*
+      IF( MIN( N, NRHS ).EQ.0 )
+     $   RETURN
+*
+*     Determine machine dependent constant to control overflow.
+*
+      BIGNUM = SLAMCH( 'Overflow' )
+      SMLNUM = SLAMCH( 'Safe Minimum' )
+*
+*     Use unblocked code for small problems
+*
+      IF( NRHS.LT.NRHSMIN ) THEN
+         CALL CLATRS( UPLO, TRANS, DIAG, NORMIN, N, A, LDA, X( 1, 1 ),
+     $                SCALE( 1 ), CNORM, INFO )
+         DO K = 2, NRHS
+            CALL CLATRS( UPLO, TRANS, DIAG, 'Y', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Compute norms of blocks of A excluding diagonal blocks and find
+*     the block with the largest norm TMAX.
+*
+      TMAX = ZERO
+      DO J = 1, NBA
+         J1 = (J-1)*NB + 1
+         J2 = MIN( J*NB, N ) + 1
+         IF ( UPPER ) THEN
+            IFIRST = 1
+            ILAST = J - 1
+         ELSE
+            IFIRST = J + 1
+            ILAST = NBA
+         END IF
+         DO I = IFIRST, ILAST
+            I1 = (I-1)*NB + 1
+            I2 = MIN( I*NB, N ) + 1
+*
+*           Compute upper bound of A( I1:I2-1, J1:J2-1 ).
+*
+            IF( NOTRAN ) THEN
+               ANRM = CLANGE( 'I', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + I+(J-1)*NBA ) = ANRM
+            ELSE
+               ANRM = CLANGE( '1', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + J+(I-1)*NBA ) = ANRM
+            END IF
+            TMAX = MAX( TMAX, ANRM )
+         END DO
+      END DO
+*
+      IF( .NOT. TMAX.LE.SLAMCH('Overflow') ) THEN
+*
+*        Some matrix entries have huge absolute value. At least one upper
+*        bound norm( A(I1:I2-1, J1:J2-1), 'I') is not a valid floating-point
+*        number, either due to overflow in LANGE or due to Inf in A.
+*        Fall back to LATRS. Set normin = 'N' for every right-hand side to
+*        force computation of TSCAL in LATRS to avoid the likely overflow
+*        in the computation of the column norms CNORM.
+*
+         DO K = 1, NRHS
+            CALL CLATRS( UPLO, TRANS, DIAG, 'N', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Every right-hand side requires workspace to store NBA local scale
+*     factors. To save workspace, X is computed successively in block columns
+*     of width NBRHS, requiring a total of NBA x NBRHS space. If sufficient
+*     workspace is available, larger values of NBRHS or NBRHS = NRHS are viable.
+      DO K = 1, NBX
+*        Loop over block columns (index = K) of X and, for column-wise scalings,
+*        over individual columns (index = KK).
+*        K1: column index of the first column in X( J, K )
+*        K2: column index of the first column in X( J, K+1 )
+*        so the K2 - K1 is the column count of the block X( J, K )
+         K1 = (K-1)*NBRHS + 1
+         K2 = MIN( K*NBRHS, NRHS ) + 1
+*
+*        Initialize local scaling factors of current block column X( J, K )
+*
+         DO KK = 1, K2-K1
+            DO I = 1, NBA
+               WORK( I+KK*LDS ) = ONE
+            END DO
+         END DO
+*
+         IF( NOTRAN ) THEN
+*
+*           Solve A * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*
+            IF( UPPER ) THEN
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            ELSE
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            END IF
+         ELSE
+*
+*           Solve op(A) * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*           where op(A) = A**T or op(A) = A**H
+*
+            IF( UPPER ) THEN
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            ELSE
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            END IF
+         END IF
+
+         DO J = JFIRST, JLAST, JINC
+*           J1: row index of the first row in A( J, J )
+*           J2: row index of the first row in A( J+1, J+1 )
+*           so that J2 - J1 is the row count of the block A( J, J )
+            J1 = (J-1)*NB + 1
+            J2 = MIN( J*NB, N ) + 1
+*
+*           Solve op(A( J, J )) * X( J, RHS ) = SCALOC * B( J, RHS )
+*
+            DO KK = 1, K2-K1
+               RHS = K1 + KK - 1
+               IF( KK.EQ.1 ) THEN
+                  CALL CLATRS( UPLO, TRANS, DIAG, 'N', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               ELSE
+                  CALL CLATRS( UPLO, TRANS, DIAG, 'Y', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               END IF
+*              Find largest absolute value entry in the vector segment
+*              X( J1:J2-1, RHS ) as an upper bound for the worst case
+*              growth in the linear updates.
+               XNRM( KK ) = CLANGE( 'I', J2-J1, 1, X( J1, RHS ),
+     $                              LDX, W )
+*
+               IF( SCALOC .EQ. ZERO ) THEN
+*                 LATRS found that A is singular through A(j,j) = 0.
+*                 Reset the computation x(1:n) = 0, x(j) = 1, SCALE = 0
+*                 and compute op(A)*x = 0. Note that X(J1:J2-1, KK) is
+*                 set by LATRS.
+                  SCALE( RHS ) = ZERO
+                  DO II = 1, J1-1
+                     X( II, KK ) = CZERO
+                  END DO
+                  DO II = J2, N
+                     X( II, KK ) = CZERO
+                  END DO
+*                 Discard the local scale factors.
+                  DO II = 1, NBA
+                     WORK( II+KK*LDS ) = ONE
+                  END DO
+                  SCALOC = ONE
+               ELSE IF( SCALOC*WORK( J+KK*LDS ) .EQ. ZERO ) THEN
+*                 LATRS computed a valid scale factor, but combined with
+*                 the current scaling the solution does not have a
+*                 scale factor > 0.
+*
+*                 Set WORK( J+KK*LDS ) to smallest valid scale
+*                 factor and increase SCALOC accordingly.
+                  SCAL = WORK( J+KK*LDS ) / SMLNUM
+                  SCALOC = SCALOC * SCAL
+                  WORK( J+KK*LDS ) = SMLNUM
+*                 If LATRS overestimated the growth, x may be
+*                 rescaled to preserve a valid combined scale
+*                 factor WORK( J, KK ) > 0.
+                  RSCAL = ONE / SCALOC
+                  IF( XNRM( KK )*RSCAL .LE. BIGNUM ) THEN
+                     XNRM( KK ) = XNRM( KK ) * RSCAL
+                     CALL CSSCAL( J2-J1, RSCAL, X( J1, RHS ), 1 )
+                     SCALOC = ONE
+                  ELSE
+*                    The system op(A) * x = b is badly scaled and its
+*                    solution cannot be represented as (1/scale) * x.
+*                    Set x to zero. This approach deviates from LATRS
+*                    where a completely meaningless non-zero vector
+*                    is returned that is not a solution to op(A) * x = b.
+                     SCALE( RHS ) = ZERO
+                     DO II = 1, N
+                        X( II, KK ) = CZERO
+                     END DO
+*                    Discard the local scale factors.
+                     DO II = 1, NBA
+                        WORK( II+KK*LDS ) = ONE
+                     END DO
+                     SCALOC = ONE
+                  END IF
+               END IF
+               SCALOC = SCALOC * WORK( J+KK*LDS )
+               WORK( J+KK*LDS ) = SCALOC
+            END DO
+*
+*           Linear block updates
+*
+            IF( NOTRAN ) THEN
+               IF( UPPER ) THEN
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               ELSE
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               END IF
+            ELSE
+               IF( UPPER ) THEN
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               ELSE
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               END IF
+            END IF
+*
+            DO I = IFIRST, ILAST, IINC
+*              I1: row index of the first column in X( I, K )
+*              I2: row index of the first column in X( I+1, K )
+*              so the I2 - I1 is the row count of the block X( I, K )
+               I1 = (I-1)*NB + 1
+               I2 = MIN( I*NB, N ) + 1
+*
+*              Prepare the linear update to be executed with GEMM.
+*              For each column, compute a consistent scaling, a
+*              scaling factor to survive the linear update, and
+*              rescale the column segments, if necesssary. Then
+*              the linear update is safely executed.
+*
+               DO KK = 1, K2-K1
+                  RHS = K1 + KK - 1
+*                 Compute consistent scaling
+                  SCAMIN = MIN( WORK( I+KK*LDS), WORK( J+KK*LDS ) )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  BNRM = CLANGE( 'I', I2-I1, 1, X( I1, RHS ), LDX, W )
+                  BNRM = BNRM*( SCAMIN / WORK( I+KK*LDS ) )
+                  XNRM( KK ) = XNRM( KK )*( SCAMIN / WORK( J+KK*LDS) )
+                  ANRM = WORK( AWRK + I+(J-1)*NBA )
+                  SCALOC = SLARMM( ANRM, XNRM( KK ), BNRM )
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to X( I, KK ) and X( J, KK ).
+*
+                  SCAL = ( SCAMIN / WORK( I+KK*LDS) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL CSSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+                     WORK( I+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+*
+                  SCAL = ( SCAMIN / WORK( J+KK*LDS ) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL CSSCAL( J2-J1, SCAL, X( J1, RHS ), 1 )
+                     WORK( J+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+               END DO
+*
+               IF( NOTRAN ) THEN
+*
+*                 B( I, K ) := B( I, K ) - A( I, J ) * X( J, K )
+*
+                  CALL CGEMM( 'N', 'N', I2-I1, K2-K1, J2-J1, -CONE,
+     $                        A( I1, J1 ), LDA, X( J1, K1 ), LDX,
+     $                        CONE, X( I1, K1 ), LDX )
+               ELSE IF( LSAME( TRANS, 'T' ) ) THEN
+*
+*                 B( I, K ) := B( I, K ) - A( I, J )**T * X( J, K )
+*
+                  CALL CGEMM( 'T', 'N', I2-I1, K2-K1, J2-J1, -CONE,
+     $                        A( J1, I1 ), LDA, X( J1, K1 ), LDX,
+     $                        CONE, X( I1, K1 ), LDX )
+               ELSE
+*
+*                 B( I, K ) := B( I, K ) - A( I, J )**H * X( J, K )
+*
+                  CALL CGEMM( 'C', 'N', I2-I1, K2-K1, J2-J1, -CONE,
+     $                        A( J1, I1 ), LDA, X( J1, K1 ), LDX,
+     $                        CONE, X( I1, K1 ), LDX )
+               END IF
+            END DO
+         END DO
+*
+*        Reduce local scaling factors
+*
+         DO KK = 1, K2-K1
+            RHS = K1 + KK - 1
+            DO I = 1, NBA
+               SCALE( RHS ) = MIN( SCALE( RHS ), WORK( I+KK*LDS ) )
+            END DO
+         END DO
+*
+*        Realize consistent scaling
+*
+         DO KK = 1, K2-K1
+            RHS = K1 + KK - 1
+            IF( SCALE( RHS ).NE.ONE .AND. SCALE( RHS ).NE. ZERO ) THEN
+               DO I = 1, NBA
+                  I1 = (I-1)*NB + 1
+                  I2 = MIN( I*NB, N ) + 1
+                  SCAL = SCALE( RHS ) / WORK( I+KK*LDS )
+                  IF( SCAL.NE.ONE )
+     $               CALL CSSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+               END DO
+            END IF
+         END DO
+      END DO
+      RETURN
+*
+*     End of CLATRS3
+*
+      END
diff --git a/lapack-netlib/SRC/ctrsyl3.f b/lapack-netlib/SRC/ctrsyl3.f
new file mode 100644
index 000000000..586dc0207
--- /dev/null
+++ b/lapack-netlib/SRC/ctrsyl3.f
@@ -0,0 +1,1142 @@
+*> \brief \b CTRSYL3
+*
+* Definition:
+* ===========
+*
+*
+*>  \par Purpose
+*  =============
+*>
+*> \verbatim
+*>
+*>  CTRSYL3 solves the complex Sylvester matrix equation:
+*>
+*>     op(A)*X + X*op(B) = scale*C or
+*>     op(A)*X - X*op(B) = scale*C,
+*>
+*>  where op(A) = A or A**H, and  A and B are both upper triangular. A is
+*>  M-by-M and B is N-by-N; the right hand side C and the solution X are
+*>  M-by-N; and scale is an output scale factor, set <= 1 to avoid
+*>  overflow in X.
+*>
+*>  This is the block version of the algorithm.
+*> \endverbatim
+*
+*  Arguments
+*  =========
+*
+*> \param[in] TRANA
+*> \verbatim
+*>          TRANA is CHARACTER*1
+*>          Specifies the option op(A):
+*>          = 'N': op(A) = A    (No transpose)
+*>          = 'C': op(A) = A**H (Conjugate transpose)
+*> \endverbatim
+*>
+*> \param[in] TRANB
+*> \verbatim
+*>          TRANB is CHARACTER*1
+*>          Specifies the option op(B):
+*>          = 'N': op(B) = B    (No transpose)
+*>          = 'C': op(B) = B**H (Conjugate transpose)
+*> \endverbatim
+*>
+*> \param[in] ISGN
+*> \verbatim
+*>          ISGN is INTEGER
+*>          Specifies the sign in the equation:
+*>          = +1: solve op(A)*X + X*op(B) = scale*C
+*>          = -1: solve op(A)*X - X*op(B) = scale*C
+*> \endverbatim
+*>
+*> \param[in] M
+*> \verbatim
+*>          M is INTEGER
+*>          The order of the matrix A, and the number of rows in the
+*>          matrices X and C. M >= 0.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix B, and the number of columns in the
+*>          matrices X and C. N >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is COMPLEX array, dimension (LDA,M)
+*>          The upper triangular matrix A.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A. LDA >= max(1,M).
+*> \endverbatim
+*>
+*> \param[in] B
+*> \verbatim
+*>          B is COMPLEX array, dimension (LDB,N)
+*>          The upper triangular matrix B.
+*> \endverbatim
+*>
+*> \param[in] LDB
+*> \verbatim
+*>          LDB is INTEGER
+*>          The leading dimension of the array B. LDB >= max(1,N).
+*> \endverbatim
+*>
+*> \param[in,out] C
+*> \verbatim
+*>          C is COMPLEX array, dimension (LDC,N)
+*>          On entry, the M-by-N right hand side matrix C.
+*>          On exit, C is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDC
+*> \verbatim
+*>          LDC is INTEGER
+*>          The leading dimension of the array C. LDC >= max(1,M)
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is REAL
+*>          The scale factor, scale, set <= 1 to avoid overflow in X.
+*> \endverbatim
+*>
+*> \param[out] SWORK
+*> \verbatim
+*>          SWORK is REAL array, dimension (MAX(2, ROWS), MAX(1,COLS)).
+*>          On exit, if INFO = 0, SWORK(1) returns the optimal value ROWS
+*>          and SWORK(2) returns the optimal COLS.
+*> \endverbatim
+*>
+*> \param[in] LDSWORK
+*> \verbatim
+*>          LDSWORK is INTEGER
+*>          LDSWORK >= MAX(2,ROWS), where ROWS = ((M + NB - 1) / NB + 1)
+*>          and NB is the optimal block size.
+*>
+*>          If LDSWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the SWORK matrix,
+*>          returns these values as the first and second entry of the SWORK
+*>          matrix, and no error message related LWORK is issued by XERBLA.
+*> \endverbatim
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0: successful exit
+*>          < 0: if INFO = -i, the i-th argument had an illegal value
+*>          = 1: A and B have common or very close eigenvalues; perturbed
+*>               values were used to solve the equation (but the matrices
+*>               A and B are unchanged).
+*> \endverbatim
+*
+*> \ingroup complexSYcomputational
+*
+*  =====================================================================
+*  References:
+*   E. S. Quintana-Orti and R. A. Van De Geijn (2003). Formal derivation of
+*   algorithms: The triangular Sylvester equation, ACM Transactions
+*   on Mathematical Software (TOMS), volume 29, pages 218--243.
+*
+*   A. Schwarz and C. C. Kjelgaard Mikkelsen (2020). Robust Task-Parallel
+*   Solution of the Triangular Sylvester Equation. Lecture Notes in
+*   Computer Science, vol 12043, pages 82--92, Springer.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE CTRSYL3( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB, C,
+     $                    LDC, SCALE, SWORK, LDSWORK, INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          TRANA, TRANB
+      INTEGER            INFO, ISGN, LDA, LDB, LDC, LDSWORK, M, N
+      REAL               SCALE
+*     ..
+*     .. Array Arguments ..
+      COMPLEX            A( LDA, * ), B( LDB, * ), C( LDC, * )
+      REAL               SWORK( LDSWORK, * )
+*     ..
+*     .. Parameters ..
+      REAL               ZERO, ONE
+      PARAMETER          ( ZERO = 0.0E+0, ONE = 1.0E+0 )
+      COMPLEX            CONE
+      PARAMETER          ( CONE = ( 1.0E+0, 0.0E+0 ) )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            NOTRNA, NOTRNB, LQUERY
+      INTEGER            AWRK, BWRK, I, I1, I2, IINFO, J, J1, J2, JJ,
+     $                   K, K1, K2, L, L1, L2, LL, NBA, NB, NBB
+      REAL               ANRM, BIGNUM, BNRM, CNRM, SCAL, SCALOC,
+     $                   SCAMIN, SGN, XNRM, BUF, SMLNUM
+      COMPLEX            CSGN
+*     ..
+*     .. Local Arrays ..
+      REAL               WNRM( MAX( M, N ) )
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      REAL               CLANGE, SLAMCH, SLARMM
+      EXTERNAL           CLANGE, ILAENV, LSAME, SLAMCH, SLARMM
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           CSSCAL, CGEMM, CLASCL, CTRSYL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, AIMAG, EXPONENT, MAX, MIN, REAL
+*     ..
+*     .. Executable Statements ..
+*
+*     Decode and Test input parameters
+*
+      NOTRNA = LSAME( TRANA, 'N' )
+      NOTRNB = LSAME( TRANB, 'N' )
+*
+*     Use the same block size for all matrices.
+*
+      NB = MAX( 8, ILAENV( 1, 'CTRSYL', '', M, N, -1, -1) )
+*
+*     Compute number of blocks in A and B
+*
+      NBA = MAX( 1, (M + NB - 1) / NB )
+      NBB = MAX( 1, (N + NB - 1) / NB )
+*
+*     Compute workspace
+*
+      INFO = 0
+      LQUERY = ( LDSWORK.EQ.-1 )
+      IF( LQUERY ) THEN
+         LDSWORK = 2
+         SWORK(1,1) = MAX( NBA, NBB )
+         SWORK(2,1) = 2 * NBB + NBA
+      END IF
+*
+*     Test the input arguments
+*
+      IF( .NOT.NOTRNA .AND. .NOT. LSAME( TRANA, 'C' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRNB .AND. .NOT. LSAME( TRANB, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( ISGN.NE.1 .AND. ISGN.NE.-1 ) THEN
+         INFO = -3
+      ELSE IF( M.LT.0 ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( LDA.LT.MAX( 1, M ) ) THEN
+         INFO = -7
+      ELSE IF( LDB.LT.MAX( 1, N ) ) THEN
+         INFO = -9
+      ELSE IF( LDC.LT.MAX( 1, M ) ) THEN
+         INFO = -11
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'CTRSYL3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Quick return if possible
+*
+      SCALE = ONE
+      IF( M.EQ.0 .OR. N.EQ.0 )
+     $   RETURN
+*
+*     Use unblocked code for small problems or if insufficient
+*     workspace is provided
+*
+      IF( MIN( NBA, NBB ).EQ.1 .OR. LDSWORK.LT.MAX( NBA, NBB ) ) THEN
+        CALL CTRSYL( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB,
+     $               C, LDC, SCALE, INFO )
+        RETURN
+      END IF
+*
+*     Set constants to control overflow
+*
+      SMLNUM = SLAMCH( 'S' )
+      BIGNUM = ONE / SMLNUM
+*
+*     Set local scaling factors.
+*
+      DO L = 1, NBB
+         DO K = 1, NBA
+            SWORK( K, L ) = ONE
+         END DO
+      END DO
+*
+*     Fallback scaling factor to prevent flushing of SWORK( K, L ) to zero.
+*     This scaling is to ensure compatibility with TRSYL and may get flushed.
+*
+      BUF = ONE
+*
+*      Compute upper bounds of blocks of A and B
+*
+      AWRK = NBB
+      DO K = 1, NBA
+         K1 = (K - 1) * NB + 1
+         K2 = MIN( K * NB, M ) + 1
+         DO L = K, NBA
+            L1 = (L - 1) * NB + 1
+            L2 = MIN( L * NB, M ) + 1
+            IF( NOTRNA ) THEN
+               SWORK( K, AWRK + L ) = CLANGE( 'I', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            ELSE
+               SWORK( L, AWRK + K ) = CLANGE( '1', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            END IF
+         END DO
+      END DO
+      BWRK = NBB + NBA
+      DO K = 1, NBB
+         K1 = (K - 1) * NB + 1
+         K2 = MIN( K * NB, N ) + 1
+         DO L = K, NBB
+            L1 = (L - 1) * NB + 1
+            L2 = MIN( L * NB, N ) + 1
+            IF( NOTRNB ) THEN
+               SWORK( K, BWRK + L ) = CLANGE( 'I', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            ELSE
+               SWORK( L, BWRK + K ) = CLANGE( '1', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            END IF
+         END DO
+      END DO
+*
+      SGN = REAL( ISGN )
+      CSGN = CMPLX( SGN, ZERO )
+*
+      IF( NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-left corner column by column by
+*
+*         A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                  M                         L-1
+*        R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(J,L)].
+*                I=K+1                       J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL CTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = CLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K - 1, 1, -1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                      DO JJ = L1, L2-1
+                         CALL CSSCAL( K2-K1, SCAL, C( K1, JJ ), 1)
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                      DO LL = L1, L2-1
+                         CALL CSSCAL( I2-I1, SCAL, C( I1, LL ), 1)
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK(L, BWRK + J)
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO JJ = J1, J2-1
+                         CALL CSSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A**H *X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        upper-left corner column by column by
+*
+*          A(K,K)**H*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                   K-1                        L-1
+*          R(K,L) = SUM [A(I,K)**H*X(I,L)] +ISGN*SUM [X(K,J)*B(J,L)]
+*                   I=1                        J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL CTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = CLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**H * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( I, L ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'C', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO LL = L1, L2-1
+                         CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A**H *X + ISGN*X*B**H = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        top-right corner column by column by
+*
+*           A(K,K)**H*X(K,L) + ISGN*X(K,L)*B(L,L)**H = C(K,L) - R(K,L)
+*
+*        Where
+*                     K-1                          N
+*            R(K,L) = SUM [A(I,K)**H*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**H].
+*                     I=1                        J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL CTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = CLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**H * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'C', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**H
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1)
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'N', 'C', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B**H = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-right corner column by column by
+*
+*            A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L)**H = C(K,L) - R(K,L)
+*
+*        Where
+*                      M                          N
+*            R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**H].
+*                    I=K+1                      J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL CTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = CLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = 1, K - 1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL CSSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**H
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = CLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC 
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = L1, L2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL CSSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL CGEMM( 'N', 'C', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+*
+      END IF
+*
+*     Reduce local scaling factors
+*
+      SCALE = SWORK( 1, 1 )
+      DO K = 1, NBA
+         DO L = 1, NBB
+            SCALE = MIN( SCALE, SWORK( K, L ) )
+         END DO
+      END DO
+      IF( SCALE .EQ. ZERO ) THEN
+*
+*        The magnitude of the largest entry of the solution is larger
+*        than the product of BIGNUM**2 and cannot be represented in the
+*        form (1/SCALE)*X if SCALE is REAL. Set SCALE to
+*        zero and give up.
+*
+         SWORK(1,1) = MAX( NBA, NBB )
+         SWORK(2,1) = 2 * NBB + NBA
+         RETURN
+      END IF
+*
+*     Realize consistent scaling
+*
+      DO K = 1, NBA
+         K1 = (K - 1) * NB + 1
+         K2 = MIN( K * NB, M ) + 1
+         DO L = 1, NBB
+            L1 = (L - 1) * NB + 1
+            L2 = MIN( L * NB, N ) + 1
+            SCAL = SCALE / SWORK( K, L )
+            IF( SCAL .NE. ONE ) THEN
+               DO LL = L1, L2-1
+                  CALL CSSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+               END DO
+            ENDIF
+         END DO
+      END DO
+*
+      IF( BUF .NE. ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        Decrease SCALE as much as possible.
+*
+         SCALOC = MIN( SCALE / SMLNUM, ONE / BUF )
+         BUF = BUF * SCALOC
+         SCALE = SCALE / SCALOC
+      END IF
+*
+      IF( BUF.NE.ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        In case of overly aggressive scaling during the computation,
+*        flushing of the global scale factor may be prevented by
+*        undoing some of the scaling. This step is to ensure that
+*        this routine flushes only scale factors that TRSYL also
+*        flushes and be usable as a drop-in replacement.
+*
+*        How much can the normwise largest entry be upscaled?
+*
+         SCAL = MAX( ABS( REAL( C( 1, 1 ) ) ),
+     $               ABS( AIMAG( C ( 1, 1 ) ) ) )
+         DO K = 1, M
+            DO L = 1, N
+               SCAL = MAX( SCAL, ABS( REAL ( C( K, L ) ) ),
+     $                     ABS( AIMAG ( C( K, L ) ) ) )
+            END DO
+         END DO
+*
+*        Increase BUF as close to 1 as possible and apply scaling.
+*
+         SCALOC = MIN( BIGNUM / SCAL, ONE / BUF )
+         BUF = BUF * SCALOC
+         CALL CLASCL( 'G', -1, -1, ONE, SCALOC, M, N, C, LDC, IINFO )
+      END IF
+*
+*     Combine with buffer scaling factor. SCALE will be flushed if
+*     BUF is less than one here.
+*
+      SCALE = SCALE * BUF
+*
+*     Restore workspace dimensions
+*
+      SWORK(1,1) = MAX( NBA, NBB )
+      SWORK(2,1) = 2 * NBB + NBA
+*
+      RETURN
+*
+*     End of CTRSYL3
+*
+      END
diff --git a/lapack-netlib/SRC/dlarmm.f b/lapack-netlib/SRC/dlarmm.f
new file mode 100644
index 000000000..c36042009
--- /dev/null
+++ b/lapack-netlib/SRC/dlarmm.f
@@ -0,0 +1,99 @@
+*> \brief \b DLARMM
+*
+* Definition:
+* ===========
+*
+*      DOUBLE PRECISION FUNCTION DLARMM( ANORM, BNORM, CNORM )
+*
+*     .. Scalar Arguments ..
+*      DOUBLE PRECISION   ANORM, BNORM, CNORM
+*     ..
+*
+*>  \par Purpose:
+*  =======
+*>
+*> \verbatim
+*>
+*> DLARMM returns a factor s in (0, 1] such that the linear updates
+*>
+*>    (s * C) - A * (s * B)  and  (s * C) - (s * A) * B
+*>
+*> cannot overflow, where A, B, and C are matrices of conforming
+*> dimensions.
+*>
+*> This is an auxiliary routine so there is no argument checking.
+*> \endverbatim
+*
+*  Arguments:
+*  =========
+*
+*> \param[in] ANORM
+*> \verbatim
+*>          ANORM is DOUBLE PRECISION
+*>          The infinity norm of A. ANORM >= 0.
+*>          The number of rows of the matrix A.  M >= 0.
+*> \endverbatim
+*>
+*> \param[in] BNORM
+*> \verbatim
+*>          BNORM is DOUBLE PRECISION
+*>          The infinity norm of B. BNORM >= 0.
+*> \endverbatim
+*>
+*> \param[in] CNORM
+*> \verbatim
+*>          CNORM is DOUBLE PRECISION
+*>          The infinity norm of C. CNORM >= 0.
+*> \endverbatim
+*>
+*>
+*  =====================================================================
+*>  References:
+*>    C. C. Kjelgaard Mikkelsen and L. Karlsson, Blocked Algorithms for
+*>    Robust Solution of Triangular Linear Systems. In: International
+*>    Conference on Parallel Processing and Applied Mathematics, pages
+*>    68--78. Springer, 2017.
+*>
+*> \ingroup OTHERauxiliary
+*  =====================================================================
+
+      DOUBLE PRECISION FUNCTION DLARMM( ANORM, BNORM, CNORM )
+      IMPLICIT NONE
+*     .. Scalar Arguments ..
+      DOUBLE PRECISION   ANORM, BNORM, CNORM
+*     .. Parameters ..
+      DOUBLE PRECISION   ONE, HALF, FOUR
+      PARAMETER          ( ONE = 1.0D0, HALF = 0.5D+0, FOUR = 4.0D0 )
+*     ..
+*     .. Local Scalars ..
+       DOUBLE PRECISION   BIGNUM, SMLNUM
+*     ..
+*     .. External Functions ..
+      DOUBLE PRECISION   DLAMCH
+      EXTERNAL           DLAMCH
+*     ..
+*     .. Executable Statements ..
+*
+*
+*     Determine machine dependent parameters to control overflow.
+*
+      SMLNUM = DLAMCH( 'Safe minimum' ) / DLAMCH( 'Precision' )
+      BIGNUM = ( ONE / SMLNUM ) / FOUR
+*
+*     Compute a scale factor.
+*
+      DLARMM = ONE
+      IF( BNORM .LE. ONE ) THEN
+         IF( ANORM * BNORM .GT. BIGNUM - CNORM ) THEN
+            DLARMM = HALF
+         END IF
+      ELSE
+         IF( ANORM .GT. (BIGNUM - CNORM) / BNORM ) THEN
+            DLARMM = HALF / BNORM
+         END IF
+      END IF
+      RETURN
+*
+*     ==== End of DLARMM ====
+*
+      END
diff --git a/lapack-netlib/SRC/dlatrs3.f b/lapack-netlib/SRC/dlatrs3.f
new file mode 100644
index 000000000..b4a98bc78
--- /dev/null
+++ b/lapack-netlib/SRC/dlatrs3.f
@@ -0,0 +1,656 @@
+*> \brief \b DLATRS3 solves a triangular system of equations with the scale factors set to prevent overflow.
+*
+*  Definition:
+*  ===========
+*
+*      SUBROUTINE DLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+*                          X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+*
+*       .. Scalar Arguments ..
+*       CHARACTER          DIAG, NORMIN, TRANS, UPLO
+*       INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*       ..
+*       .. Array Arguments ..
+*       DOUBLE PRECISION   A( LDA, * ), CNORM( * ), SCALE( * ), 
+*                          WORK( * ), X( LDX, * )
+*       ..
+*
+*
+*> \par Purpose:
+*  =============
+*>
+*> \verbatim
+*>
+*> DLATRS3 solves one of the triangular systems
+*>
+*>    A * X = B * diag(scale)  or  A**T * X = B * diag(scale)
+*>
+*> with scaling to prevent overflow.  Here A is an upper or lower
+*> triangular matrix, A**T denotes the transpose of A. X and B are
+*> n by nrhs matrices and scale is an nrhs element vector of scaling
+*> factors. A scaling factor scale(j) is usually less than or equal
+*> to 1, chosen such that X(:,j) is less than the overflow threshold.
+*> If the matrix A is singular (A(j,j) = 0 for some j), then
+*> a non-trivial solution to A*X = 0 is returned. If the system is
+*> so badly scaled that the solution cannot be represented as
+*> (1/scale(k))*X(:,k), then x(:,k) = 0 and scale(k) is returned.
+*>
+*> This is a BLAS-3 version of LATRS for solving several right
+*> hand sides simultaneously.
+*>
+*> \endverbatim
+*
+*  Arguments:
+*  ==========
+*
+*> \param[in] UPLO
+*> \verbatim
+*>          UPLO is CHARACTER*1
+*>          Specifies whether the matrix A is upper or lower triangular.
+*>          = 'U':  Upper triangular
+*>          = 'L':  Lower triangular
+*> \endverbatim
+*>
+*> \param[in] TRANS
+*> \verbatim
+*>          TRANS is CHARACTER*1
+*>          Specifies the operation applied to A.
+*>          = 'N':  Solve A * x = s*b  (No transpose)
+*>          = 'T':  Solve A**T* x = s*b  (Transpose)
+*>          = 'C':  Solve A**T* x = s*b  (Conjugate transpose = Transpose)
+*> \endverbatim
+*>
+*> \param[in] DIAG
+*> \verbatim
+*>          DIAG is CHARACTER*1
+*>          Specifies whether or not the matrix A is unit triangular.
+*>          = 'N':  Non-unit triangular
+*>          = 'U':  Unit triangular
+*> \endverbatim
+*>
+*> \param[in] NORMIN
+*> \verbatim
+*>          NORMIN is CHARACTER*1
+*>          Specifies whether CNORM has been set or not.
+*>          = 'Y':  CNORM contains the column norms on entry
+*>          = 'N':  CNORM is not set on entry.  On exit, the norms will
+*>                  be computed and stored in CNORM.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix A.  N >= 0.
+*> \endverbatim
+*>
+*> \param[in] NRHS
+*> \verbatim
+*>          NRHS is INTEGER
+*>          The number of columns of X.  NRHS >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is DOUBLE PRECISION array, dimension (LDA,N)
+*>          The triangular matrix A.  If UPLO = 'U', the leading n by n
+*>          upper triangular part of the array A contains the upper
+*>          triangular matrix, and the strictly lower triangular part of
+*>          A is not referenced.  If UPLO = 'L', the leading n by n lower
+*>          triangular part of the array A contains the lower triangular
+*>          matrix, and the strictly upper triangular part of A is not
+*>          referenced.  If DIAG = 'U', the diagonal elements of A are
+*>          also not referenced and are assumed to be 1.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A.  LDA >= max (1,N).
+*> \endverbatim
+*>
+*> \param[in,out] X
+*> \verbatim
+*>          X is DOUBLE PRECISION array, dimension (LDX,NRHS)
+*>          On entry, the right hand side B of the triangular system.
+*>          On exit, X is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDX
+*> \verbatim
+*>          LDX is INTEGER
+*>          The leading dimension of the array X.  LDX >= max (1,N).
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is DOUBLE PRECISION array, dimension (NRHS)
+*>          The scaling factor s(k) is for the triangular system
+*>          A * x(:,k) = s(k)*b(:,k)  or  A**T* x(:,k) = s(k)*b(:,k).
+*>          If SCALE = 0, the matrix A is singular or badly scaled.
+*>          If A(j,j) = 0 is encountered, a non-trivial vector x(:,k)
+*>          that is an exact or approximate solution to A*x(:,k) = 0
+*>          is returned. If the system so badly scaled that solution
+*>          cannot be presented as x(:,k) * 1/s(k), then x(:,k) = 0
+*>          is returned.
+*> \endverbatim
+*>
+*> \param[in,out] CNORM
+*> \verbatim
+*>          CNORM is DOUBLE PRECISION array, dimension (N)
+*>
+*>          If NORMIN = 'Y', CNORM is an input argument and CNORM(j)
+*>          contains the norm of the off-diagonal part of the j-th column
+*>          of A.  If TRANS = 'N', CNORM(j) must be greater than or equal
+*>          to the infinity-norm, and if TRANS = 'T' or 'C', CNORM(j)
+*>          must be greater than or equal to the 1-norm.
+*>
+*>          If NORMIN = 'N', CNORM is an output argument and CNORM(j)
+*>          returns the 1-norm of the offdiagonal part of the j-th column
+*>          of A.
+*> \endverbatim
+*>
+*> \param[out] WORK
+*> \verbatim
+*>          WORK is DOUBLE PRECISION array, dimension (LWORK).
+*>          On exit, if INFO = 0, WORK(1) returns the optimal size of
+*>          WORK.
+*> \endverbatim
+*>
+*> \param[in] LWORK
+*>          LWORK is INTEGER
+*>          LWORK >= MAX(1, 2*NBA * MAX(NBA, MIN(NRHS, 32)), where
+*>          NBA = (N + NB - 1)/NB and NB is the optimal block size.
+*>
+*>          If LWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the WORK array, returns
+*>          this value as the first entry of the WORK array, and no error
+*>          message related to LWORK is issued by XERBLA.
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0:  successful exit
+*>          < 0:  if INFO = -k, the k-th argument had an illegal value
+*> \endverbatim
+*
+*  Authors:
+*  ========
+*
+*> \author Univ. of Tennessee
+*> \author Univ. of California Berkeley
+*> \author Univ. of Colorado Denver
+*> \author NAG Ltd.
+*
+*> \ingroup doubleOTHERauxiliary
+*> \par Further Details:
+*  =====================
+*  \verbatim
+*  The algorithm follows the structure of a block triangular solve.
+*  The diagonal block is solved with a call to the robust the triangular
+*  solver LATRS for every right-hand side RHS = 1, ..., NRHS
+*     op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS ),
+*  where op( A ) = A or op( A ) = A**T.
+*  The linear block updates operate on block columns of X,
+*     B( I, K ) - op(A( I, J )) * X( J, K )
+*  and use GEMM. To avoid overflow in the linear block update, the worst case
+*  growth is estimated. For every RHS, a scale factor s <= 1.0 is computed
+*  such that
+*     || s * B( I, RHS )||_oo
+*   + || op(A( I, J )) ||_oo * || s *  X( J, RHS ) ||_oo <= Overflow threshold
+*
+*  Once all columns of a block column have been rescaled (BLAS-1), the linear
+*  update is executed with GEMM without overflow.
+*
+*  To limit rescaling, local scale factors track the scaling of column segments.
+*  There is one local scale factor s( I, RHS ) per block row I = 1, ..., NBA
+*  per right-hand side column RHS = 1, ..., NRHS. The global scale factor
+*  SCALE( RHS ) is chosen as the smallest local scale factor s( I, RHS )
+*  I = 1, ..., NBA.
+*  A triangular solve op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS )
+*  updates the local scale factor s( J, RHS ) := s( J, RHS ) * SCALOC. The
+*  linear update of potentially inconsistently scaled vector segments
+*     s( I, RHS ) * b( I, RHS ) - op(A( I, J )) * ( s( J, RHS )* x( J, RHS ) )
+*  computes a consistent scaling SCAMIN = MIN( s(I, RHS ), s(J, RHS) ) and,
+*  if necessary, rescales the blocks prior to calling GEMM.
+*
+*  \endverbatim
+*  =====================================================================
+*  References:
+*  C. C. Kjelgaard Mikkelsen, A. B. Schwarz and L. Karlsson (2019).
+*  Parallel robust solution of triangular linear systems. Concurrency
+*  and Computation: Practice and Experience, 31(19), e5064.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE DLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+     $                    X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          DIAG, TRANS, NORMIN, UPLO
+      INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*     ..
+*     .. Array Arguments ..
+      DOUBLE PRECISION   A( LDA, * ), CNORM( * ), X( LDX, * ),
+     $                   SCALE( * ), WORK( * )
+*     ..
+*
+*  =====================================================================
+*
+*     .. Parameters ..
+      DOUBLE PRECISION   ZERO, ONE
+      PARAMETER          ( ZERO = 0.0D+0, ONE = 1.0D+0 )
+      INTEGER            NBMAX, NBMIN, NBRHS, NRHSMIN
+      PARAMETER          ( NRHSMIN = 2, NBRHS = 32 )
+      PARAMETER          ( NBMIN = 8, NBMAX = 64 )
+*     ..
+*     .. Local Arrays ..
+      DOUBLE PRECISION   W( NBMAX ), XNRM( NBRHS )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            LQUERY, NOTRAN, NOUNIT, UPPER
+      INTEGER            AWRK, I, IFIRST, IINC, ILAST, II, I1, I2, J,
+     $                   JFIRST, JINC, JLAST, J1, J2, K, KK, K1, K2,
+     $                   LANRM, LDS, LSCALE, NB, NBA, NBX, RHS
+      DOUBLE PRECISION   ANRM, BIGNUM, BNRM, RSCAL, SCAL, SCALOC,
+     $                   SCAMIN, SMLNUM, TMAX
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      DOUBLE PRECISION   DLAMCH, DLANGE, DLARMM
+      EXTERNAL           DLAMCH, DLANGE, DLARMM, ILAENV, LSAME
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           DLATRS, DSCAL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, MAX, MIN
+*     ..
+*     .. Executable Statements ..
+*
+      INFO = 0
+      UPPER = LSAME( UPLO, 'U' )
+      NOTRAN = LSAME( TRANS, 'N' )
+      NOUNIT = LSAME( DIAG, 'N' )
+      LQUERY = ( LWORK.EQ.-1 )
+*
+*     Partition A and X into blocks
+*
+      NB = MAX( 8, ILAENV( 1, 'DLATRS', '', N, N, -1, -1 ) )
+      NB = MIN( NBMAX, NB )
+      NBA = MAX( 1, (N + NB - 1) / NB )
+      NBX = MAX( 1, (NRHS + NBRHS - 1) / NBRHS )
+*
+*     Compute the workspace
+*
+*     The workspace comprises two parts.
+*     The first part stores the local scale factors. Each simultaneously
+*     computed right-hand side requires one local scale factor per block
+*     row. WORK( I+KK*LDS ) is the scale factor of the vector
+*     segment associated with the I-th block row and the KK-th vector
+*     in the block column.
+      LSCALE = NBA * MAX( NBA, MIN( NRHS, NBRHS ) )
+      LDS = NBA
+*     The second part stores upper bounds of the triangular A. There are
+*     a total of NBA x NBA blocks, of which only the upper triangular
+*     part or the lower triangular part is referenced. The upper bound of
+*     the block A( I, J ) is stored as WORK( AWRK + I + J * NBA ).
+      LANRM = NBA * NBA
+      AWRK = LSCALE
+      WORK( 1 ) = LSCALE + LANRM
+*
+*     Test the input parameters
+*
+      IF( .NOT.UPPER .AND. .NOT.LSAME( UPLO, 'L' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRAN .AND. .NOT.LSAME( TRANS, 'T' ) .AND. .NOT.
+     $         LSAME( TRANS, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( .NOT.NOUNIT .AND. .NOT.LSAME( DIAG, 'U' ) ) THEN
+         INFO = -3
+      ELSE IF( .NOT.LSAME( NORMIN, 'Y' ) .AND. .NOT.
+     $         LSAME( NORMIN, 'N' ) ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( NRHS.LT.0 ) THEN
+         INFO = -6
+      ELSE IF( LDA.LT.MAX( 1, N ) ) THEN
+         INFO = -8
+      ELSE IF( LDX.LT.MAX( 1, N ) ) THEN
+         INFO = -10
+      ELSE IF( .NOT.LQUERY .AND. LWORK.LT.WORK( 1 ) ) THEN
+         INFO = -14
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'DLATRS3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Initialize scaling factors
+*
+      DO KK = 1, NRHS
+         SCALE( KK ) = ONE
+      END DO
+*
+*     Quick return if possible
+*
+      IF( MIN( N, NRHS ).EQ.0 )
+     $   RETURN
+*
+*     Determine machine dependent constant to control overflow.
+*
+      BIGNUM = DLAMCH( 'Overflow' )
+      SMLNUM = DLAMCH( 'Safe Minimum' )
+*
+*     Use unblocked code for small problems
+*
+      IF( NRHS.LT.NRHSMIN ) THEN
+         CALL DLATRS( UPLO, TRANS, DIAG, NORMIN, N, A, LDA, X( 1, 1),
+     $                SCALE( 1 ), CNORM, INFO )
+         DO K = 2, NRHS
+            CALL DLATRS( UPLO, TRANS, DIAG, 'Y', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Compute norms of blocks of A excluding diagonal blocks and find
+*     the block with the largest norm TMAX.
+*
+      TMAX = ZERO
+      DO J = 1, NBA
+         J1 = (J-1)*NB + 1
+         J2 = MIN( J*NB, N ) + 1
+         IF ( UPPER ) THEN
+            IFIRST = 1
+            ILAST = J - 1
+         ELSE
+            IFIRST = J + 1
+            ILAST = NBA
+         END IF
+         DO I = IFIRST, ILAST
+            I1 = (I-1)*NB + 1
+            I2 = MIN( I*NB, N ) + 1
+*
+*           Compute upper bound of A( I1:I2-1, J1:J2-1 ).
+*
+            IF( NOTRAN ) THEN
+               ANRM = DLANGE( 'I', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + I+(J-1)*NBA ) = ANRM
+            ELSE
+               ANRM = DLANGE( '1', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + J+(I-1)*NBA ) = ANRM
+            END IF
+            TMAX = MAX( TMAX, ANRM )
+         END DO
+      END DO
+*
+      IF( .NOT. TMAX.LE.DLAMCH('Overflow') ) THEN
+*
+*        Some matrix entries have huge absolute value. At least one upper
+*        bound norm( A(I1:I2-1, J1:J2-1), 'I') is not a valid floating-point
+*        number, either due to overflow in LANGE or due to Inf in A.
+*        Fall back to LATRS. Set normin = 'N' for every right-hand side to
+*        force computation of TSCAL in LATRS to avoid the likely overflow
+*        in the computation of the column norms CNORM.
+*
+         DO K = 1, NRHS
+            CALL DLATRS( UPLO, TRANS, DIAG, 'N', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Every right-hand side requires workspace to store NBA local scale
+*     factors. To save workspace, X is computed successively in block columns
+*     of width NBRHS, requiring a total of NBA x NBRHS space. If sufficient
+*     workspace is available, larger values of NBRHS or NBRHS = NRHS are viable.
+      DO K = 1, NBX
+*        Loop over block columns (index = K) of X and, for column-wise scalings,
+*        over individual columns (index = KK).
+*        K1: column index of the first column in X( J, K )
+*        K2: column index of the first column in X( J, K+1 )
+*        so the K2 - K1 is the column count of the block X( J, K )
+         K1 = (K-1)*NBRHS + 1
+         K2 = MIN( K*NBRHS, NRHS ) + 1
+*
+*        Initialize local scaling factors of current block column X( J, K )
+*
+         DO KK = 1, K2-K1
+            DO I = 1, NBA
+               WORK( I+KK*LDS ) = ONE
+            END DO
+         END DO
+*
+         IF( NOTRAN ) THEN
+*
+*           Solve A * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*
+            IF( UPPER ) THEN
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            ELSE
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            END IF
+         ELSE
+*
+*           Solve A**T * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*
+            IF( UPPER ) THEN
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            ELSE
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            END IF
+         END IF
+*
+         DO J = JFIRST, JLAST, JINC
+*           J1: row index of the first row in A( J, J )
+*           J2: row index of the first row in A( J+1, J+1 )
+*           so that J2 - J1 is the row count of the block A( J, J )
+            J1 = (J-1)*NB + 1
+            J2 = MIN( J*NB, N ) + 1
+*
+*           Solve op(A( J, J )) * X( J, RHS ) = SCALOC * B( J, RHS )
+*           for all right-hand sides in the current block column,
+*           one RHS at a time.
+*
+            DO KK = 1, K2-K1
+               RHS = K1 + KK - 1
+               IF( KK.EQ.1 ) THEN
+                  CALL DLATRS( UPLO, TRANS, DIAG, 'N', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               ELSE
+                  CALL DLATRS( UPLO, TRANS, DIAG, 'Y', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               END IF
+*              Find largest absolute value entry in the vector segment
+*              X( J1:J2-1, RHS ) as an upper bound for the worst case
+*              growth in the linear updates.
+               XNRM( KK ) = DLANGE( 'I', J2-J1, 1, X( J1, RHS ),
+     $                              LDX, W )
+*
+               IF( SCALOC .EQ. ZERO ) THEN
+*                 LATRS found that A is singular through A(j,j) = 0.
+*                 Reset the computation x(1:n) = 0, x(j) = 1, SCALE = 0
+*                 and compute A*x = 0 (or A**T*x = 0). Note that
+*                 X(J1:J2-1, KK) is set by LATRS.
+                  SCALE( RHS ) = ZERO
+                  DO II = 1, J1-1
+                     X( II, KK ) = ZERO
+                  END DO
+                  DO II = J2, N
+                     X( II, KK ) = ZERO
+                  END DO
+*                 Discard the local scale factors.
+                  DO II = 1, NBA
+                     WORK( II+KK*LDS ) = ONE
+                  END DO
+                  SCALOC = ONE
+               ELSE IF( SCALOC * WORK( J+KK*LDS ) .EQ. ZERO ) THEN
+*                 LATRS computed a valid scale factor, but combined with
+*                 the current scaling the solution does not have a
+*                 scale factor > 0.
+*
+*                 Set WORK( J+KK*LDS ) to smallest valid scale
+*                 factor and increase SCALOC accordingly.
+                  SCAL = WORK( J+KK*LDS ) / SMLNUM
+                  SCALOC = SCALOC * SCAL
+                  WORK( J+KK*LDS ) = SMLNUM
+*                 If LATRS overestimated the growth, x may be
+*                 rescaled to preserve a valid combined scale
+*                 factor WORK( J, KK ) > 0.
+                  RSCAL = ONE / SCALOC
+                  IF( XNRM( KK ) * RSCAL .LE. BIGNUM ) THEN
+                     XNRM( KK ) = XNRM( KK ) * RSCAL
+                     CALL DSCAL( J2-J1, RSCAL, X( J1, RHS ), 1 )
+                     SCALOC = ONE
+                  ELSE
+*                    The system op(A) * x = b is badly scaled and its
+*                    solution cannot be represented as (1/scale) * x.
+*                    Set x to zero. This approach deviates from LATRS
+*                    where a completely meaningless non-zero vector
+*                    is returned that is not a solution to op(A) * x = b.
+                     SCALE( RHS ) = ZERO
+                     DO II = 1, N
+                        X( II, KK ) = ZERO
+                     END DO
+*                    Discard the local scale factors.
+                     DO II = 1, NBA
+                        WORK( II+KK*LDS ) = ONE
+                     END DO
+                     SCALOC = ONE
+                  END IF
+               END IF
+               SCALOC = SCALOC * WORK( J+KK*LDS )
+               WORK( J+KK*LDS ) = SCALOC
+            END DO
+*
+*           Linear block updates
+*
+            IF( NOTRAN ) THEN
+               IF( UPPER ) THEN
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               ELSE
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               END IF
+            ELSE
+               IF( UPPER ) THEN
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               ELSE
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               END IF
+            END IF
+*
+            DO I = IFIRST, ILAST, IINC
+*              I1: row index of the first column in X( I, K )
+*              I2: row index of the first column in X( I+1, K )
+*              so the I2 - I1 is the row count of the block X( I, K )
+               I1 = (I-1)*NB + 1
+               I2 = MIN( I*NB, N ) + 1
+*
+*              Prepare the linear update to be executed with GEMM.
+*              For each column, compute a consistent scaling, a
+*              scaling factor to survive the linear update, and
+*              rescale the column segments, if necesssary. Then
+*              the linear update is safely executed.
+*
+               DO KK = 1, K2-K1
+                  RHS = K1 + KK - 1
+*                 Compute consistent scaling
+                  SCAMIN = MIN( WORK( I + KK*LDS), WORK( J + KK*LDS ) )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  BNRM = DLANGE( 'I', I2-I1, 1, X( I1, RHS ), LDX, W )
+                  BNRM = BNRM*( SCAMIN / WORK( I+KK*LDS ) )
+                  XNRM( KK ) = XNRM( KK )*(SCAMIN / WORK( J+KK*LDS ))
+                  ANRM = WORK( AWRK + I+(J-1)*NBA )
+                  SCALOC = DLARMM( ANRM, XNRM( KK ), BNRM )
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to B( I, KK ) and B( J, KK ).
+*
+                  SCAL = ( SCAMIN / WORK( I+KK*LDS) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL DSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+                     WORK( I+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+*
+                  SCAL = ( SCAMIN / WORK( J+KK*LDS ) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL DSCAL( J2-J1, SCAL, X( J1, RHS ), 1 )
+                     WORK( J+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+               END DO
+*
+               IF( NOTRAN ) THEN
+*
+*                 B( I, K ) := B( I, K ) - A( I, J ) * X( J, K )
+*
+                  CALL DGEMM( 'N', 'N', I2-I1, K2-K1, J2-J1, -ONE,
+     $                        A( I1, J1 ), LDA, X( J1, K1 ), LDX,
+     $                        ONE, X( I1, K1 ), LDX )
+               ELSE
+*
+*                 B( I, K ) := B( I, K ) - A( J, I )**T * X( J, K )
+*
+                  CALL DGEMM( 'T', 'N', I2-I1, K2-K1, J2-J1, -ONE,
+     $                        A( J1, I1 ), LDA, X( J1, K1 ), LDX,
+     $                        ONE, X( I1, K1 ), LDX )
+               END IF
+            END DO
+         END DO
+*
+*        Reduce local scaling factors
+*
+         DO KK = 1, K2-K1
+            RHS = K1 + KK - 1
+            DO I = 1, NBA
+               SCALE( RHS ) = MIN( SCALE( RHS ), WORK( I+KK*LDS ) )
+            END DO
+         END DO
+*
+*        Realize consistent scaling
+*
+         DO KK = 1, K2-K1
+            RHS = K1 + KK - 1
+            IF( SCALE( RHS ).NE.ONE .AND. SCALE( RHS ).NE. ZERO ) THEN
+               DO I = 1, NBA
+                  I1 = (I-1)*NB + 1
+                  I2 = MIN( I*NB, N ) + 1
+                  SCAL = SCALE( RHS ) / WORK( I+KK*LDS )
+                  IF( SCAL.NE.ONE )
+     $               CALL DSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+               END DO
+            END IF
+         END DO
+      END DO
+      RETURN
+*
+*     End of DLATRS3
+*
+      END
diff --git a/lapack-netlib/SRC/dtrsyl3.f b/lapack-netlib/SRC/dtrsyl3.f
new file mode 100644
index 000000000..c44ec3808
--- /dev/null
+++ b/lapack-netlib/SRC/dtrsyl3.f
@@ -0,0 +1,1241 @@
+*> \brief \b DTRSYL3
+*
+* Definition:
+* ===========
+*
+*
+*>  \par Purpose
+*  =============
+*>
+*> \verbatim
+*>
+*>  DTRSYL3 solves the real Sylvester matrix equation:
+*>
+*>     op(A)*X + X*op(B) = scale*C or
+*>     op(A)*X - X*op(B) = scale*C,
+*>
+*>  where op(A) = A or A**T, and  A and B are both upper quasi-
+*>  triangular. A is M-by-M and B is N-by-N; the right hand side C and
+*>  the solution X are M-by-N; and scale is an output scale factor, set
+*>  <= 1 to avoid overflow in X.
+*>
+*>  A and B must be in Schur canonical form (as returned by DHSEQR), that
+*>  is, block upper triangular with 1-by-1 and 2-by-2 diagonal blocks;
+*>  each 2-by-2 diagonal block has its diagonal elements equal and its
+*>  off-diagonal elements of opposite sign.
+*>
+*>  This is the block version of the algorithm.
+*> \endverbatim
+*
+*  Arguments
+*  =========
+*
+*> \param[in] TRANA
+*> \verbatim
+*>          TRANA is CHARACTER*1
+*>          Specifies the option op(A):
+*>          = 'N': op(A) = A    (No transpose)
+*>          = 'T': op(A) = A**T (Transpose)
+*>          = 'C': op(A) = A**H (Conjugate transpose = Transpose)
+*> \endverbatim
+*>
+*> \param[in] TRANB
+*> \verbatim
+*>          TRANB is CHARACTER*1
+*>          Specifies the option op(B):
+*>          = 'N': op(B) = B    (No transpose)
+*>          = 'T': op(B) = B**T (Transpose)
+*>          = 'C': op(B) = B**H (Conjugate transpose = Transpose)
+*> \endverbatim
+*>
+*> \param[in] ISGN
+*> \verbatim
+*>          ISGN is INTEGER
+*>          Specifies the sign in the equation:
+*>          = +1: solve op(A)*X + X*op(B) = scale*C
+*>          = -1: solve op(A)*X - X*op(B) = scale*C
+*> \endverbatim
+*>
+*> \param[in] M
+*> \verbatim
+*>          M is INTEGER
+*>          The order of the matrix A, and the number of rows in the
+*>          matrices X and C. M >= 0.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix B, and the number of columns in the
+*>          matrices X and C. N >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is DOUBLE PRECISION array, dimension (LDA,M)
+*>          The upper quasi-triangular matrix A, in Schur canonical form.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A. LDA >= max(1,M).
+*> \endverbatim
+*>
+*> \param[in] B
+*> \verbatim
+*>          B is DOUBLE PRECISION array, dimension (LDB,N)
+*>          The upper quasi-triangular matrix B, in Schur canonical form.
+*> \endverbatim
+*>
+*> \param[in] LDB
+*> \verbatim
+*>          LDB is INTEGER
+*>          The leading dimension of the array B. LDB >= max(1,N).
+*> \endverbatim
+*>
+*> \param[in,out] C
+*> \verbatim
+*>          C is DOUBLE PRECISION array, dimension (LDC,N)
+*>          On entry, the M-by-N right hand side matrix C.
+*>          On exit, C is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDC
+*> \verbatim
+*>          LDC is INTEGER
+*>          The leading dimension of the array C. LDC >= max(1,M)
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is DOUBLE PRECISION
+*>          The scale factor, scale, set <= 1 to avoid overflow in X.
+*> \endverbatim
+*>
+*> \param[out] IWORK
+*> \verbatim
+*>          IWORK is INTEGER array, dimension (MAX(1,LIWORK))
+*>          On exit, if INFO = 0, IWORK(1) returns the optimal LIWORK.
+*> \endverbatim
+*>
+*> \param[in] LIWORK
+*> \verbatim
+*>          IWORK is INTEGER
+*>          The dimension of the array IWORK. LIWORK >=  ((M + NB - 1) / NB + 1)
+*>          + ((N + NB - 1) / NB + 1), where NB is the optimal block size.
+*>
+*>          If LIWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimension of the IWORK array,
+*>          returns this value as the first entry of the IWORK array, and
+*>          no error message related to LIWORK is issued by XERBLA.
+*> \endverbatim
+*>
+*> \param[out] SWORK
+*> \verbatim
+*>          SWORK is DOUBLE PRECISION array, dimension (MAX(2, ROWS),
+*>          MAX(1,COLS)).
+*>          On exit, if INFO = 0, SWORK(1) returns the optimal value ROWS
+*>          and SWORK(2) returns the optimal COLS.
+*> \endverbatim
+*>
+*> \param[in] LDSWORK
+*> \verbatim
+*>          LDSWORK is INTEGER
+*>          LDSWORK >= MAX(2,ROWS), where ROWS = ((M + NB - 1) / NB + 1)
+*>          and NB is the optimal block size.
+*>
+*>          If LDSWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the SWORK matrix,
+*>          returns these values as the first and second entry of the SWORK
+*>          matrix, and no error message related LWORK is issued by XERBLA.
+*> \endverbatim
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0: successful exit
+*>          < 0: if INFO = -i, the i-th argument had an illegal value
+*>          = 1: A and B have common or very close eigenvalues; perturbed
+*>               values were used to solve the equation (but the matrices
+*>               A and B are unchanged).
+*> \endverbatim
+*
+*  =====================================================================
+*  References:
+*   E. S. Quintana-Orti and R. A. Van De Geijn (2003). Formal derivation of
+*   algorithms: The triangular Sylvester equation, ACM Transactions
+*   on Mathematical Software (TOMS), volume 29, pages 218--243.
+*
+*   A. Schwarz and C. C. Kjelgaard Mikkelsen (2020). Robust Task-Parallel
+*   Solution of the Triangular Sylvester Equation. Lecture Notes in
+*   Computer Science, vol 12043, pages 82--92, Springer.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE DTRSYL3( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB, C,
+     $                    LDC, SCALE, IWORK, LIWORK, SWORK, LDSWORK,
+     $                    INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          TRANA, TRANB
+      INTEGER            INFO, ISGN, LDA, LDB, LDC, M, N,
+     $                   LIWORK, LDSWORK
+      DOUBLE PRECISION   SCALE
+*     ..
+*     .. Array Arguments ..
+      INTEGER            IWORK( * )
+      DOUBLE PRECISION   A( LDA, * ), B( LDB, * ), C( LDC, * ),
+     $                   SWORK( LDSWORK, * )
+*     ..
+*     .. Parameters ..
+      DOUBLE PRECISION   ZERO, ONE
+      PARAMETER          ( ZERO = 0.0D+0, ONE = 1.0D+0 )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            NOTRNA, NOTRNB, LQUERY, SKIP
+      INTEGER            AWRK, BWRK, I, I1, I2, IINFO, J, J1, J2, JJ,
+     $                   K, K1, K2, L, L1, L2, LL, NBA, NB, NBB, PC
+      DOUBLE PRECISION   ANRM, BIGNUM, BNRM, CNRM, SCAL, SCALOC,
+     $                   SCAMIN, SGN, XNRM, BUF, SMLNUM
+*     ..
+*     .. Local Arrays ..
+      DOUBLE PRECISION   WNRM( MAX( M, N ) )
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      DOUBLE PRECISION   DLANGE, DLAMCH, DLARMM
+      EXTERNAL           DLANGE, DLAMCH, DLARMM, ILAENV, LSAME
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           DGEMM, DLASCL, DSCAL, DTRSYL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, DBLE, EXPONENT, MAX, MIN
+*     ..
+*     .. Executable Statements ..
+*
+*     Decode and Test input parameters
+*
+      NOTRNA = LSAME( TRANA, 'N' )
+      NOTRNB = LSAME( TRANB, 'N' )
+*
+*     Use the same block size for all matrices.
+*
+      NB = MAX(8, ILAENV( 1, 'DTRSYL', '', M, N, -1, -1) )
+*
+*     Compute number of blocks in A and B
+*
+      NBA = MAX( 1, (M + NB - 1) / NB )
+      NBB = MAX( 1, (N + NB - 1) / NB )
+*
+*     Compute workspace
+*
+      INFO = 0
+      LQUERY = ( LIWORK.EQ.-1 .OR. LDSWORK.EQ.-1 )
+      IWORK( 1 ) = NBA + NBB + 2
+      IF( LQUERY ) THEN
+         LDSWORK = 2
+         SWORK( 1, 1 ) = MAX( NBA, NBB )
+         SWORK( 2, 1 ) = 2 * NBB + NBA
+      END IF
+*
+*     Test the input arguments
+*
+      IF( .NOT.NOTRNA .AND. .NOT.LSAME( TRANA, 'T' ) .AND. .NOT.
+     $    LSAME( TRANA, 'C' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRNB .AND. .NOT.LSAME( TRANB, 'T' ) .AND. .NOT.
+     $         LSAME( TRANB, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( ISGN.NE.1 .AND. ISGN.NE.-1 ) THEN
+         INFO = -3
+      ELSE IF( M.LT.0 ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( LDA.LT.MAX( 1, M ) ) THEN
+         INFO = -7
+      ELSE IF( LDB.LT.MAX( 1, N ) ) THEN
+         INFO = -9
+      ELSE IF( LDC.LT.MAX( 1, M ) ) THEN
+         INFO = -11
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'DTRSYL3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Quick return if possible
+*
+      SCALE = ONE
+      IF( M.EQ.0 .OR. N.EQ.0 )
+     $   RETURN
+*
+*     Use unblocked code for small problems or if insufficient
+*     workspaces are provided
+*
+      IF( MIN( NBA, NBB ).EQ.1 .OR. LDSWORK.LT.MAX( NBA, NBB ) .OR.
+     $    LIWORK.LT.IWORK(1) ) THEN
+        CALL DTRSYL( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB,
+     $               C, LDC, SCALE, INFO )
+        RETURN
+      END IF
+*
+*     Set constants to control overflow
+*
+      SMLNUM = DLAMCH( 'S' )
+      BIGNUM = ONE / SMLNUM
+*
+*      Partition A such that 2-by-2 blocks on the diagonal are not split
+*
+       SKIP = .FALSE.
+       DO I = 1, NBA
+          IWORK( I ) = ( I - 1 ) * NB + 1
+       END DO
+       IWORK( NBA + 1 ) = M + 1
+       DO K = 1, NBA
+          L1 = IWORK( K )
+          L2 = IWORK( K + 1 ) - 1
+          DO L = L1, L2
+             IF( SKIP ) THEN
+                SKIP = .FALSE.
+                CYCLE
+             END IF
+             IF( L.GE.M ) THEN
+*               A( M, M ) is a 1-by-1 block
+                CYCLE
+             END IF
+             IF( A( L, L+1 ).NE.ZERO .AND. A( L+1, L ).NE.ZERO ) THEN
+*               Check if 2-by-2 block is split
+                IF( L + 1 .EQ. IWORK( K + 1 ) ) THEN
+                   IWORK( K + 1 ) = IWORK( K + 1 ) + 1
+                   CYCLE
+                END IF
+                SKIP = .TRUE.
+             END IF
+          END DO
+       END DO
+       IWORK( NBA + 1 ) = M + 1
+       IF( IWORK( NBA ).GE.IWORK( NBA + 1 ) ) THEN
+          IWORK( NBA ) = IWORK( NBA + 1 )
+          NBA = NBA - 1
+       END IF
+*
+*      Partition B such that 2-by-2 blocks on the diagonal are not split
+*
+       PC = NBA + 1
+       SKIP = .FALSE.
+       DO I = 1, NBB
+          IWORK( PC + I ) = ( I - 1 ) * NB + 1
+       END DO
+       IWORK( PC + NBB + 1 ) = N + 1
+       DO K = 1, NBB
+          L1 = IWORK( PC + K )
+          L2 = IWORK( PC + K + 1 ) - 1
+          DO L = L1, L2
+             IF( SKIP ) THEN
+                SKIP = .FALSE.
+                CYCLE
+             END IF
+             IF( L.GE.N ) THEN
+*               B( N, N ) is a 1-by-1 block
+                CYCLE
+             END IF
+             IF( B( L, L+1 ).NE.ZERO .AND. B( L+1, L ).NE.ZERO ) THEN
+*               Check if 2-by-2 block is split
+                IF( L + 1 .EQ. IWORK( PC + K + 1 ) ) THEN
+                   IWORK( PC + K + 1 ) = IWORK( PC + K + 1 ) + 1
+                   CYCLE
+                END IF
+                SKIP = .TRUE.
+             END IF
+          END DO
+       END DO
+       IWORK( PC + NBB + 1 ) = N + 1
+       IF( IWORK( PC + NBB ).GE.IWORK( PC + NBB + 1 ) ) THEN
+          IWORK( PC + NBB ) = IWORK( PC + NBB + 1 )
+          NBB = NBB - 1
+       END IF
+*
+*     Set local scaling factors - must never attain zero.
+*
+      DO L = 1, NBB
+         DO K = 1, NBA
+            SWORK( K, L ) = ONE
+         END DO
+      END DO
+*
+*     Fallback scaling factor to prevent flushing of SWORK( K, L ) to zero.
+*     This scaling is to ensure compatibility with TRSYL and may get flushed.
+*
+      BUF = ONE
+*
+*     Compute upper bounds of blocks of A and B
+*
+      AWRK = NBB
+      DO K = 1, NBA
+         K1 = IWORK( K )
+         K2 = IWORK( K + 1 )
+         DO L = K, NBA
+            L1 = IWORK( L )
+            L2 = IWORK( L + 1 )
+            IF( NOTRNA ) THEN
+               SWORK( K, AWRK + L ) = DLANGE( 'I', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            ELSE
+               SWORK( L, AWRK + K ) = DLANGE( '1', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            END IF
+         END DO
+      END DO
+      BWRK = NBB + NBA
+      DO K = 1, NBB
+         K1 = IWORK( PC + K )
+         K2 = IWORK( PC + K + 1 )
+         DO L = K, NBB
+            L1 = IWORK( PC + L )
+            L2 = IWORK( PC + L + 1 )
+            IF( NOTRNB ) THEN
+               SWORK( K, BWRK + L ) = DLANGE( 'I', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            ELSE
+               SWORK( L, BWRK + K ) = DLANGE( '1', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            END IF
+         END DO
+      END DO
+*
+      SGN = DBLE( ISGN )
+*
+      IF( NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-left corner column by column by
+*
+*         A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                  M                         L-1
+*        R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(J,L)].
+*                I=K+1                       J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL DTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF ( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = DLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K - 1, 1, -1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                      DO JJ = L1, L2-1
+                         CALL DSCAL( K2-K1, SCAL, C( K1, JJ ), 1)
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                      DO LL = L1, L2-1
+                         CALL DSCAL( I2-I1, SCAL, C( I1, LL ), 1)
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK(L, BWRK + J)
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO JJ = J1, J2-1
+                         CALL DSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A**T*X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        upper-left corner column by column by
+*
+*          A(K,K)**T*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                   K-1                        L-1
+*          R(K,L) = SUM [A(I,K)**T*X(I,L)] +ISGN*SUM [X(K,J)*B(J,L)]
+*                   I=1                        J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL DTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = DLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**T * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'T', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( K, J ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO LL = L1, L2-1
+                         CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A**T*X + ISGN*X*B**T = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        top-right corner column by column by
+*
+*           A(K,K)**T*X(K,L) + ISGN*X(K,L)*B(L,L)**T = C(K,L) - R(K,L)
+*
+*        Where
+*                     K-1                          N
+*            R(K,L) = SUM [A(I,K)**T*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**T].
+*                     I=1                        J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL DTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               XNRM = DLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**T * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'T', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**T
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1)
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'N', 'T', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B**T = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-right corner column by column by
+*
+*            A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L)**T = C(K,L) - R(K,L)
+*
+*        Where
+*                      M                          N
+*            R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**T].
+*                    I=K+1                      J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL DTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = DLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = 1, K - 1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL DSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**T
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = DLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = L1, L2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL DSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL DGEMM( 'N', 'T', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+*
+      END IF
+*
+*     Reduce local scaling factors
+*
+      SCALE = SWORK( 1, 1 )
+      DO K = 1, NBA
+         DO L = 1, NBB
+            SCALE = MIN( SCALE, SWORK( K, L ) )
+         END DO
+      END DO
+*
+      IF( SCALE .EQ. ZERO ) THEN
+*
+*        The magnitude of the largest entry of the solution is larger
+*        than the product of BIGNUM**2 and cannot be represented in the
+*        form (1/SCALE)*X if SCALE is DOUBLE PRECISION. Set SCALE to
+*        zero and give up.
+*
+         IWORK(1) = NBA + NBB + 2
+         SWORK(1,1) = MAX( NBA, NBB )
+         SWORK(2,1) = 2 * NBB + NBA
+         RETURN
+      END IF
+*
+*     Realize consistent scaling
+*
+      DO K = 1, NBA
+         K1 = IWORK( K )
+         K2 = IWORK( K + 1 )
+         DO L = 1, NBB
+            L1 = IWORK( PC + L )
+            L2 = IWORK( PC + L + 1 )
+            SCAL = SCALE / SWORK( K, L )
+            IF( SCAL .NE. ONE ) THEN
+               DO LL = L1, L2-1
+                  CALL DSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+               END DO
+            ENDIF
+         END DO
+      END DO
+*
+      IF( BUF .NE. ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        Decrease SCALE as much as possible.
+*
+         SCALOC = MIN( SCALE / SMLNUM, ONE / BUF )
+         BUF = BUF * SCALOC
+         SCALE = SCALE / SCALOC
+      END IF
+
+      IF( BUF.NE.ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        In case of overly aggressive scaling during the computation,
+*        flushing of the global scale factor may be prevented by
+*        undoing some of the scaling. This step is to ensure that
+*        this routine flushes only scale factors that TRSYL also
+*        flushes and be usable as a drop-in replacement.
+*
+*        How much can the normwise largest entry be upscaled?
+*
+         SCAL = C( 1, 1 )
+         DO K = 1, M
+            DO L = 1, N
+               SCAL = MAX( SCAL, ABS( C( K, L ) ) )
+            END DO
+         END DO
+*
+*        Increase BUF as close to 1 as possible and apply scaling.
+*
+         SCALOC = MIN( BIGNUM / SCAL, ONE / BUF )
+         BUF = BUF * SCALOC
+         CALL DLASCL( 'G', -1, -1, ONE, SCALOC, M, N, C, LDC, IWORK )
+      END IF
+*
+*     Combine with buffer scaling factor. SCALE will be flushed if
+*     BUF is less than one here.
+*
+      SCALE = SCALE * BUF
+*
+*     Restore workspace dimensions
+*
+      IWORK(1) = NBA + NBB + 2
+      SWORK(1,1) = MAX( NBA, NBB )
+      SWORK(2,1) = 2 * NBB + NBA
+*
+      RETURN
+*
+*     End of DTRSYL3
+*
+      END
diff --git a/lapack-netlib/SRC/ilaenv.f b/lapack-netlib/SRC/ilaenv.f
index af2850398..a639e0375 100644
--- a/lapack-netlib/SRC/ilaenv.f
+++ b/lapack-netlib/SRC/ilaenv.f
@@ -469,6 +469,15 @@
             ELSE
                NB = 64
             END IF
+         ELSE IF( C3.EQ.'SYL' ) THEN
+*           The upper bound is to prevent overly aggressive scaling.
+            IF( SNAME ) THEN
+               NB = MIN( MAX( 48, INT( ( MIN( N1, N2 ) * 16 ) / 100) ),
+     $                   240 )
+            ELSE
+               NB = MIN( MAX( 24, INT( ( MIN( N1, N2 ) * 8 ) / 100) ),
+     $                   80 )
+            END IF
          END IF
       ELSE IF( C2.EQ.'LA' ) THEN
          IF( C3.EQ.'UUM' ) THEN
@@ -477,6 +486,12 @@
             ELSE
                NB = 64
             END IF
+         ELSE IF( C3.EQ.'TRS' ) THEN
+            IF( SNAME ) THEN
+               NB = 32
+            ELSE
+               NB = 32
+            END IF
          END IF
       ELSE IF( SNAME .AND. C2.EQ.'ST' ) THEN
          IF( C3.EQ.'EBZ' ) THEN
diff --git a/lapack-netlib/SRC/slarmm.f b/lapack-netlib/SRC/slarmm.f
new file mode 100644
index 000000000..643dd6748
--- /dev/null
+++ b/lapack-netlib/SRC/slarmm.f
@@ -0,0 +1,99 @@
+*> \brief \b SLARMM
+*
+* Definition:
+* ===========
+*
+*      REAL FUNCTION SLARMM( ANORM, BNORM, CNORM )
+*
+*     .. Scalar Arguments ..
+*      REAL               ANORM, BNORM, CNORM
+*     ..
+*
+*>  \par Purpose:
+*  =======
+*>
+*> \verbatim
+*>
+*> SLARMM returns a factor s in (0, 1] such that the linear updates
+*>
+*>    (s * C) - A * (s * B)  and  (s * C) - (s * A) * B
+*>
+*> cannot overflow, where A, B, and C are matrices of conforming
+*> dimensions.
+*>
+*> This is an auxiliary routine so there is no argument checking.
+*> \endverbatim
+*
+*  Arguments:
+*  =========
+*
+*> \param[in] ANORM
+*> \verbatim
+*>          ANORM is REAL
+*>          The infinity norm of A. ANORM >= 0.
+*>          The number of rows of the matrix A.  M >= 0.
+*> \endverbatim
+*>
+*> \param[in] BNORM
+*> \verbatim
+*>          BNORM is REAL
+*>          The infinity norm of B. BNORM >= 0.
+*> \endverbatim
+*>
+*> \param[in] CNORM
+*> \verbatim
+*>          CNORM is REAL
+*>          The infinity norm of C. CNORM >= 0.
+*> \endverbatim
+*>
+*>
+*  =====================================================================
+*>  References:
+*>    C. C. Kjelgaard Mikkelsen and L. Karlsson, Blocked Algorithms for
+*>    Robust Solution of Triangular Linear Systems. In: International
+*>    Conference on Parallel Processing and Applied Mathematics, pages
+*>    68--78. Springer, 2017.
+*>
+*> \ingroup OTHERauxiliary
+*  =====================================================================
+
+      REAL FUNCTION SLARMM( ANORM, BNORM, CNORM )
+      IMPLICIT NONE
+*     .. Scalar Arguments ..
+      REAL               ANORM, BNORM, CNORM
+*     .. Parameters ..
+      REAL               ONE, HALF, FOUR
+      PARAMETER          ( ONE = 1.0E0, HALF = 0.5E+0, FOUR = 4.0E+0 )
+*     ..
+*     .. Local Scalars ..
+      REAL               BIGNUM, SMLNUM
+*     ..
+*     .. External Functions ..
+      REAL               SLAMCH
+      EXTERNAL           SLAMCH
+*     ..
+*     .. Executable Statements ..
+*
+*
+*     Determine machine dependent parameters to control overflow.
+*
+      SMLNUM = SLAMCH( 'Safe minimum' ) / SLAMCH( 'Precision' )
+      BIGNUM = ( ONE / SMLNUM ) / FOUR
+*
+*     Compute a scale factor.
+*
+      SLARMM = ONE
+      IF( BNORM .LE. ONE ) THEN
+         IF( ANORM * BNORM .GT. BIGNUM - CNORM ) THEN
+            SLARMM = HALF
+         END IF
+      ELSE
+         IF( ANORM .GT. (BIGNUM - CNORM) / BNORM ) THEN
+            SLARMM = HALF / BNORM
+         END IF
+      END IF
+      RETURN
+*
+*     ==== End of SLARMM ====
+*
+      END
diff --git a/lapack-netlib/SRC/slatrs3.f b/lapack-netlib/SRC/slatrs3.f
new file mode 100644
index 000000000..c3a08e524
--- /dev/null
+++ b/lapack-netlib/SRC/slatrs3.f
@@ -0,0 +1,656 @@
+*> \brief \b SLATRS3 solves a triangular system of equations with the scale factors set to prevent overflow.
+*
+*  Definition:
+*  ===========
+*
+*      SUBROUTINE SLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+*                          X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+*
+*       .. Scalar Arguments ..
+*       CHARACTER          DIAG, NORMIN, TRANS, UPLO
+*       INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*       ..
+*       .. Array Arguments ..
+*       REAL               A( LDA, * ), CNORM( * ), SCALE( * ), 
+*                          WORK( * ), X( LDX, * )
+*       ..
+*
+*
+*> \par Purpose:
+*  =============
+*>
+*> \verbatim
+*>
+*> SLATRS3 solves one of the triangular systems
+*>
+*>    A * X = B * diag(scale)  or  A**T * X = B * diag(scale)
+*>
+*> with scaling to prevent overflow.  Here A is an upper or lower
+*> triangular matrix, A**T denotes the transpose of A. X and B are
+*> n by nrhs matrices and scale is an nrhs element vector of scaling
+*> factors. A scaling factor scale(j) is usually less than or equal
+*> to 1, chosen such that X(:,j) is less than the overflow threshold.
+*> If the matrix A is singular (A(j,j) = 0 for some j), then
+*> a non-trivial solution to A*X = 0 is returned. If the system is
+*> so badly scaled that the solution cannot be represented as
+*> (1/scale(k))*X(:,k), then x(:,k) = 0 and scale(k) is returned.
+*>
+*> This is a BLAS-3 version of LATRS for solving several right
+*> hand sides simultaneously.
+*>
+*> \endverbatim
+*
+*  Arguments:
+*  ==========
+*
+*> \param[in] UPLO
+*> \verbatim
+*>          UPLO is CHARACTER*1
+*>          Specifies whether the matrix A is upper or lower triangular.
+*>          = 'U':  Upper triangular
+*>          = 'L':  Lower triangular
+*> \endverbatim
+*>
+*> \param[in] TRANS
+*> \verbatim
+*>          TRANS is CHARACTER*1
+*>          Specifies the operation applied to A.
+*>          = 'N':  Solve A * x = s*b  (No transpose)
+*>          = 'T':  Solve A**T* x = s*b  (Transpose)
+*>          = 'C':  Solve A**T* x = s*b  (Conjugate transpose = Transpose)
+*> \endverbatim
+*>
+*> \param[in] DIAG
+*> \verbatim
+*>          DIAG is CHARACTER*1
+*>          Specifies whether or not the matrix A is unit triangular.
+*>          = 'N':  Non-unit triangular
+*>          = 'U':  Unit triangular
+*> \endverbatim
+*>
+*> \param[in] NORMIN
+*> \verbatim
+*>          NORMIN is CHARACTER*1
+*>          Specifies whether CNORM has been set or not.
+*>          = 'Y':  CNORM contains the column norms on entry
+*>          = 'N':  CNORM is not set on entry.  On exit, the norms will
+*>                  be computed and stored in CNORM.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix A.  N >= 0.
+*> \endverbatim
+*>
+*> \param[in] NRHS
+*> \verbatim
+*>          NRHS is INTEGER
+*>          The number of columns of X.  NRHS >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is REAL array, dimension (LDA,N)
+*>          The triangular matrix A.  If UPLO = 'U', the leading n by n
+*>          upper triangular part of the array A contains the upper
+*>          triangular matrix, and the strictly lower triangular part of
+*>          A is not referenced.  If UPLO = 'L', the leading n by n lower
+*>          triangular part of the array A contains the lower triangular
+*>          matrix, and the strictly upper triangular part of A is not
+*>          referenced.  If DIAG = 'U', the diagonal elements of A are
+*>          also not referenced and are assumed to be 1.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A.  LDA >= max (1,N).
+*> \endverbatim
+*>
+*> \param[in,out] X
+*> \verbatim
+*>          X is REAL array, dimension (LDX,NRHS)
+*>          On entry, the right hand side B of the triangular system.
+*>          On exit, X is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDX
+*> \verbatim
+*>          LDX is INTEGER
+*>          The leading dimension of the array X.  LDX >= max (1,N).
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is REAL array, dimension (NRHS)
+*>          The scaling factor s(k) is for the triangular system
+*>          A * x(:,k) = s(k)*b(:,k)  or  A**T* x(:,k) = s(k)*b(:,k).
+*>          If SCALE = 0, the matrix A is singular or badly scaled.
+*>          If A(j,j) = 0 is encountered, a non-trivial vector x(:,k)
+*>          that is an exact or approximate solution to A*x(:,k) = 0
+*>          is returned. If the system so badly scaled that solution
+*>          cannot be presented as x(:,k) * 1/s(k), then x(:,k) = 0
+*>          is returned.
+*> \endverbatim
+*>
+*> \param[in,out] CNORM
+*> \verbatim
+*>          CNORM is REAL array, dimension (N)
+*>
+*>          If NORMIN = 'Y', CNORM is an input argument and CNORM(j)
+*>          contains the norm of the off-diagonal part of the j-th column
+*>          of A.  If TRANS = 'N', CNORM(j) must be greater than or equal
+*>          to the infinity-norm, and if TRANS = 'T' or 'C', CNORM(j)
+*>          must be greater than or equal to the 1-norm.
+*>
+*>          If NORMIN = 'N', CNORM is an output argument and CNORM(j)
+*>          returns the 1-norm of the offdiagonal part of the j-th column
+*>          of A.
+*> \endverbatim
+*>
+*> \param[out] WORK
+*> \verbatim
+*>          WORK is REAL array, dimension (LWORK).
+*>          On exit, if INFO = 0, WORK(1) returns the optimal size of
+*>          WORK.
+*> \endverbatim
+*>
+*> \param[in] LWORK
+*>          LWORK is INTEGER
+*>          LWORK >= MAX(1, 2*NBA * MAX(NBA, MIN(NRHS, 32)), where
+*>          NBA = (N + NB - 1)/NB and NB is the optimal block size.
+*>
+*>          If LWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the WORK array, returns
+*>          this value as the first entry of the WORK array, and no error
+*>          message related to LWORK is issued by XERBLA.
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0:  successful exit
+*>          < 0:  if INFO = -k, the k-th argument had an illegal value
+*> \endverbatim
+*
+*  Authors:
+*  ========
+*
+*> \author Univ. of Tennessee
+*> \author Univ. of California Berkeley
+*> \author Univ. of Colorado Denver
+*> \author NAG Ltd.
+*
+*> \ingroup doubleOTHERauxiliary
+*> \par Further Details:
+*  =====================
+*  \verbatim
+*  The algorithm follows the structure of a block triangular solve.
+*  The diagonal block is solved with a call to the robust the triangular
+*  solver LATRS for every right-hand side RHS = 1, ..., NRHS
+*     op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS ),
+*  where op( A ) = A or op( A ) = A**T.
+*  The linear block updates operate on block columns of X,
+*     B( I, K ) - op(A( I, J )) * X( J, K )
+*  and use GEMM. To avoid overflow in the linear block update, the worst case
+*  growth is estimated. For every RHS, a scale factor s <= 1.0 is computed
+*  such that
+*     || s * B( I, RHS )||_oo
+*   + || op(A( I, J )) ||_oo * || s *  X( J, RHS ) ||_oo <= Overflow threshold
+*
+*  Once all columns of a block column have been rescaled (BLAS-1), the linear
+*  update is executed with GEMM without overflow.
+*
+*  To limit rescaling, local scale factors track the scaling of column segments.
+*  There is one local scale factor s( I, RHS ) per block row I = 1, ..., NBA
+*  per right-hand side column RHS = 1, ..., NRHS. The global scale factor
+*  SCALE( RHS ) is chosen as the smallest local scale factor s( I, RHS )
+*  I = 1, ..., NBA.
+*  A triangular solve op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS )
+*  updates the local scale factor s( J, RHS ) := s( J, RHS ) * SCALOC. The
+*  linear update of potentially inconsistently scaled vector segments
+*     s( I, RHS ) * b( I, RHS ) - op(A( I, J )) * ( s( J, RHS )* x( J, RHS ) )
+*  computes a consistent scaling SCAMIN = MIN( s(I, RHS ), s(J, RHS) ) and,
+*  if necessary, rescales the blocks prior to calling GEMM.
+*
+*  \endverbatim
+*  =====================================================================
+*  References:
+*  C. C. Kjelgaard Mikkelsen, A. B. Schwarz and L. Karlsson (2019).
+*  Parallel robust solution of triangular linear systems. Concurrency
+*  and Computation: Practice and Experience, 31(19), e5064.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE SLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+     $                    X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          DIAG, TRANS, NORMIN, UPLO
+      INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*     ..
+*     .. Array Arguments ..
+      REAL               A( LDA, * ), CNORM( * ), X( LDX, * ),
+     $                   SCALE( * ), WORK( * )
+*     ..
+*
+*  =====================================================================
+*
+*     .. Parameters ..
+      REAL               ZERO, ONE
+      PARAMETER          ( ZERO = 0.0E+0, ONE = 1.0E+0 )
+      INTEGER            NBMAX, NBMIN, NBRHS, NRHSMIN
+      PARAMETER          ( NRHSMIN = 2, NBRHS = 32 )
+      PARAMETER          ( NBMIN = 8, NBMAX = 64 )
+*     ..
+*     .. Local Arrays ..
+      REAL               W( NBMAX ), XNRM( NBRHS )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            LQUERY, NOTRAN, NOUNIT, UPPER
+      INTEGER            AWRK, I, IFIRST, IINC, ILAST, II, I1, I2, J,
+     $                   JFIRST, JINC, JLAST, J1, J2, K, KK, K1, K2,
+     $                   LANRM, LDS, LSCALE, NB, NBA, NBX, RHS
+      REAL               ANRM, BIGNUM, BNRM, RSCAL, SCAL, SCALOC,
+     $                   SCAMIN, SMLNUM, TMAX
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      REAL               SLAMCH, SLANGE, SLARMM
+      EXTERNAL           ILAENV, LSAME, SLAMCH, SLANGE, SLARMM
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           SLATRS, SSCAL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, MAX, MIN
+*     ..
+*     .. Executable Statements ..
+*
+      INFO = 0
+      UPPER = LSAME( UPLO, 'U' )
+      NOTRAN = LSAME( TRANS, 'N' )
+      NOUNIT = LSAME( DIAG, 'N' )
+      LQUERY = ( LWORK.EQ.-1 )
+*
+*     Partition A and X into blocks.
+*
+      NB = MAX( 8, ILAENV( 1, 'SLATRS', '', N, N, -1, -1 ) )
+      NB = MIN( NBMAX, NB )
+      NBA = MAX( 1, (N + NB - 1) / NB )
+      NBX = MAX( 1, (NRHS + NBRHS - 1) / NBRHS )
+*
+*     Compute the workspace
+*
+*     The workspace comprises two parts.
+*     The first part stores the local scale factors. Each simultaneously
+*     computed right-hand side requires one local scale factor per block
+*     row. WORK( I + KK * LDS ) is the scale factor of the vector
+*     segment associated with the I-th block row and the KK-th vector
+*     in the block column.
+      LSCALE = NBA * MAX( NBA, MIN( NRHS, NBRHS ) )
+      LDS = NBA
+*     The second part stores upper bounds of the triangular A. There are
+*     a total of NBA x NBA blocks, of which only the upper triangular
+*     part or the lower triangular part is referenced. The upper bound of
+*     the block A( I, J ) is stored as WORK( AWRK + I + J * NBA ).
+      LANRM = NBA * NBA
+      AWRK = LSCALE
+      WORK( 1 ) = LSCALE + LANRM
+*
+*     Test the input parameters.
+*
+      IF( .NOT.UPPER .AND. .NOT.LSAME( UPLO, 'L' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRAN .AND. .NOT.LSAME( TRANS, 'T' ) .AND. .NOT.
+     $         LSAME( TRANS, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( .NOT.NOUNIT .AND. .NOT.LSAME( DIAG, 'U' ) ) THEN
+         INFO = -3
+      ELSE IF( .NOT.LSAME( NORMIN, 'Y' ) .AND. .NOT.
+     $         LSAME( NORMIN, 'N' ) ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( NRHS.LT.0 ) THEN
+         INFO = -6
+      ELSE IF( LDA.LT.MAX( 1, N ) ) THEN
+         INFO = -8
+      ELSE IF( LDX.LT.MAX( 1, N ) ) THEN
+         INFO = -10
+      ELSE IF( .NOT.LQUERY .AND. LWORK.LT.WORK( 1 ) ) THEN
+         INFO = -14
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'SLATRS3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Initialize scaling factors
+*
+      DO KK = 1, NRHS
+         SCALE( KK ) = ONE
+      END DO
+*
+*     Quick return if possible
+*
+      IF( MIN( N, NRHS ).EQ.0 )
+     $   RETURN
+*
+*     Determine machine dependent constant to control overflow.
+*
+      BIGNUM = SLAMCH( 'Overflow' )
+      SMLNUM = SLAMCH( 'Safe Minimum' )
+*
+*     Use unblocked code for small problems
+*
+      IF( NRHS.LT.NRHSMIN ) THEN
+         CALL SLATRS( UPLO, TRANS, DIAG, NORMIN, N, A, LDA, X( 1, 1),
+     $                SCALE( 1 ), CNORM, INFO )
+         DO K = 2, NRHS
+            CALL SLATRS( UPLO, TRANS, DIAG, 'Y', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Compute norms of blocks of A excluding diagonal blocks and find
+*     the block with the largest norm TMAX.
+*
+      TMAX = ZERO
+      DO J = 1, NBA
+         J1 = (J-1)*NB + 1
+         J2 = MIN( J*NB, N ) + 1
+         IF ( UPPER ) THEN
+            IFIRST = 1
+            ILAST = J - 1
+         ELSE
+            IFIRST = J + 1
+            ILAST = NBA
+         END IF
+         DO I = IFIRST, ILAST
+            I1 = (I-1)*NB + 1
+            I2 = MIN( I*NB, N ) + 1
+*
+*           Compute upper bound of A( I1:I2-1, J1:J2-1 ).
+*
+            IF( NOTRAN ) THEN
+               ANRM = SLANGE( 'I', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + I+(J-1)*NBA ) = ANRM
+            ELSE
+               ANRM = SLANGE( '1', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + J+(I-1)*NBA ) = ANRM
+            END IF
+            TMAX = MAX( TMAX, ANRM )
+         END DO
+      END DO
+*
+      IF( .NOT. TMAX.LE.SLAMCH('Overflow') ) THEN
+*
+*        Some matrix entries have huge absolute value. At least one upper
+*        bound norm( A(I1:I2-1, J1:J2-1), 'I') is not a valid floating-point
+*        number, either due to overflow in LANGE or due to Inf in A.
+*        Fall back to LATRS. Set normin = 'N' for every right-hand side to
+*        force computation of TSCAL in LATRS to avoid the likely overflow
+*        in the computation of the column norms CNORM.
+*
+         DO K = 1, NRHS
+            CALL SLATRS( UPLO, TRANS, DIAG, 'N', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Every right-hand side requires workspace to store NBA local scale
+*     factors. To save workspace, X is computed successively in block columns
+*     of width NBRHS, requiring a total of NBA x NBRHS space. If sufficient
+*     workspace is available, larger values of NBRHS or NBRHS = NRHS are viable.
+      DO K = 1, NBX
+*        Loop over block columns (index = K) of X and, for column-wise scalings,
+*        over individual columns (index = KK).
+*        K1: column index of the first column in X( J, K )
+*        K2: column index of the first column in X( J, K+1 )
+*        so the K2 - K1 is the column count of the block X( J, K )
+         K1 = (K-1)*NBRHS + 1
+         K2 = MIN( K*NBRHS, NRHS ) + 1
+*
+*        Initialize local scaling factors of current block column X( J, K )
+*
+         DO KK = 1, K2 - K1
+            DO I = 1, NBA
+               WORK( I+KK*LDS ) = ONE
+            END DO
+         END DO
+*
+         IF( NOTRAN ) THEN
+*
+*           Solve A * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*
+            IF( UPPER ) THEN
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            ELSE
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            END IF
+         ELSE
+*
+*           Solve A**T * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*
+            IF( UPPER ) THEN
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            ELSE
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            END IF
+         END IF
+*
+         DO J = JFIRST, JLAST, JINC
+*           J1: row index of the first row in A( J, J )
+*           J2: row index of the first row in A( J+1, J+1 )
+*           so that J2 - J1 is the row count of the block A( J, J )
+            J1 = (J-1)*NB + 1
+            J2 = MIN( J*NB, N ) + 1
+*
+*           Solve op(A( J, J )) * X( J, RHS ) = SCALOC * B( J, RHS )
+*           for all right-hand sides in the current block column,
+*           one RHS at a time.
+*
+            DO KK = 1, K2-K1
+               RHS = K1 + KK - 1
+               IF( KK.EQ.1 ) THEN
+                  CALL SLATRS( UPLO, TRANS, DIAG, 'N', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               ELSE
+                  CALL SLATRS( UPLO, TRANS, DIAG, 'Y', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               END IF
+*              Find largest absolute value entry in the vector segment
+*              X( J1:J2-1, RHS ) as an upper bound for the worst case
+*              growth in the linear updates.
+               XNRM( KK ) = SLANGE( 'I', J2-J1, 1, X( J1, RHS ),
+     $                              LDX, W )
+*
+               IF( SCALOC .EQ. ZERO ) THEN
+*                 LATRS found that A is singular through A(j,j) = 0.
+*                 Reset the computation x(1:n) = 0, x(j) = 1, SCALE = 0
+*                 and compute A*x = 0 (or A**T*x = 0). Note that
+*                 X(J1:J2-1, KK) is set by LATRS.
+                  SCALE( RHS ) = ZERO
+                  DO II = 1, J1-1
+                     X( II, KK ) = ZERO
+                  END DO
+                  DO II = J2, N
+                     X( II, KK ) = ZERO
+                  END DO
+*                 Discard the local scale factors.
+                  DO II = 1, NBA
+                     WORK( II+KK*LDS ) = ONE
+                  END DO
+                  SCALOC = ONE
+               ELSE IF( SCALOC*WORK( J+KK*LDS ) .EQ. ZERO ) THEN
+*                 LATRS computed a valid scale factor, but combined with
+*                 the current scaling the solution does not have a
+*                 scale factor > 0.
+*
+*                 Set WORK( J+KK*LDS ) to smallest valid scale
+*                 factor and increase SCALOC accordingly.
+                  SCAL = WORK( J+KK*LDS ) / SMLNUM
+                  SCALOC = SCALOC * SCAL
+                  WORK( J+KK*LDS ) = SMLNUM
+*                 If LATRS overestimated the growth, x may be
+*                 rescaled to preserve a valid combined scale
+*                 factor WORK( J, KK ) > 0.
+                  RSCAL = ONE / SCALOC
+                  IF( XNRM( KK )*RSCAL .LE. BIGNUM ) THEN
+                     XNRM( KK ) = XNRM( KK ) * RSCAL
+                     CALL SSCAL( J2-J1, RSCAL, X( J1, RHS ), 1 )
+                     SCALOC = ONE
+                  ELSE
+*                    The system op(A) * x = b is badly scaled and its
+*                    solution cannot be represented as (1/scale) * x.
+*                    Set x to zero. This approach deviates from LATRS
+*                    where a completely meaningless non-zero vector
+*                    is returned that is not a solution to op(A) * x = b.
+                     SCALE( RHS ) = ZERO
+                     DO II = 1, N
+                        X( II, KK ) = ZERO
+                     END DO
+*                    Discard the local scale factors.
+                     DO II = 1, NBA
+                        WORK( II+KK*LDS ) = ONE
+                     END DO
+                     SCALOC = ONE
+                  END IF
+               END IF
+               SCALOC = SCALOC * WORK( J+KK*LDS )
+               WORK( J+KK*LDS ) = SCALOC
+            END DO
+*
+*           Linear block updates
+*
+            IF( NOTRAN ) THEN
+               IF( UPPER ) THEN
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               ELSE
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               END IF
+            ELSE
+               IF( UPPER ) THEN
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               ELSE
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               END IF
+            END IF
+*
+            DO I = IFIRST, ILAST, IINC
+*              I1: row index of the first column in X( I, K )
+*              I2: row index of the first column in X( I+1, K )
+*              so the I2 - I1 is the row count of the block X( I, K )
+               I1 = (I-1)*NB + 1
+               I2 = MIN( I*NB, N ) + 1
+*
+*              Prepare the linear update to be executed with GEMM.
+*              For each column, compute a consistent scaling, a
+*              scaling factor to survive the linear update, and
+*              rescale the column segments, if necesssary. Then
+*              the linear update is safely executed.
+*
+               DO KK = 1, K2-K1
+                  RHS = K1 + KK - 1
+*                 Compute consistent scaling
+                  SCAMIN = MIN( WORK( I+KK*LDS), WORK( J+KK*LDS ) )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  BNRM = SLANGE( 'I', I2-I1, 1, X( I1, RHS ), LDX, W )
+                  BNRM = BNRM*( SCAMIN / WORK( I+KK*LDS ) )
+                  XNRM( KK ) = XNRM( KK )*(SCAMIN / WORK( J+KK*LDS ))
+                  ANRM = WORK( AWRK + I+(J-1)*NBA )
+                  SCALOC = SLARMM( ANRM, XNRM( KK ), BNRM )
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to B( I, KK ) and B( J, KK ).
+*
+                  SCAL = ( SCAMIN / WORK( I+KK*LDS) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL SSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+                     WORK( I+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+*
+                  SCAL = ( SCAMIN / WORK( J+KK*LDS ) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL SSCAL( J2-J1, SCAL, X( J1, RHS ), 1 )
+                     WORK( J+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+               END DO
+*
+               IF( NOTRAN ) THEN
+*
+*                 B( I, K ) := B( I, K ) - A( I, J ) * X( J, K )
+*
+                  CALL SGEMM( 'N', 'N', I2-I1, K2-K1, J2-J1, -ONE,
+     $                        A( I1, J1 ), LDA, X( J1, K1 ), LDX,
+     $                        ONE, X( I1, K1 ), LDX )
+               ELSE
+*
+*                 B( I, K ) := B( I, K ) - A( I, J )**T * X( J, K )
+*
+                  CALL SGEMM( 'T', 'N', I2-I1, K2-K1, J2-J1, -ONE,
+     $                        A( J1, I1 ), LDA, X( J1, K1 ), LDX,
+     $                        ONE, X( I1, K1 ), LDX )
+               END IF
+            END DO
+         END DO
+*
+*        Reduce local scaling factors
+*
+         DO KK = 1, K2-K1
+            RHS = K1 + KK - 1
+            DO I = 1, NBA
+               SCALE( RHS ) = MIN( SCALE( RHS ), WORK( I+KK*LDS ) )
+            END DO
+         END DO
+*
+*        Realize consistent scaling
+*
+         DO KK = 1, K2-K1
+            RHS = K1 + KK - 1
+            IF( SCALE( RHS ).NE.ONE .AND. SCALE( RHS ).NE. ZERO ) THEN
+               DO I = 1, NBA
+                  I1 = (I-1)*NB + 1
+                  I2 = MIN( I*NB, N ) + 1
+                  SCAL = SCALE( RHS ) / WORK( I+KK*LDS )
+                  IF( SCAL.NE.ONE )
+     $               CALL SSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+               END DO
+            END IF
+         END DO
+      END DO
+      RETURN
+*
+*     End of SLATRS3
+*
+      END
diff --git a/lapack-netlib/SRC/strsyl3.f b/lapack-netlib/SRC/strsyl3.f
new file mode 100644
index 000000000..28762c2ed
--- /dev/null
+++ b/lapack-netlib/SRC/strsyl3.f
@@ -0,0 +1,1244 @@
+*> \brief \b STRSYL3
+*
+* Definition:
+* ===========
+*
+*
+*>  \par Purpose
+*  =============
+*>
+*> \verbatim
+*>
+*>  STRSYL3 solves the real Sylvester matrix equation:
+*>
+*>     op(A)*X + X*op(B) = scale*C or
+*>     op(A)*X - X*op(B) = scale*C,
+*>
+*>  where op(A) = A or A**T, and  A and B are both upper quasi-
+*>  triangular. A is M-by-M and B is N-by-N; the right hand side C and
+*>  the solution X are M-by-N; and scale is an output scale factor, set
+*>  <= 1 to avoid overflow in X.
+*>
+*>  A and B must be in Schur canonical form (as returned by SHSEQR), that
+*>  is, block upper triangular with 1-by-1 and 2-by-2 diagonal blocks;
+*>  each 2-by-2 diagonal block has its diagonal elements equal and its
+*>  off-diagonal elements of opposite sign.
+*>
+*>  This is the block version of the algorithm.
+*> \endverbatim
+*
+*  Arguments
+*  =========
+*
+*> \param[in] TRANA
+*> \verbatim
+*>          TRANA is CHARACTER*1
+*>          Specifies the option op(A):
+*>          = 'N': op(A) = A    (No transpose)
+*>          = 'T': op(A) = A**T (Transpose)
+*>          = 'C': op(A) = A**H (Conjugate transpose = Transpose)
+*> \endverbatim
+*>
+*> \param[in] TRANB
+*> \verbatim
+*>          TRANB is CHARACTER*1
+*>          Specifies the option op(B):
+*>          = 'N': op(B) = B    (No transpose)
+*>          = 'T': op(B) = B**T (Transpose)
+*>          = 'C': op(B) = B**H (Conjugate transpose = Transpose)
+*> \endverbatim
+*>
+*> \param[in] ISGN
+*> \verbatim
+*>          ISGN is INTEGER
+*>          Specifies the sign in the equation:
+*>          = +1: solve op(A)*X + X*op(B) = scale*C
+*>          = -1: solve op(A)*X - X*op(B) = scale*C
+*> \endverbatim
+*>
+*> \param[in] M
+*> \verbatim
+*>          M is INTEGER
+*>          The order of the matrix A, and the number of rows in the
+*>          matrices X and C. M >= 0.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix B, and the number of columns in the
+*>          matrices X and C. N >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is REAL array, dimension (LDA,M)
+*>          The upper quasi-triangular matrix A, in Schur canonical form.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A. LDA >= max(1,M).
+*> \endverbatim
+*>
+*> \param[in] B
+*> \verbatim
+*>          B is REAL array, dimension (LDB,N)
+*>          The upper quasi-triangular matrix B, in Schur canonical form.
+*> \endverbatim
+*>
+*> \param[in] LDB
+*> \verbatim
+*>          LDB is INTEGER
+*>          The leading dimension of the array B. LDB >= max(1,N).
+*> \endverbatim
+*>
+*> \param[in,out] C
+*> \verbatim
+*>          C is REAL array, dimension (LDC,N)
+*>          On entry, the M-by-N right hand side matrix C.
+*>          On exit, C is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDC
+*> \verbatim
+*>          LDC is INTEGER
+*>          The leading dimension of the array C. LDC >= max(1,M)
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is REAL
+*>          The scale factor, scale, set <= 1 to avoid overflow in X.
+*> \endverbatim
+*>
+*> \param[out] IWORK
+*> \verbatim
+*>          IWORK is INTEGER array, dimension (MAX(1,LIWORK))
+*>          On exit, if INFO = 0, IWORK(1) returns the optimal LIWORK.
+*> \endverbatim
+*>
+*> \param[in] LIWORK
+*> \verbatim
+*>          IWORK is INTEGER
+*>          The dimension of the array IWORK. LIWORK >=  ((M + NB - 1) / NB + 1)
+*>          + ((N + NB - 1) / NB + 1), where NB is the optimal block size.
+*>
+*>          If LIWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimension of the IWORK array,
+*>          returns this value as the first entry of the IWORK array, and
+*>          no error message related to LIWORK is issued by XERBLA.
+*> \endverbatim
+*>
+*> \param[out] SWORK
+*> \verbatim
+*>          SWORK is REAL array, dimension (MAX(2, ROWS),
+*>          MAX(1,COLS)).
+*>          On exit, if INFO = 0, SWORK(1) returns the optimal value ROWS
+*>          and SWORK(2) returns the optimal COLS.
+*> \endverbatim
+*>
+*> \param[in] LDSWORK
+*> \verbatim
+*>          LDSWORK is INTEGER
+*>          LDSWORK >= MAX(2,ROWS), where ROWS = ((M + NB - 1) / NB + 1)
+*>          and NB is the optimal block size.
+*>
+*>          If LDSWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the SWORK matrix,
+*>          returns these values as the first and second entry of the SWORK
+*>          matrix, and no error message related LWORK is issued by XERBLA.
+*> \endverbatim
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0: successful exit
+*>          < 0: if INFO = -i, the i-th argument had an illegal value
+*>          = 1: A and B have common or very close eigenvalues; perturbed
+*>               values were used to solve the equation (but the matrices
+*>               A and B are unchanged).
+*> \endverbatim
+*
+*  =====================================================================
+*  References:
+*   E. S. Quintana-Orti and R. A. Van De Geijn (2003). Formal derivation of
+*   algorithms: The triangular Sylvester equation, ACM Transactions
+*   on Mathematical Software (TOMS), volume 29, pages 218--243.
+*
+*   A. Schwarz and C. C. Kjelgaard Mikkelsen (2020). Robust Task-Parallel
+*   Solution of the Triangular Sylvester Equation. Lecture Notes in
+*   Computer Science, vol 12043, pages 82--92, Springer.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE STRSYL3( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB, C,
+     $                    LDC, SCALE, IWORK, LIWORK, SWORK, LDSWORK,
+     $                    INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          TRANA, TRANB
+      INTEGER            INFO, ISGN, LDA, LDB, LDC, M, N,
+     $                   LIWORK, LDSWORK
+      REAL               SCALE
+*     ..
+*     .. Array Arguments ..
+      INTEGER            IWORK( * )
+      REAL               A( LDA, * ), B( LDB, * ), C( LDC, * ),
+     $                   SWORK( LDSWORK, * )
+*     ..
+*     .. Parameters ..
+      REAL               ZERO, ONE
+      PARAMETER          ( ZERO = 0.0E+0, ONE = 1.0E+0 )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            NOTRNA, NOTRNB, LQUERY, SKIP
+      INTEGER            AWRK, BWRK, I, I1, I2, IINFO, J, J1, J2, JJ,
+     $                   K, K1, K2, L, L1, L2, LL, NBA, NB, NBB, PC
+      REAL               ANRM, BIGNUM, BNRM, CNRM, SCAL, SCALOC,
+     $                   SCAMIN, SGN, XNRM, BUF, SMLNUM
+*     ..
+*     .. Local Arrays ..
+      REAL               WNRM( MAX( M, N ) )
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      REAL               SLANGE, SLAMCH, SLARMM
+      EXTERNAL           SLANGE, SLAMCH, SLARMM, ILAENV, LSAME
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           SGEMM, SLASCL, SSCAL, STRSYL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, EXPONENT, MAX, MIN, REAL
+*     ..
+*     .. Executable Statements ..
+*
+*     Decode and Test input parameters
+*
+      NOTRNA = LSAME( TRANA, 'N' )
+      NOTRNB = LSAME( TRANB, 'N' )
+*
+*     Use the same block size for all matrices.
+*
+      NB = MAX(8, ILAENV( 1, 'STRSYL', '', M, N, -1, -1) )
+*
+*     Compute number of blocks in A and B
+*
+      NBA = MAX( 1, (M + NB - 1) / NB )
+      NBB = MAX( 1, (N + NB - 1) / NB )
+*
+*     Compute workspace
+*
+      INFO = 0
+      LQUERY = ( LIWORK.EQ.-1 .OR. LDSWORK.EQ.-1 )
+      IWORK( 1 ) = NBA + NBB + 2
+      IF( LQUERY ) THEN
+         LDSWORK = 2
+         SWORK( 1, 1 ) = MAX( NBA, NBB )
+         SWORK( 2, 1 ) = 2 * NBB + NBA
+      END IF
+*
+*     Test the input arguments
+*
+      IF( .NOT.NOTRNA .AND. .NOT.LSAME( TRANA, 'T' ) .AND. .NOT.
+     $    LSAME( TRANA, 'C' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRNB .AND. .NOT.LSAME( TRANB, 'T' ) .AND. .NOT.
+     $         LSAME( TRANB, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( ISGN.NE.1 .AND. ISGN.NE.-1 ) THEN
+         INFO = -3
+      ELSE IF( M.LT.0 ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( LDA.LT.MAX( 1, M ) ) THEN
+         INFO = -7
+      ELSE IF( LDB.LT.MAX( 1, N ) ) THEN
+         INFO = -9
+      ELSE IF( LDC.LT.MAX( 1, M ) ) THEN
+         INFO = -11
+      ELSE IF( .NOT.LQUERY .AND. LIWORK.LT.IWORK(1) ) THEN
+         INFO = -14
+      ELSE IF( .NOT.LQUERY .AND. LDSWORK.LT.MAX( NBA, NBB ) ) THEN
+         INFO = -16
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'STRSYL3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Quick return if possible
+*
+      SCALE = ONE
+      IF( M.EQ.0 .OR. N.EQ.0 )
+     $   RETURN
+*
+*     Use unblocked code for small problems or if insufficient
+*     workspaces are provided
+*
+      IF( MIN( NBA, NBB ).EQ.1 .OR. LDSWORK.LT.MAX( NBA, NBB ) .OR.
+     $    LIWORK.LT.IWORK(1) ) THEN
+        CALL STRSYL( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB,
+     $               C, LDC, SCALE, INFO )
+        RETURN
+      END IF
+*
+*     Set constants to control overflow
+*
+      SMLNUM = SLAMCH( 'S' )
+      BIGNUM = ONE / SMLNUM
+*
+*      Partition A such that 2-by-2 blocks on the diagonal are not split
+*
+       SKIP = .FALSE.
+       DO I = 1, NBA
+          IWORK( I ) = ( I - 1 ) * NB + 1
+       END DO
+       IWORK( NBA + 1 ) = M + 1
+       DO K = 1, NBA
+          L1 = IWORK( K )
+          L2 = IWORK( K + 1 ) - 1
+          DO L = L1, L2
+             IF( SKIP ) THEN
+                SKIP = .FALSE.
+                CYCLE
+             END IF
+             IF( L.GE.M ) THEN
+*               A( M, M ) is a 1-by-1 block
+                CYCLE
+             END IF
+             IF( A( L, L+1 ).NE.ZERO .AND. A( L+1, L ).NE.ZERO ) THEN
+*               Check if 2-by-2 block is split
+                IF( L + 1 .EQ. IWORK( K + 1 ) ) THEN
+                   IWORK( K + 1 ) = IWORK( K + 1 ) + 1
+                   CYCLE
+                END IF
+                SKIP = .TRUE.
+             END IF
+          END DO
+       END DO
+       IWORK( NBA + 1 ) = M + 1
+       IF( IWORK( NBA ).GE.IWORK( NBA + 1 ) ) THEN
+          IWORK( NBA ) = IWORK( NBA + 1 )
+          NBA = NBA - 1
+       END IF
+*
+*      Partition B such that 2-by-2 blocks on the diagonal are not split
+*
+       PC = NBA + 1
+       SKIP = .FALSE.
+       DO I = 1, NBB
+          IWORK( PC + I ) = ( I - 1 ) * NB + 1
+       END DO
+       IWORK( PC + NBB + 1 ) = N + 1
+       DO K = 1, NBB
+          L1 = IWORK( PC + K )
+          L2 = IWORK( PC + K + 1 ) - 1
+          DO L = L1, L2
+             IF( SKIP ) THEN
+                SKIP = .FALSE.
+                CYCLE
+             END IF
+             IF( L.GE.N ) THEN
+*               B( N, N ) is a 1-by-1 block
+                CYCLE
+             END IF
+             IF( B( L, L+1 ).NE.ZERO .AND. B( L+1, L ).NE.ZERO ) THEN
+*               Check if 2-by-2 block is split
+                IF( L + 1 .EQ. IWORK( PC + K + 1 ) ) THEN
+                   IWORK( PC + K + 1 ) = IWORK( PC + K + 1 ) + 1
+                   CYCLE
+                END IF
+                SKIP = .TRUE.
+             END IF
+          END DO
+       END DO
+       IWORK( PC + NBB + 1 ) = N + 1
+       IF( IWORK( PC + NBB ).GE.IWORK( PC + NBB + 1 ) ) THEN
+          IWORK( PC + NBB ) = IWORK( PC + NBB + 1 )
+          NBB = NBB - 1
+       END IF
+*
+*     Set local scaling factors - must never attain zero.
+*
+      DO L = 1, NBB
+         DO K = 1, NBA
+            SWORK( K, L ) = ONE
+         END DO
+      END DO
+*
+*     Fallback scaling factor to prevent flushing of SWORK( K, L ) to zero.
+*     This scaling is to ensure compatibility with TRSYL and may get flushed.
+*
+      BUF = ONE
+*
+*     Compute upper bounds of blocks of A and B
+*
+      AWRK = NBB
+      DO K = 1, NBA
+         K1 = IWORK( K )
+         K2 = IWORK( K + 1 )
+         DO L = K, NBA
+            L1 = IWORK( L )
+            L2 = IWORK( L + 1 )
+            IF( NOTRNA ) THEN
+               SWORK( K, AWRK + L ) = SLANGE( 'I', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            ELSE
+               SWORK( L, AWRK + K ) = SLANGE( '1', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            END IF
+         END DO
+      END DO
+      BWRK = NBB + NBA
+      DO K = 1, NBB
+         K1 = IWORK( PC + K )
+         K2 = IWORK( PC + K + 1 )
+         DO L = K, NBB
+            L1 = IWORK( PC + L )
+            L2 = IWORK( PC + L + 1 )
+            IF( NOTRNB ) THEN
+               SWORK( K, BWRK + L ) = SLANGE( 'I', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            ELSE
+               SWORK( L, BWRK + K ) = SLANGE( '1', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            END IF
+         END DO
+      END DO
+*
+      SGN = REAL( ISGN )
+*
+      IF( NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-left corner column by column by
+*
+*         A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                  M                         L-1
+*        R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(J,L)].
+*                I=K+1                       J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL STRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF ( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = SLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K - 1, 1, -1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                      DO JJ = L1, L2-1
+                         CALL SSCAL( K2-K1, SCAL, C( K1, JJ ), 1)
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                      DO LL = L1, L2-1
+                         CALL SSCAL( I2-I1, SCAL, C( I1, LL ), 1)
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK(L, BWRK + J)
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO JJ = J1, J2-1
+                         CALL SSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A**T*X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        upper-left corner column by column by
+*
+*          A(K,K)**T*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                   K-1                        L-1
+*          R(K,L) = SUM [A(I,K)**T*X(I,L)] +ISGN*SUM [X(K,J)*B(J,L)]
+*                   I=1                        J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL STRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = SLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**T * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'T', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( K, J ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO LL = L1, L2-1
+                         CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A**T*X + ISGN*X*B**T = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        top-right corner column by column by
+*
+*           A(K,K)**T*X(K,L) + ISGN*X(K,L)*B(L,L)**T = C(K,L) - R(K,L)
+*
+*        Where
+*                     K-1                          N
+*            R(K,L) = SUM [A(I,K)**T*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**T].
+*                     I=1                        J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL STRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = SLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**T * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'T', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**T
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1)
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'N', 'T', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B**T = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-right corner column by column by
+*
+*            A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L)**T = C(K,L) - R(K,L)
+*
+*        Where
+*                      M                          N
+*            R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**T].
+*                    I=K+1                      J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = IWORK( K )
+            K2 = IWORK( K + 1 )
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = IWORK( PC + L )
+               L2 = IWORK( PC + L + 1 )
+*
+               CALL STRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = SLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = 1, K - 1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = IWORK( I )
+                  I2 = IWORK( I + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = SLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF (SCAL .NE. ONE) THEN
+                     DO LL = L1, L2-1
+                        CALL SSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -ONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        ONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**T
+*
+                  J1 = IWORK( PC + J )
+                  J2 = IWORK( PC + J + 1 )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = SLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = SLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.E0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.E0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.E0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.E0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = L1, L2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL SSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL SGEMM( 'N', 'T', K2-K1, J2-J1, L2-L1, -SGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        ONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+*
+      END IF
+*
+*     Reduce local scaling factors
+*
+      SCALE = SWORK( 1, 1 )
+      DO K = 1, NBA
+         DO L = 1, NBB
+            SCALE = MIN( SCALE, SWORK( K, L ) )
+         END DO
+      END DO
+*
+      IF( SCALE .EQ. ZERO ) THEN
+*
+*        The magnitude of the largest entry of the solution is larger
+*        than the product of BIGNUM**2 and cannot be represented in the
+*        form (1/SCALE)*X if SCALE is REAL. Set SCALE to zero and give up.
+*
+         IWORK(1) = NBA + NBB + 2
+         SWORK(1,1) = MAX( NBA, NBB )
+         SWORK(2,1) = 2 * NBB + NBA
+         RETURN
+      END IF
+*
+*     Realize consistent scaling
+*
+      DO K = 1, NBA
+         K1 = IWORK( K )
+         K2 = IWORK( K + 1 )
+         DO L = 1, NBB
+            L1 = IWORK( PC + L )
+            L2 = IWORK( PC + L + 1 )
+            SCAL = SCALE / SWORK( K, L )
+            IF( SCAL .NE. ONE ) THEN
+               DO LL = L1, L2-1
+                  CALL SSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+               END DO
+            ENDIF
+         END DO
+      END DO
+*
+      IF( BUF .NE. ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        Decrease SCALE as much as possible.
+*
+         SCALOC = MIN( SCALE / SMLNUM, ONE / BUF )
+         BUF = BUF * SCALOC
+         SCALE = SCALE / SCALOC
+      END IF
+
+      IF( BUF.NE.ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        In case of overly aggressive scaling during the computation,
+*        flushing of the global scale factor may be prevented by
+*        undoing some of the scaling. This step is to ensure that
+*        this routine flushes only scale factors that TRSYL also
+*        flushes and be usable as a drop-in replacement.
+*
+*        How much can the normwise largest entry be upscaled?
+*
+         SCAL = C( 1, 1 )
+         DO K = 1, M
+            DO L = 1, N
+               SCAL = MAX( SCAL, ABS( C( K, L ) ) )
+            END DO
+         END DO
+*
+*        Increase BUF as close to 1 as possible and apply scaling.
+*
+         SCALOC = MIN( BIGNUM / SCAL, ONE / BUF )
+         BUF = BUF * SCALOC
+         CALL SLASCL( 'G', -1, -1, ONE, SCALOC, M, N, C, LDC, IWORK )
+      END IF
+*
+*     Combine with buffer scaling factor. SCALE will be flushed if
+*     BUF is less than one here.
+*
+      SCALE = SCALE * BUF
+*
+*     Restore workspace dimensions
+*
+      IWORK(1) = NBA + NBB + 2
+      SWORK(1,1) = MAX( NBA, NBB )
+      SWORK(2,1) = 2 * NBB + NBA
+*
+      RETURN
+*
+*     End of STRSYL3
+*
+      END
diff --git a/lapack-netlib/SRC/zlatrs3.f b/lapack-netlib/SRC/zlatrs3.f
new file mode 100644
index 000000000..fc1be0517
--- /dev/null
+++ b/lapack-netlib/SRC/zlatrs3.f
@@ -0,0 +1,667 @@
+*> \brief \b ZLATRS3 solves a triangular system of equations with the scale factors set to prevent overflow.
+*
+*  Definition:
+*  ===========
+*
+*      SUBROUTINE ZLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+*                          X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+*
+*       .. Scalar Arguments ..
+*       CHARACTER          DIAG, NORMIN, TRANS, UPLO
+*       INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*       ..
+*       .. Array Arguments ..
+*       DOUBLE PRECISION   CNORM( * ), SCALE( * ), WORK( * )
+*       COMPLEX*16         A( LDA, * ), X( LDX, * )
+*       ..
+*
+*
+*> \par Purpose:
+*  =============
+*>
+*> \verbatim
+*>
+*> ZLATRS3 solves one of the triangular systems
+*>
+*>    A * X = B * diag(scale),  A**T * X = B * diag(scale), or
+*>    A**H * X = B * diag(scale)
+*>
+*> with scaling to prevent overflow.  Here A is an upper or lower
+*> triangular matrix, A**T denotes the transpose of A, A**H denotes the
+*> conjugate transpose of A. X and B are n-by-nrhs matrices and scale
+*> is an nrhs-element vector of scaling factors. A scaling factor scale(j)
+*> is usually less than or equal to 1, chosen such that X(:,j) is less
+*> than the overflow threshold. If the matrix A is singular (A(j,j) = 0
+*> for some j), then a non-trivial solution to A*X = 0 is returned. If
+*> the system is so badly scaled that the solution cannot be represented
+*> as (1/scale(k))*X(:,k), then x(:,k) = 0 and scale(k) is returned.
+*>
+*> This is a BLAS-3 version of LATRS for solving several right
+*> hand sides simultaneously.
+*>
+*> \endverbatim
+*
+*  Arguments:
+*  ==========
+*
+*> \param[in] UPLO
+*> \verbatim
+*>          UPLO is CHARACTER*1
+*>          Specifies whether the matrix A is upper or lower triangular.
+*>          = 'U':  Upper triangular
+*>          = 'L':  Lower triangular
+*> \endverbatim
+*>
+*> \param[in] TRANS
+*> \verbatim
+*>          TRANS is CHARACTER*1
+*>          Specifies the operation applied to A.
+*>          = 'N':  Solve A * x = s*b  (No transpose)
+*>          = 'T':  Solve A**T* x = s*b  (Transpose)
+*>          = 'C':  Solve A**T* x = s*b  (Conjugate transpose)
+*> \endverbatim
+*>
+*> \param[in] DIAG
+*> \verbatim
+*>          DIAG is CHARACTER*1
+*>          Specifies whether or not the matrix A is unit triangular.
+*>          = 'N':  Non-unit triangular
+*>          = 'U':  Unit triangular
+*> \endverbatim
+*>
+*> \param[in] NORMIN
+*> \verbatim
+*>          NORMIN is CHARACTER*1
+*>          Specifies whether CNORM has been set or not.
+*>          = 'Y':  CNORM contains the column norms on entry
+*>          = 'N':  CNORM is not set on entry.  On exit, the norms will
+*>                  be computed and stored in CNORM.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix A.  N >= 0.
+*> \endverbatim
+*>
+*> \param[in] NRHS
+*> \verbatim
+*>          NRHS is INTEGER
+*>          The number of columns of X.  NRHS >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is COMPLEX*16 array, dimension (LDA,N)
+*>          The triangular matrix A.  If UPLO = 'U', the leading n by n
+*>          upper triangular part of the array A contains the upper
+*>          triangular matrix, and the strictly lower triangular part of
+*>          A is not referenced.  If UPLO = 'L', the leading n by n lower
+*>          triangular part of the array A contains the lower triangular
+*>          matrix, and the strictly upper triangular part of A is not
+*>          referenced.  If DIAG = 'U', the diagonal elements of A are
+*>          also not referenced and are assumed to be 1.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A.  LDA >= max (1,N).
+*> \endverbatim
+*>
+*> \param[in,out] X
+*> \verbatim
+*>          X is COMPLEX*16 array, dimension (LDX,NRHS)
+*>          On entry, the right hand side B of the triangular system.
+*>          On exit, X is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDX
+*> \verbatim
+*>          LDX is INTEGER
+*>          The leading dimension of the array X.  LDX >= max (1,N).
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is DOUBLE PRECISION array, dimension (NRHS)
+*>          The scaling factor s(k) is for the triangular system
+*>          A * x(:,k) = s(k)*b(:,k)  or  A**T* x(:,k) = s(k)*b(:,k).
+*>          If SCALE = 0, the matrix A is singular or badly scaled.
+*>          If A(j,j) = 0 is encountered, a non-trivial vector x(:,k)
+*>          that is an exact or approximate solution to A*x(:,k) = 0
+*>          is returned. If the system so badly scaled that solution
+*>          cannot be presented as x(:,k) * 1/s(k), then x(:,k) = 0
+*>          is returned.
+*> \endverbatim
+*>
+*> \param[in,out] CNORM
+*> \verbatim
+*>          CNORM is DOUBLE PRECISION array, dimension (N)
+*>
+*>          If NORMIN = 'Y', CNORM is an input argument and CNORM(j)
+*>          contains the norm of the off-diagonal part of the j-th column
+*>          of A.  If TRANS = 'N', CNORM(j) must be greater than or equal
+*>          to the infinity-norm, and if TRANS = 'T' or 'C', CNORM(j)
+*>          must be greater than or equal to the 1-norm.
+*>
+*>          If NORMIN = 'N', CNORM is an output argument and CNORM(j)
+*>          returns the 1-norm of the offdiagonal part of the j-th column
+*>          of A.
+*> \endverbatim
+*>
+*> \param[out] WORK
+*> \verbatim
+*>          WORK is DOUBLE PRECISION array, dimension (LWORK).
+*>          On exit, if INFO = 0, WORK(1) returns the optimal size of
+*>          WORK.
+*> \endverbatim
+*>
+*> \param[in] LWORK
+*>          LWORK is INTEGER
+*>          LWORK >= MAX(1, 2*NBA * MAX(NBA, MIN(NRHS, 32)), where
+*>          NBA = (N + NB - 1)/NB and NB is the optimal block size.
+*>
+*>          If LWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the WORK array, returns
+*>          this value as the first entry of the WORK array, and no error
+*>          message related to LWORK is issued by XERBLA.
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0:  successful exit
+*>          < 0:  if INFO = -k, the k-th argument had an illegal value
+*> \endverbatim
+*
+*  Authors:
+*  ========
+*
+*> \author Univ. of Tennessee
+*> \author Univ. of California Berkeley
+*> \author Univ. of Colorado Denver
+*> \author NAG Ltd.
+*
+*> \ingroup doubleOTHERauxiliary
+*> \par Further Details:
+*  =====================
+*  \verbatim
+*  The algorithm follows the structure of a block triangular solve.
+*  The diagonal block is solved with a call to the robust the triangular
+*  solver LATRS for every right-hand side RHS = 1, ..., NRHS
+*     op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS ),
+*  where op( A ) = A or op( A ) = A**T or op( A ) = A**H.
+*  The linear block updates operate on block columns of X,
+*     B( I, K ) - op(A( I, J )) * X( J, K )
+*  and use GEMM. To avoid overflow in the linear block update, the worst case
+*  growth is estimated. For every RHS, a scale factor s <= 1.0 is computed
+*  such that
+*     || s * B( I, RHS )||_oo
+*   + || op(A( I, J )) ||_oo * || s *  X( J, RHS ) ||_oo <= Overflow threshold
+*
+*  Once all columns of a block column have been rescaled (BLAS-1), the linear
+*  update is executed with GEMM without overflow.
+*
+*  To limit rescaling, local scale factors track the scaling of column segments.
+*  There is one local scale factor s( I, RHS ) per block row I = 1, ..., NBA
+*  per right-hand side column RHS = 1, ..., NRHS. The global scale factor
+*  SCALE( RHS ) is chosen as the smallest local scale factor s( I, RHS )
+*  I = 1, ..., NBA.
+*  A triangular solve op(A( J, J )) * x( J, RHS ) = SCALOC * b( J, RHS )
+*  updates the local scale factor s( J, RHS ) := s( J, RHS ) * SCALOC. The
+*  linear update of potentially inconsistently scaled vector segments
+*     s( I, RHS ) * b( I, RHS ) - op(A( I, J )) * ( s( J, RHS )* x( J, RHS ) )
+*  computes a consistent scaling SCAMIN = MIN( s(I, RHS ), s(J, RHS) ) and,
+*  if necessary, rescales the blocks prior to calling GEMM.
+*
+*  \endverbatim
+*  =====================================================================
+*  References:
+*  C. C. Kjelgaard Mikkelsen, A. B. Schwarz and L. Karlsson (2019).
+*  Parallel robust solution of triangular linear systems. Concurrency
+*  and Computation: Practice and Experience, 31(19), e5064.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE ZLATRS3( UPLO, TRANS, DIAG, NORMIN, N, NRHS, A, LDA,
+     $                    X, LDX, SCALE, CNORM, WORK, LWORK, INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          DIAG, TRANS, NORMIN, UPLO
+      INTEGER            INFO, LDA, LWORK, LDX, N, NRHS
+*     ..
+*     .. Array Arguments ..
+      COMPLEX*16         A( LDA, * ), X( LDX, * )
+      DOUBLE PRECISION   CNORM( * ), SCALE( * ), WORK( * )
+*     ..
+*
+*  =====================================================================
+*
+*     .. Parameters ..
+      DOUBLE PRECISION   ZERO, ONE
+      PARAMETER          ( ZERO = 0.0D+0, ONE = 1.0D+0 )
+      COMPLEX*16         CZERO, CONE
+      PARAMETER          ( CONE = ( 1.0D+0, 0.0D+0 ) )
+      PARAMETER          ( CZERO = ( 0.0D+0, 0.0D+0 ) )
+      INTEGER            NBMAX, NBMIN, NBRHS, NRHSMIN
+      PARAMETER          ( NRHSMIN = 2, NBRHS = 32 )
+      PARAMETER          ( NBMIN = 8, NBMAX = 64 )
+*     ..
+*     .. Local Arrays ..
+      DOUBLE PRECISION   W( NBMAX ), XNRM( NBRHS )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            LQUERY, NOTRAN, NOUNIT, UPPER
+      INTEGER            AWRK, I, IFIRST, IINC, ILAST, II, I1, I2, J,
+     $                   JFIRST, JINC, JLAST, J1, J2, K, KK, K1, K2,
+     $                   LANRM, LDS, LSCALE, NB, NBA, NBX, RHS
+      DOUBLE PRECISION   ANRM, BIGNUM, BNRM, RSCAL, SCAL, SCALOC,
+     $                   SCAMIN, SMLNUM, TMAX
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      DOUBLE PRECISION   DLAMCH, ZLANGE, DLARMM
+      EXTERNAL           ILAENV, LSAME, DLAMCH, ZLANGE, DLARMM
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           ZLATRS, ZDSCAL, XERBLA
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, MAX, MIN
+*     ..
+*     .. Executable Statements ..
+*
+      INFO = 0
+      UPPER = LSAME( UPLO, 'U' )
+      NOTRAN = LSAME( TRANS, 'N' )
+      NOUNIT = LSAME( DIAG, 'N' )
+      LQUERY = ( LWORK.EQ.-1 )
+*
+*     Partition A and X into blocks.
+*
+      NB = MAX( NBMIN, ILAENV( 1, 'ZLATRS', '', N, N, -1, -1 ) )
+      NB = MIN( NBMAX, NB )
+      NBA = MAX( 1, (N + NB - 1) / NB )
+      NBX = MAX( 1, (NRHS + NBRHS - 1) / NBRHS )
+*
+*     Compute the workspace
+*
+*     The workspace comprises two parts.
+*     The first part stores the local scale factors. Each simultaneously
+*     computed right-hand side requires one local scale factor per block
+*     row. WORK( I + KK * LDS ) is the scale factor of the vector
+*     segment associated with the I-th block row and the KK-th vector
+*     in the block column.
+      LSCALE = NBA * MAX( NBA, MIN( NRHS, NBRHS ) )
+      LDS = NBA
+*     The second part stores upper bounds of the triangular A. There are
+*     a total of NBA x NBA blocks, of which only the upper triangular
+*     part or the lower triangular part is referenced. The upper bound of
+*     the block A( I, J ) is stored as WORK( AWRK + I + J * NBA ).
+      LANRM = NBA * NBA
+      AWRK = LSCALE
+      WORK( 1 ) = LSCALE + LANRM
+*
+*     Test the input parameters.
+*
+      IF( .NOT.UPPER .AND. .NOT.LSAME( UPLO, 'L' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRAN .AND. .NOT.LSAME( TRANS, 'T' ) .AND. .NOT.
+     $         LSAME( TRANS, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( .NOT.NOUNIT .AND. .NOT.LSAME( DIAG, 'U' ) ) THEN
+         INFO = -3
+      ELSE IF( .NOT.LSAME( NORMIN, 'Y' ) .AND. .NOT.
+     $         LSAME( NORMIN, 'N' ) ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( NRHS.LT.0 ) THEN
+         INFO = -6
+      ELSE IF( LDA.LT.MAX( 1, N ) ) THEN
+         INFO = -8
+      ELSE IF( LDX.LT.MAX( 1, N ) ) THEN
+         INFO = -10
+      ELSE IF( .NOT.LQUERY .AND. LWORK.LT.WORK( 1 ) ) THEN
+         INFO = -14
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'ZLATRS3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Initialize scaling factors
+*
+      DO KK = 1, NRHS
+         SCALE( KK ) = ONE
+      END DO
+*
+*     Quick return if possible
+*
+      IF( MIN( N, NRHS ).EQ.0 )
+     $   RETURN
+*
+*     Determine machine dependent constant to control overflow.
+*
+      BIGNUM = DLAMCH( 'Overflow' )
+      SMLNUM = DLAMCH( 'Safe Minimum' )
+*
+*     Use unblocked code for small problems
+*
+      IF( NRHS.LT.NRHSMIN ) THEN
+         CALL ZLATRS( UPLO, TRANS, DIAG, NORMIN, N, A, LDA, X( 1, 1),
+     $                SCALE( 1 ), CNORM, INFO )
+         DO K = 2, NRHS
+            CALL ZLATRS( UPLO, TRANS, DIAG, 'Y', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Compute norms of blocks of A excluding diagonal blocks and find
+*     the block with the largest norm TMAX.
+*
+      TMAX = ZERO
+      DO J = 1, NBA
+         J1 = (J-1)*NB + 1
+         J2 = MIN( J*NB, N ) + 1
+         IF ( UPPER ) THEN
+            IFIRST = 1
+            ILAST = J - 1
+         ELSE
+            IFIRST = J + 1
+            ILAST = NBA
+         END IF
+         DO I = IFIRST, ILAST
+            I1 = (I-1)*NB + 1
+            I2 = MIN( I*NB, N ) + 1
+*
+*           Compute upper bound of A( I1:I2-1, J1:J2-1 ).
+*
+            IF( NOTRAN ) THEN
+               ANRM = ZLANGE( 'I', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + I+(J-1)*NBA ) = ANRM
+            ELSE
+               ANRM = ZLANGE( '1', I2-I1, J2-J1, A( I1, J1 ), LDA, W )
+               WORK( AWRK + J+(I-1) * NBA ) = ANRM
+            END IF
+            TMAX = MAX( TMAX, ANRM )
+         END DO
+      END DO
+*
+      IF( .NOT. TMAX.LE.DLAMCH('Overflow') ) THEN
+*
+*        Some matrix entries have huge absolute value. At least one upper
+*        bound norm( A(I1:I2-1, J1:J2-1), 'I') is not a valid floating-point
+*        number, either due to overflow in LANGE or due to Inf in A.
+*        Fall back to LATRS. Set normin = 'N' for every right-hand side to
+*        force computation of TSCAL in LATRS to avoid the likely overflow
+*        in the computation of the column norms CNORM.
+*
+         DO K = 1, NRHS
+            CALL ZLATRS( UPLO, TRANS, DIAG, 'N', N, A, LDA, X( 1, K ),
+     $                   SCALE( K ), CNORM, INFO )
+         END DO
+         RETURN
+      END IF
+*
+*     Every right-hand side requires workspace to store NBA local scale
+*     factors. To save workspace, X is computed successively in block columns
+*     of width NBRHS, requiring a total of NBA x NBRHS space. If sufficient
+*     workspace is available, larger values of NBRHS or NBRHS = NRHS are viable.
+      DO K = 1, NBX
+*        Loop over block columns (index = K) of X and, for column-wise scalings,
+*        over individual columns (index = KK).
+*        K1: column index of the first column in X( J, K )
+*        K2: column index of the first column in X( J, K+1 )
+*        so the K2 - K1 is the column count of the block X( J, K )
+         K1 = (K-1)*NBRHS + 1
+         K2 = MIN( K*NBRHS, NRHS ) + 1
+*
+*        Initialize local scaling factors of current block column X( J, K )
+*
+         DO KK = 1, K2 - K1
+            DO I = 1, NBA
+               WORK( I+KK*LDS ) = ONE
+            END DO
+         END DO
+*
+         IF( NOTRAN ) THEN
+*
+*           Solve A * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*
+            IF( UPPER ) THEN
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            ELSE
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            END IF
+         ELSE
+*
+*           Solve op(A) * X(:, K1:K2-1) = B * diag(scale(K1:K2-1))
+*           where op(A) = A**T or op(A) = A**H
+*
+            IF( UPPER ) THEN
+               JFIRST = 1
+               JLAST = NBA
+               JINC = 1
+            ELSE
+               JFIRST = NBA
+               JLAST = 1
+               JINC = -1
+            END IF
+         END IF
+
+         DO J = JFIRST, JLAST, JINC
+*           J1: row index of the first row in A( J, J )
+*           J2: row index of the first row in A( J+1, J+1 )
+*           so that J2 - J1 is the row count of the block A( J, J )
+            J1 = (J-1)*NB + 1
+            J2 = MIN( J*NB, N ) + 1
+*
+*           Solve op(A( J, J )) * X( J, RHS ) = SCALOC * B( J, RHS )
+*
+            DO KK = 1, K2 - K1
+               RHS = K1 + KK - 1
+               IF( KK.EQ.1 ) THEN
+                  CALL ZLATRS( UPLO, TRANS, DIAG, 'N', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               ELSE
+                  CALL ZLATRS( UPLO, TRANS, DIAG, 'Y', J2-J1,
+     $                         A( J1, J1 ), LDA, X( J1, RHS ),
+     $                         SCALOC, CNORM, INFO )
+               END IF
+*              Find largest absolute value entry in the vector segment
+*              X( J1:J2-1, RHS ) as an upper bound for the worst case
+*              growth in the linear updates.
+               XNRM( KK ) = ZLANGE( 'I', J2-J1, 1, X( J1, RHS ),
+     $                              LDX, W )
+*
+               IF( SCALOC .EQ. ZERO ) THEN
+*                 LATRS found that A is singular through A(j,j) = 0.
+*                 Reset the computation x(1:n) = 0, x(j) = 1, SCALE = 0
+*                 and compute op(A)*x = 0. Note that X(J1:J2-1, KK) is
+*                 set by LATRS.
+                  SCALE( RHS ) = ZERO
+                  DO II = 1, J1-1
+                     X( II, KK ) = CZERO
+                  END DO
+                  DO II = J2, N
+                     X( II, KK ) = CZERO
+                  END DO
+*                 Discard the local scale factors.
+                  DO II = 1, NBA
+                     WORK( II+KK*LDS ) = ONE
+                  END DO
+                  SCALOC = ONE
+               ELSE IF( SCALOC*WORK( J+KK*LDS ) .EQ. ZERO ) THEN
+*                 LATRS computed a valid scale factor, but combined with
+*                 the current scaling the solution does not have a
+*                 scale factor > 0.
+*
+*                 Set WORK( J+KK*LDS ) to smallest valid scale
+*                 factor and increase SCALOC accordingly.
+                  SCAL = WORK( J+KK*LDS ) / SMLNUM
+                  SCALOC = SCALOC * SCAL
+                  WORK( J+KK*LDS ) = SMLNUM
+*                 If LATRS overestimated the growth, x may be
+*                 rescaled to preserve a valid combined scale
+*                 factor WORK( J, KK ) > 0.
+                  RSCAL = ONE / SCALOC
+                  IF( XNRM( KK )*RSCAL .LE. BIGNUM ) THEN
+                     XNRM( KK ) = XNRM( KK ) * RSCAL
+                     CALL ZDSCAL( J2-J1, RSCAL, X( J1, RHS ), 1 )
+                     SCALOC = ONE
+                  ELSE
+*                    The system op(A) * x = b is badly scaled and its
+*                    solution cannot be represented as (1/scale) * x.
+*                    Set x to zero. This approach deviates from LATRS
+*                    where a completely meaningless non-zero vector
+*                    is returned that is not a solution to op(A) * x = b.
+                     SCALE( RHS ) = ZERO
+                     DO II = 1, N
+                        X( II, KK ) = CZERO
+                     END DO
+*                    Discard the local scale factors.
+                     DO II = 1, NBA
+                        WORK( II+KK*LDS ) = ONE
+                     END DO
+                     SCALOC = ONE
+                  END IF
+               END IF
+               SCALOC = SCALOC * WORK( J+KK*LDS )
+               WORK( J+KK*LDS ) = SCALOC
+            END DO
+*
+*           Linear block updates
+*
+            IF( NOTRAN ) THEN
+               IF( UPPER ) THEN
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               ELSE
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               END IF
+            ELSE
+               IF( UPPER ) THEN
+                  IFIRST = J + 1
+                  ILAST = NBA
+                  IINC = 1
+               ELSE
+                  IFIRST = J - 1
+                  ILAST = 1
+                  IINC = -1
+               END IF
+            END IF
+*
+            DO I = IFIRST, ILAST, IINC
+*              I1: row index of the first column in X( I, K )
+*              I2: row index of the first column in X( I+1, K )
+*              so the I2 - I1 is the row count of the block X( I, K )
+               I1 = (I-1)*NB + 1
+               I2 = MIN( I*NB, N ) + 1
+*
+*              Prepare the linear update to be executed with GEMM.
+*              For each column, compute a consistent scaling, a
+*              scaling factor to survive the linear update, and
+*              rescale the column segments, if necesssary. Then
+*              the linear update is safely executed.
+*
+               DO KK = 1, K2 - K1
+                  RHS = K1 + KK - 1
+*                 Compute consistent scaling
+                  SCAMIN = MIN( WORK( I+KK*LDS), WORK( J+KK*LDS ) )
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  BNRM = ZLANGE( 'I', I2-I1, 1, X( I1, RHS ), LDX, W )
+                  BNRM = BNRM*( SCAMIN / WORK( I+KK*LDS ) )
+                  XNRM( KK ) = XNRM( KK )*( SCAMIN / WORK( J+KK*LDS) )
+                  ANRM = WORK( AWRK + I+(J-1)*NBA )
+                  SCALOC = DLARMM( ANRM, XNRM( KK ), BNRM )
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to X( I, KK ) and X( J, KK ).
+*
+                  SCAL = ( SCAMIN / WORK( I+KK*LDS) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL ZDSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+                     WORK( I+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+*
+                  SCAL = ( SCAMIN / WORK( J+KK*LDS ) )*SCALOC
+                  IF( SCAL.NE.ONE ) THEN
+                     CALL ZDSCAL( J2-J1, SCAL, X( J1, RHS ), 1 )
+                     WORK( J+KK*LDS ) = SCAMIN*SCALOC
+                  END IF
+               END DO
+*
+               IF( NOTRAN ) THEN
+*
+*                 B( I, K ) := B( I, K ) - A( I, J ) * X( J, K )
+*
+                  CALL ZGEMM( 'N', 'N', I2-I1, K2-K1, J2-J1, -CONE,
+     $                        A( I1, J1 ), LDA, X( J1, K1 ), LDX,
+     $                        CONE, X( I1, K1 ), LDX )
+               ELSE IF( LSAME( TRANS, 'T' ) ) THEN
+*
+*                 B( I, K ) := B( I, K ) - A( I, J )**T * X( J, K )
+*
+                  CALL ZGEMM( 'T', 'N', I2-I1, K2-K1, J2-J1, -CONE,
+     $                        A( J1, I1 ), LDA, X( J1, K1 ), LDX,
+     $                        CONE, X( I1, K1 ), LDX )
+               ELSE
+*
+*                 B( I, K ) := B( I, K ) - A( I, J )**H * X( J, K )
+*
+                  CALL ZGEMM( 'C', 'N', I2-I1, K2-K1, J2-J1, -CONE,
+     $                        A( J1, I1 ), LDA, X( J1, K1 ), LDX,
+     $                        CONE, X( I1, K1 ), LDX )
+               END IF
+            END DO
+         END DO
+
+*
+*        Reduce local scaling factors
+*
+         DO KK = 1, K2 - K1
+            RHS = K1 + KK - 1
+            DO I = 1, NBA
+               SCALE( RHS ) = MIN( SCALE( RHS ), WORK( I+KK*LDS ) )
+            END DO
+         END DO
+*
+*        Realize consistent scaling
+*
+         DO KK = 1, K2 - K1
+            RHS = K1 + KK - 1
+            IF( SCALE( RHS ).NE.ONE .AND. SCALE( RHS ).NE. ZERO ) THEN
+               DO I = 1, NBA
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, N ) + 1
+                  SCAL = SCALE( RHS ) / WORK( I+KK*LDS )
+                  IF( SCAL.NE.ONE )
+     $               CALL ZDSCAL( I2-I1, SCAL, X( I1, RHS ), 1 )
+               END DO
+            END IF
+         END DO
+      END DO
+      RETURN
+*
+*     End of ZLATRS3
+*
+      END
diff --git a/lapack-netlib/SRC/ztrsyl3.f b/lapack-netlib/SRC/ztrsyl3.f
new file mode 100644
index 000000000..b5a058da4
--- /dev/null
+++ b/lapack-netlib/SRC/ztrsyl3.f
@@ -0,0 +1,1142 @@
+*> \brief \b ZTRSYL3
+*
+* Definition:
+* ===========
+*
+*
+*>  \par Purpose
+*  =============
+*>
+*> \verbatim
+*>
+*>  ZTRSYL3 solves the complex Sylvester matrix equation:
+*>
+*>     op(A)*X + X*op(B) = scale*C or
+*>     op(A)*X - X*op(B) = scale*C,
+*>
+*>  where op(A) = A or A**H, and  A and B are both upper triangular. A is
+*>  M-by-M and B is N-by-N; the right hand side C and the solution X are
+*>  M-by-N; and scale is an output scale factor, set <= 1 to avoid
+*>  overflow in X.
+*>
+*>  This is the block version of the algorithm.
+*> \endverbatim
+*
+*  Arguments
+*  =========
+*
+*> \param[in] TRANA
+*> \verbatim
+*>          TRANA is CHARACTER*1
+*>          Specifies the option op(A):
+*>          = 'N': op(A) = A    (No transpose)
+*>          = 'C': op(A) = A**H (Conjugate transpose)
+*> \endverbatim
+*>
+*> \param[in] TRANB
+*> \verbatim
+*>          TRANB is CHARACTER*1
+*>          Specifies the option op(B):
+*>          = 'N': op(B) = B    (No transpose)
+*>          = 'C': op(B) = B**H (Conjugate transpose)
+*> \endverbatim
+*>
+*> \param[in] ISGN
+*> \verbatim
+*>          ISGN is INTEGER
+*>          Specifies the sign in the equation:
+*>          = +1: solve op(A)*X + X*op(B) = scale*C
+*>          = -1: solve op(A)*X - X*op(B) = scale*C
+*> \endverbatim
+*>
+*> \param[in] M
+*> \verbatim
+*>          M is INTEGER
+*>          The order of the matrix A, and the number of rows in the
+*>          matrices X and C. M >= 0.
+*> \endverbatim
+*>
+*> \param[in] N
+*> \verbatim
+*>          N is INTEGER
+*>          The order of the matrix B, and the number of columns in the
+*>          matrices X and C. N >= 0.
+*> \endverbatim
+*>
+*> \param[in] A
+*> \verbatim
+*>          A is COMPLEX*16 array, dimension (LDA,M)
+*>          The upper triangular matrix A.
+*> \endverbatim
+*>
+*> \param[in] LDA
+*> \verbatim
+*>          LDA is INTEGER
+*>          The leading dimension of the array A. LDA >= max(1,M).
+*> \endverbatim
+*>
+*> \param[in] B
+*> \verbatim
+*>          B is COMPLEX*16 array, dimension (LDB,N)
+*>          The upper triangular matrix B.
+*> \endverbatim
+*>
+*> \param[in] LDB
+*> \verbatim
+*>          LDB is INTEGER
+*>          The leading dimension of the array B. LDB >= max(1,N).
+*> \endverbatim
+*>
+*> \param[in,out] C
+*> \verbatim
+*>          C is COMPLEX*16 array, dimension (LDC,N)
+*>          On entry, the M-by-N right hand side matrix C.
+*>          On exit, C is overwritten by the solution matrix X.
+*> \endverbatim
+*>
+*> \param[in] LDC
+*> \verbatim
+*>          LDC is INTEGER
+*>          The leading dimension of the array C. LDC >= max(1,M)
+*> \endverbatim
+*>
+*> \param[out] SCALE
+*> \verbatim
+*>          SCALE is DOUBLE PRECISION
+*>          The scale factor, scale, set <= 1 to avoid overflow in X.
+*> \endverbatim
+*>
+*> \param[out] SWORK
+*> \verbatim
+*>          SWORK is DOUBLE PRECISION array, dimension (MAX(2, ROWS),
+*>          MAX(1,COLS)).
+*>          On exit, if INFO = 0, SWORK(1) returns the optimal value ROWS
+*>          and SWORK(2) returns the optimal COLS.
+*> \endverbatim
+*>
+*> \param[in] LDSWORK
+*> \verbatim
+*>          LDSWORK is INTEGER
+*>          LDSWORK >= MAX(2,ROWS), where ROWS = ((M + NB - 1) / NB + 1)
+*>          and NB is the optimal block size.
+*>
+*>          If LDSWORK = -1, then a workspace query is assumed; the routine
+*>          only calculates the optimal dimensions of the SWORK matrix,
+*>          returns these values as the first and second entry of the SWORK
+*>          matrix, and no error message related LWORK is issued by XERBLA.
+*> \endverbatim
+*>
+*> \param[out] INFO
+*> \verbatim
+*>          INFO is INTEGER
+*>          = 0: successful exit
+*>          < 0: if INFO = -i, the i-th argument had an illegal value
+*>          = 1: A and B have common or very close eigenvalues; perturbed
+*>               values were used to solve the equation (but the matrices
+*>               A and B are unchanged).
+*> \endverbatim
+*
+*> \ingroup complex16SYcomputational
+*
+*  =====================================================================
+*  References:
+*   E. S. Quintana-Orti and R. A. Van De Geijn (2003). Formal derivation of
+*   algorithms: The triangular Sylvester equation, ACM Transactions
+*   on Mathematical Software (TOMS), volume 29, pages 218--243.
+*
+*   A. Schwarz and C. C. Kjelgaard Mikkelsen (2020). Robust Task-Parallel
+*   Solution of the Triangular Sylvester Equation. Lecture Notes in
+*   Computer Science, vol 12043, pages 82--92, Springer.
+*
+*  Contributor:
+*   Angelika Schwarz, Umea University, Sweden.
+*
+*  =====================================================================
+      SUBROUTINE ZTRSYL3( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB, C,
+     $                    LDC, SCALE, SWORK, LDSWORK, INFO )
+      IMPLICIT NONE
+*
+*     .. Scalar Arguments ..
+      CHARACTER          TRANA, TRANB
+      INTEGER            INFO, ISGN, LDA, LDB, LDC, LDSWORK, M, N
+      DOUBLE PRECISION   SCALE
+*     ..
+*     .. Array Arguments ..
+      COMPLEX*16         A( LDA, * ), B( LDB, * ), C( LDC, * )
+      DOUBLE PRECISION   SWORK( LDSWORK, * )
+*     ..
+*     .. Parameters ..
+      DOUBLE PRECISION   ZERO, ONE
+      PARAMETER          ( ZERO = 0.0D0, ONE = 1.0D0 )
+      COMPLEX*16         CONE
+      PARAMETER          ( CONE = ( 1.0D0, 0.0D0 ) )
+*     ..
+*     .. Local Scalars ..
+      LOGICAL            NOTRNA, NOTRNB, LQUERY
+      INTEGER            AWRK, BWRK, I, I1, I2, IINFO, J, J1, J2, JJ,
+     $                   K, K1, K2, L, L1, L2, LL, NBA, NB, NBB
+      DOUBLE PRECISION   ANRM, BIGNUM, BNRM, CNRM, SCAL, SCALOC,
+     $                   SCAMIN, SGN, XNRM, BUF, SMLNUM
+      COMPLEX*16         CSGN
+*     ..
+*     .. Local Arrays ..
+      DOUBLE PRECISION   WNRM( MAX( M, N ) )
+*     ..
+*     .. External Functions ..
+      LOGICAL            LSAME
+      INTEGER            ILAENV
+      DOUBLE PRECISION   DLAMCH, DLARMM, ZLANGE
+      EXTERNAL           DLAMCH, DLARMM, ILAENV, LSAME, ZLANGE
+*     ..
+*     .. External Subroutines ..
+      EXTERNAL           XERBLA, ZDSCAL, ZGEMM, ZLASCL, ZTRSYL
+*     ..
+*     .. Intrinsic Functions ..
+      INTRINSIC          ABS, DBLE, DIMAG, EXPONENT, MAX, MIN
+*     ..
+*     .. Executable Statements ..
+*
+*     Decode and Test input parameters
+*
+      NOTRNA = LSAME( TRANA, 'N' )
+      NOTRNB = LSAME( TRANB, 'N' )
+*
+*     Use the same block size for all matrices.
+*
+      NB = MAX( 8, ILAENV( 1, 'ZTRSYL', '', M, N, -1, -1) )
+*
+*     Compute number of blocks in A and B
+*
+      NBA = MAX( 1, (M + NB - 1) / NB )
+      NBB = MAX( 1, (N + NB - 1) / NB )
+*
+*     Compute workspace
+*
+      INFO = 0
+      LQUERY = ( LDSWORK.EQ.-1 )
+      IF( LQUERY ) THEN
+         LDSWORK = 2
+         SWORK(1,1) = MAX( NBA, NBB )
+         SWORK(2,1) = 2 * NBB + NBA
+      END IF
+*
+*     Test the input arguments
+*
+      IF( .NOT.NOTRNA .AND. .NOT. LSAME( TRANA, 'C' ) ) THEN
+         INFO = -1
+      ELSE IF( .NOT.NOTRNB .AND. .NOT. LSAME( TRANB, 'C' ) ) THEN
+         INFO = -2
+      ELSE IF( ISGN.NE.1 .AND. ISGN.NE.-1 ) THEN
+         INFO = -3
+      ELSE IF( M.LT.0 ) THEN
+         INFO = -4
+      ELSE IF( N.LT.0 ) THEN
+         INFO = -5
+      ELSE IF( LDA.LT.MAX( 1, M ) ) THEN
+         INFO = -7
+      ELSE IF( LDB.LT.MAX( 1, N ) ) THEN
+         INFO = -9
+      ELSE IF( LDC.LT.MAX( 1, M ) ) THEN
+         INFO = -11
+      END IF
+      IF( INFO.NE.0 ) THEN
+         CALL XERBLA( 'ZTRSYL3', -INFO )
+         RETURN
+      ELSE IF( LQUERY ) THEN
+         RETURN
+      END IF
+*
+*     Quick return if possible
+*
+      SCALE = ONE
+      IF( M.EQ.0 .OR. N.EQ.0 )
+     $   RETURN
+*
+*     Use unblocked code for small problems or if insufficient
+*     workspace is provided
+*
+      IF( MIN( NBA, NBB ).EQ.1 .OR. LDSWORK.LT.MAX( NBA, NBB ) ) THEN
+        CALL ZTRSYL( TRANA, TRANB, ISGN, M, N, A, LDA, B, LDB,
+     $               C, LDC, SCALE, INFO )
+        RETURN
+      END IF
+*
+*     Set constants to control overflow
+*
+      SMLNUM = DLAMCH( 'S' )
+      BIGNUM = ONE / SMLNUM
+*
+*     Set local scaling factors.
+*
+      DO L = 1, NBB
+         DO K = 1, NBA
+            SWORK( K, L ) = ONE
+         END DO
+      END DO
+*
+*     Fallback scaling factor to prevent flushing of SWORK( K, L ) to zero.
+*     This scaling is to ensure compatibility with TRSYL and may get flushed.
+*
+      BUF = ONE
+*
+*      Compute upper bounds of blocks of A and B
+*
+      AWRK = NBB
+      DO K = 1, NBA
+         K1 = (K - 1) * NB + 1
+         K2 = MIN( K * NB, M ) + 1
+         DO L = K, NBA
+            L1 = (L - 1) * NB + 1
+            L2 = MIN( L * NB, M ) + 1
+            IF( NOTRNA ) THEN
+               SWORK( K, AWRK + L ) = ZLANGE( 'I', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            ELSE
+               SWORK( L, AWRK + K ) = ZLANGE( '1', K2-K1, L2-L1,
+     $                                        A( K1, L1 ), LDA, WNRM )
+            END IF
+         END DO
+      END DO
+      BWRK = NBB + NBA
+      DO K = 1, NBB
+         K1 = (K - 1) * NB + 1
+         K2 = MIN( K * NB, N ) + 1
+         DO L = K, NBB
+            L1 = (L - 1) * NB + 1
+            L2 = MIN( L * NB, N ) + 1
+            IF( NOTRNB ) THEN
+               SWORK( K, BWRK + L ) = ZLANGE( 'I', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            ELSE
+               SWORK( L, BWRK + K ) = ZLANGE( '1', K2-K1, L2-L1,
+     $                                        B( K1, L1 ), LDB, WNRM )
+            END IF
+         END DO
+      END DO
+*
+      SGN = DBLE( ISGN )
+      CSGN = DCMPLX( SGN, ZERO )
+*
+      IF( NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-left corner column by column by
+*
+*         A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                  M                         L-1
+*        R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(J,L)].
+*                I=K+1                       J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL ZTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = ZLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K - 1, 1, -1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L ).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO JJ = L1, L2-1
+                         CALL ZDSCAL( K2-K1, SCAL, C( K1, JJ ), 1)
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO LL = L1, L2-1
+                         CALL ZDSCAL( I2-I1, SCAL, C( I1, LL ), 1)
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK(L, BWRK + J)
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO JJ = J1, J2-1
+                         CALL ZDSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                      END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. NOTRNB ) THEN
+*
+*        Solve    A**H *X + ISGN*X*B = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        upper-left corner column by column by
+*
+*          A(K,K)**H*X(K,L) + ISGN*X(K,L)*B(L,L) = C(K,L) - R(K,L)
+*
+*        Where
+*                   K-1                        L-1
+*          R(K,L) = SUM [A(I,K)**H*X(I,L)] +ISGN*SUM [X(K,J)*B(J,L)]
+*                   I=1                        J=1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = 1, NBB
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL ZTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = ZLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**H * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( I, L ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'C', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = L + 1, NBB
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( L, J )
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                      DO LL = L1, L2-1
+                         CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                      END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'N', 'N', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( L1, J1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( .NOT.NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A**H *X + ISGN*X*B**H = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        top-right corner column by column by
+*
+*           A(K,K)**H*X(K,L) + ISGN*X(K,L)*B(L,L)**H = C(K,L) - R(K,L)
+*
+*        Where
+*                     K-1                          N
+*            R(K,L) = SUM [A(I,K)**H*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**H].
+*                     I=1                        J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = 1, NBA
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL ZTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = ZLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = K + 1, NBA
+*
+*                 C( I, L ) := C( I, L ) - A( K, I )**H * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'C', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( K1, I1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**H
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1)
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'N', 'C', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+      ELSE IF( NOTRNA .AND. .NOT.NOTRNB ) THEN
+*
+*        Solve    A*X + ISGN*X*B**H = scale*C.
+*
+*        The (K,L)th block of X is determined starting from
+*        bottom-right corner column by column by
+*
+*            A(K,K)*X(K,L) + ISGN*X(K,L)*B(L,L)**H = C(K,L) - R(K,L)
+*
+*        Where
+*                      M                          N
+*            R(K,L) = SUM [A(K,I)*X(I,L)] + ISGN*SUM [X(K,J)*B(L,J)**H].
+*                    I=K+1                      J=L+1
+*
+*        Start loop over block rows (index = K) and block columns (index = L)
+*
+         DO K = NBA, 1, -1
+*
+*           K1: row index of the first row in X( K, L )
+*           K2: row index of the first row in X( K+1, L )
+*           so the K2 - K1 is the column count of the block X( K, L )
+*
+            K1 = (K - 1) * NB + 1
+            K2 = MIN( K * NB, M ) + 1
+            DO L = NBB, 1, -1
+*
+*              L1: column index of the first column in X( K, L )
+*              L2: column index of the first column in X( K, L + 1)
+*              so that L2 - L1 is the row count of the block X( K, L )
+*
+               L1 = (L - 1) * NB + 1
+               L2 = MIN( L * NB, N ) + 1
+*
+               CALL ZTRSYL( TRANA, TRANB, ISGN, K2-K1, L2-L1,
+     $                      A( K1, K1 ), LDA,
+     $                      B( L1, L1 ), LDB,
+     $                      C( K1, L1 ), LDC, SCALOC, IINFO )
+               INFO = MAX( INFO, IINFO )
+*
+               IF( SCALOC * SWORK( K, L ) .EQ. ZERO ) THEN
+                  IF( SCALOC .EQ. ZERO ) THEN
+*                    The magnitude of the largest entry of X(K1:K2-1, L1:L2-1)
+*                    is larger than the product of BIGNUM**2 and cannot be
+*                    represented in the form (1/SCALE)*X(K1:K2-1, L1:L2-1).
+*                    Mark the computation as pointless.
+                     BUF = ZERO
+                  ELSE
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                  END IF
+                  DO JJ = 1, NBB
+                     DO LL = 1, NBA
+*                       Bound by BIGNUM to not introduce Inf. The value
+*                       is irrelevant; corresponding entries of the
+*                       solution will be flushed in consistency scaling.
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                     END DO
+                  END DO
+               END IF
+               SWORK( K, L ) = SCALOC * SWORK( K, L )
+               XNRM = ZLANGE( 'I', K2-K1, L2-L1, C( K1, L1 ), LDC,
+     $                        WNRM )
+*
+               DO I = 1, K - 1
+*
+*                 C( I, L ) := C( I, L ) - A( I, K ) * C( K, L )
+*
+                  I1 = (I - 1) * NB + 1
+                  I2 = MIN( I * NB, M ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', I2-I1, L2-L1, C( I1, L1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( I, L ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( I, L ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  ANRM = SWORK( I, AWRK + K )
+                  SCALOC = DLARMM( ANRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( I, L ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( I, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO LL = L1, L2-1
+                        CALL ZDSCAL( I2-I1, SCAL, C( I1, LL ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( I, L ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'N', 'N', I2-I1, L2-L1, K2-K1, -CONE,
+     $                        A( I1, K1 ), LDA, C( K1, L1 ), LDC,
+     $                        CONE, C( I1, L1 ), LDC )
+*
+               END DO
+*
+               DO J = 1, L - 1
+*
+*                 C( K, J ) := C( K, J ) - SGN * C( K, L ) * B( J, L )**H
+*
+                  J1 = (J - 1) * NB + 1
+                  J2 = MIN( J * NB, N ) + 1
+*
+*                 Compute scaling factor to survive the linear update
+*                 simulating consistent scaling.
+*
+                  CNRM = ZLANGE( 'I', K2-K1, J2-J1, C( K1, J1 ),
+     $                           LDC, WNRM )
+                  SCAMIN = MIN( SWORK( K, J ), SWORK( K, L ) )
+                  CNRM = CNRM * ( SCAMIN / SWORK( K, J ) )
+                  XNRM = XNRM * ( SCAMIN / SWORK( K, L ) )
+                  BNRM = SWORK( L, BWRK + J )
+                  SCALOC = DLARMM( BNRM, XNRM, CNRM )
+                  IF( SCALOC * SCAMIN .EQ. ZERO ) THEN
+*                    Use second scaling factor to prevent flushing to zero.
+                     BUF = BUF*2.D0**EXPONENT( SCALOC )
+                     DO JJ = 1, NBB
+                        DO LL = 1, NBA
+                        SWORK( LL, JJ ) = MIN( BIGNUM,
+     $                     SWORK( LL, JJ ) / 2.D0**EXPONENT( SCALOC ) )
+                        END DO
+                     END DO
+                     SCAMIN = SCAMIN / 2.D0**EXPONENT( SCALOC )
+                     SCALOC = SCALOC / 2.D0**EXPONENT( SCALOC )
+                  END IF
+                  CNRM = CNRM * SCALOC
+                  XNRM = XNRM * SCALOC
+*
+*                 Simultaneously apply the robust update factor and the
+*                 consistency scaling factor to C( K, J ) and C( K, L).
+*
+                  SCAL = ( SCAMIN / SWORK( K, L ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = L1, L2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+                  SCAL = ( SCAMIN / SWORK( K, J ) ) * SCALOC
+                  IF( SCAL .NE. ONE ) THEN
+                     DO JJ = J1, J2-1
+                        CALL ZDSCAL( K2-K1, SCAL, C( K1, JJ ), 1 )
+                     END DO
+                  ENDIF
+*
+*                 Record current scaling factor
+*
+                  SWORK( K, L ) = SCAMIN * SCALOC
+                  SWORK( K, J ) = SCAMIN * SCALOC
+*
+                  CALL ZGEMM( 'N', 'C', K2-K1, J2-J1, L2-L1, -CSGN,
+     $                        C( K1, L1 ), LDC, B( J1, L1 ), LDB,
+     $                        CONE, C( K1, J1 ), LDC )
+               END DO
+            END DO
+         END DO
+*
+      END IF
+*
+*     Reduce local scaling factors
+*
+      SCALE = SWORK( 1, 1 )
+      DO K = 1, NBA
+         DO L = 1, NBB
+            SCALE = MIN( SCALE, SWORK( K, L ) )
+         END DO
+      END DO
+      IF( SCALE .EQ. ZERO ) THEN
+*
+*        The magnitude of the largest entry of the solution is larger
+*        than the product of BIGNUM**2 and cannot be represented in the
+*        form (1/SCALE)*X if SCALE is DOUBLE PRECISION. Set SCALE to
+*        zero and give up.
+*
+         SWORK(1,1) = MAX( NBA, NBB )
+         SWORK(2,1) = 2 * NBB + NBA
+         RETURN
+      END IF
+*
+*     Realize consistent scaling
+*
+      DO K = 1, NBA
+         K1 = (K - 1) * NB + 1
+         K2 = MIN( K * NB, M ) + 1
+         DO L = 1, NBB
+            L1 = (L - 1) * NB + 1
+            L2 = MIN( L * NB, N ) + 1
+            SCAL = SCALE / SWORK( K, L )
+            IF( SCAL .NE. ONE ) THEN
+               DO LL = L1, L2-1
+                  CALL ZDSCAL( K2-K1, SCAL, C( K1, LL ), 1 )
+               END DO
+            ENDIF
+         END DO
+      END DO
+*
+      IF( BUF .NE. ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        Decrease SCALE as much as possible.
+*
+         SCALOC = MIN( SCALE / SMLNUM, ONE / BUF )
+         BUF = BUF * SCALOC
+         SCALE = SCALE / SCALOC
+      END IF
+*
+      IF( BUF.NE.ONE .AND. BUF.GT.ZERO ) THEN
+*
+*        In case of overly aggressive scaling during the computation,
+*        flushing of the global scale factor may be prevented by
+*        undoing some of the scaling. This step is to ensure that
+*        this routine flushes only scale factors that TRSYL also
+*        flushes and be usable as a drop-in replacement.
+*
+*        How much can the normwise largest entry be upscaled?
+*
+         SCAL = MAX( ABS( DBLE( C( 1, 1 ) ) ),
+     $               ABS( DIMAG( C ( 1, 1 ) ) ) )
+         DO K = 1, M
+            DO L = 1, N
+               SCAL = MAX( SCAL, ABS( DBLE ( C( K, L ) ) ),
+     $                     ABS( DIMAG ( C( K, L ) ) ) )
+            END DO
+         END DO
+*
+*        Increase BUF as close to 1 as possible and apply scaling.
+*
+         SCALOC = MIN( BIGNUM / SCAL, ONE / BUF )
+         BUF = BUF * SCALOC
+         CALL ZLASCL( 'G', -1, -1, ONE, SCALOC, M, N, C, LDC, IINFO )
+      END IF
+*
+*     Combine with buffer scaling factor. SCALE will be flushed if
+*     BUF is less than one here.
+*
+      SCALE = SCALE * BUF
+*
+*     Restore workspace dimensions
+*
+      SWORK(1,1) = MAX( NBA, NBB )
+      SWORK(2,1) = 2 * NBB + NBA
+*
+      RETURN
+*
+*     End of ZTRSYL3
+*
+      END