Port Acos from optimized aocl-libm-ose source with Sollya polynomial coefficients

Copilot · tannergooding · web-flow · commit 58d2ed8c2213 · 2026-04-06T17:00:23.000Z
Agent-Logs-Url: https://github.com/dotnet/runtime/sessions/22f9ee13-f6b9-4c35-ad05-63ff26534e31 Co-authored-by: tannergooding <10487869+tannergooding@users.noreply.github.com>
diff --git a/src/libraries/System.Private.CoreLib/src/System/Runtime/Intrinsics/VectorMath.cs b/src/libraries/System.Private.CoreLib/src/System/Runtime/Intrinsics/VectorMath.cs
@@ -3227,91 +3227,83 @@ public static TVectorDouble AcosDouble<TVectorDouble, TVectorUInt64>(TVectorDoub
             where TVectorUInt64 : unmanaged, ISimdVector<TVectorUInt64, ulong>
         {
             // This code is based on `acos` from amd/aocl-libm-ose
-            // Copyright (C) 2008-2022 Advanced Micro Devices, Inc. All rights reserved.
+            // Copyright (C) 2021-2022 Advanced Micro Devices, Inc. All rights reserved.
             //
             // Licensed under the BSD 3-Clause "New" or "Revised" License
             // See THIRD-PARTY-NOTICES.TXT for the full license text
 
             // Implementation Notes
             // --------------------
             // Based on the value of x, acos(x) is calculated as:
-            // For |x| <= 0.5: acos(x) = pi/2 - (x + x^3*R(x^2))
-            // For |x| > 0.5: use acos(x) = pi - 2*asin(sqrt((1-|x|)/2)) or 2*asin(sqrt((1-x)/2))
-            // where R(x^2) is a [5,4] rational minimax approximation (same as asin.c).
-
-            // Rational polynomial coefficients (same as asin.c / AMD acos.c)
-            const double C1 = 0.227485835556935010735943483075;
-            const double C2 = -0.445017216867635649900123110649;
-            const double C3 = 0.275558175256937652532686256258;
-            const double C4 = -0.0549989809235685841612020091328;
-            const double C5 = 0.00109242697235074662306043804220;
-            const double C6 = 0.0000482901920344786991880522822991;
-
-            const double D1 = 1.36491501334161032038194214209;
-            const double D2 = -3.28431505720958658909889444194;
-            const double D3 = 2.76568859157270989520376345954;
-            const double D4 = -0.943639137032492685763471240072;
-            const double D5 = 0.105869422087204370341222318533;
-
-            const double PI = 3.1415926535897933e+00;     // 0x400921fb54442d18
-            const double PIBY2_HEAD = 1.5707963267948966e+00; // 0x3ff921fb54442d18
-            const double PIBY2_TAIL = 6.1232339957367660e-17; // 0x3c91a62633145c07
+            //
+            // 1. If x > 0.5:  acos(x) = 2 * asin(sqrt((1 - x) / 2))
+            // 2. If x < -0.5: acos(x) = pi - 2 * asin(sqrt((1 + x) / 2))
+            // 3. If |x| <= 0.5: acos(x) = pi/2 - asin(x)
+            //
+            // asin(x) is approximated using the polynomial:
+            //   x + C1*x^3 + C2*x^5 + ... + C12*x^25
+
+            // Polynomial coefficients obtained from Sollya
+            const double C1  = 0.166666666666647700;    // 0x1.55555555552aap-3
+            const double C2  = 0.075000000004179696;    // 0x1.333333337cbaep-4
+            const double C3  = 0.044642856781408560;    // 0x1.6db6db3c0984p-5
+            const double C4  = 0.030381960650355640;    // 0x1.f1c72dd86cbafp-6
+            const double C5  = 0.022371727970318958;    // 0x1.6e89d3ff33aa4p-6
+            const double C6  = 0.017360094637841349;    // 0x1.1c6d83ae664b6p-6
+            const double C7  = 0.013881842859634605;    // 0x1.c6e1568b90518p-7
+            const double C8  = 0.012189191110336799;    // 0x1.8f6a58977fe49p-7
+            const double C9  = 0.006449405266899452;    // 0x1.a6ab10b3321bp-8
+            const double C10 = 0.019725887785684789;    // 0x1.43305ebb2428fp-6
+            const double C11 = -0.016511752058748410;   // -0x1.0e874ec5e3157p-6
+            const double C12 = 0.032096272998247702;    // 0x1.06eec35b3b142p-5
+
+            const double PIBY2 = 1.5707963267948966;    // 0x1.921fb54442d18p+0
+            const double PIBY4 = 0.78539816339744828;   // 0x1.921fb54442d18p-1
 
             TVectorDouble xneg = TVectorDouble.LessThan(x, TVectorDouble.Zero);
             TVectorDouble ax = TVectorDouble.Abs(x);
 
-            TVectorDouble transformMask = TVectorDouble.GreaterThanOrEqual(ax, TVectorDouble.Create(0.5));
-
-            // For |x| >= 0.5: r = 0.5*(1-ax), s = sqrt(r)
-            // For |x| < 0.5:  r = ax*ax
-            TVectorDouble r = TVectorDouble.ConditionalSelect(transformMask, TVectorDouble.Create(0.5) * (TVectorDouble.One - ax), ax * ax);
-            TVectorDouble s = TVectorDouble.Sqrt(r);
-
-            // Evaluate numerator: r*(C1 + r*(C2 + r*(C3 + r*(C4 + r*(C5 + r*C6)))))
-            TVectorDouble polyNum = TVectorDouble.Create(C6);
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C5));
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C4));
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C3));
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C2));
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C1));
-
-            // Evaluate denominator: D1 + r*(D2 + r*(D3 + r*(D4 + r*D5)))
-            TVectorDouble polyDen = TVectorDouble.Create(D5);
-            polyDen = TVectorDouble.MultiplyAddEstimate(polyDen, r, TVectorDouble.Create(D4));
-            polyDen = TVectorDouble.MultiplyAddEstimate(polyDen, r, TVectorDouble.Create(D3));
-            polyDen = TVectorDouble.MultiplyAddEstimate(polyDen, r, TVectorDouble.Create(D2));
-            polyDen = TVectorDouble.MultiplyAddEstimate(polyDen, r, TVectorDouble.Create(D1));
-
-            // u = r * polyNum / polyDen
-            TVectorDouble u = r * polyNum / polyDen;
-
-            // For transform region (|x| >= 0.5):
-            // s1 = high part of s (clear low 32 bits for precision)
-            // c = (r - s1*s1) / (s + s1)
-            TVectorDouble s1 = Unsafe.BitCast<TVectorUInt64, TVectorDouble>(Unsafe.BitCast<TVectorDouble, TVectorUInt64>(s) & TVectorUInt64.Create(0xFFFFFFFF00000000));
-            TVectorDouble c = (r - s1 * s1) / (s + s1);
-
-            // For x < 0, |x| >= 0.5:  acos(x) = pi - 2*(s + (s*u - piby2_tail))
-            TVectorDouble transformNeg = TVectorDouble.Create(PI) - TVectorDouble.Create(2.0) * (s + (s * u - TVectorDouble.Create(PIBY2_TAIL)));
-            // For x > 0, |x| >= 0.5:  acos(x) = 2*s1 + (2*c + 2*s*u)
-            TVectorDouble transformPos = TVectorDouble.Create(2.0) * s1 + (TVectorDouble.Create(2.0) * c + TVectorDouble.Create(2.0) * s * u);
-            TVectorDouble vTransform = TVectorDouble.ConditionalSelect(xneg, transformNeg, transformPos);
-
-            // For |x| < 0.5: acos(x) = piby2_head - (x - (piby2_tail - x*u))
-            TVectorDouble vNormal = TVectorDouble.Create(PIBY2_HEAD) - (x - (TVectorDouble.Create(PIBY2_TAIL) - x * u));
-
-            TVectorDouble result = TVectorDouble.ConditionalSelect(transformMask, vTransform, vNormal);
-
-            // Handle special cases: |x| > 1 returns NaN, x = ±1 returns 0 or π
+            TVectorDouble gtHalf = TVectorDouble.GreaterThan(ax, TVectorDouble.Create(0.5));
+
+            // For |x| > 0.5: z = 0.5*(1-|x|), y = -2*sqrt(z)
+            // For |x| <= 0.5: z = |x|*|x|, y = |x|
+            TVectorDouble z = TVectorDouble.ConditionalSelect(gtHalf, TVectorDouble.Create(0.5) * (TVectorDouble.One - ax), ax * ax);
+            TVectorDouble y = TVectorDouble.ConditionalSelect(gtHalf, TVectorDouble.Create(-2.0) * TVectorDouble.Sqrt(z), ax);
+
+            // Evaluate polynomial: P(z) = C1 + z*(C2 + z*(C3 + ... + z*C12))
+            TVectorDouble poly = TVectorDouble.Create(C12);
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C11));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C10));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C9));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C8));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C7));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C6));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C5));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C4));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C3));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C2));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C1));
+
+            // poly = y + y * z * P(z)
+            poly = y + y * z * poly;
+
+            // Reconstruct acos using split constants for precision:
+            //   |x| > 0.5:  A = 0, B = pi/2
+            //   |x| <= 0.5: A = pi/4, B = pi/4
+            //   positive x: result = (A - poly) + A
+            //   negative x: result = (B + poly) + B
+            TVectorDouble aConst = TVectorDouble.Create(PIBY4) & ~gtHalf;
+            TVectorDouble bConst = TVectorDouble.ConditionalSelect(gtHalf, TVectorDouble.Create(PIBY2), TVectorDouble.Create(PIBY4));
+
+            TVectorDouble posResult = (aConst - poly) + aConst;
+            TVectorDouble negResult = (bConst + poly) + bConst;
+
+            TVectorDouble result = TVectorDouble.ConditionalSelect(xneg, negResult, posResult);
+
+            // Handle special cases: |x| > 1 returns NaN
             TVectorDouble absXGreaterThanOne = TVectorDouble.GreaterThan(ax, TVectorDouble.One);
             result = TVectorDouble.ConditionalSelect(absXGreaterThanOne, TVectorDouble.Create(double.NaN), result);
 
-            TVectorDouble xEqualsOne = TVectorDouble.Equals(x, TVectorDouble.One);
-            result = TVectorDouble.ConditionalSelect(xEqualsOne, TVectorDouble.Zero, result);
-
-            TVectorDouble xEqualsNegOne = TVectorDouble.Equals(x, TVectorDouble.Create(-1.0));
-            result = TVectorDouble.ConditionalSelect(xEqualsNegOne, TVectorDouble.Create(PI), result);
-
             return result;
         }
 
@@ -3357,51 +3349,48 @@ public static TVectorSingle AcosSingle<TVectorSingle, TVectorInt32, TVectorDoubl
         private static TVectorDouble AcosSingleCoreDouble<TVectorDouble>(TVectorDouble dx)
             where TVectorDouble : unmanaged, ISimdVector<TVectorDouble, double>
         {
-            // Rational polynomial coefficients from AMD acosf.c (same as asinf.c)
-            const double C1 = 0.184161606965100694821398249421;
-            const double C2 = -0.0565298683201845211985026327361;
-            const double C3 = -0.0133819288943925804214011424456;
-            const double C4 = -0.00396137437848476485201154797087;
-            const double D1 = 1.10496961524520294485512696706;
-            const double D2 = -0.836411276854206731913362287293;
-
-            // High-precision pi constants
-            const double PI = 3.1415926535897933e+00;         // 0x400921fb54442d18
-            const double PIBY2_HEAD = 1.5707963267948966e+00; // 0x3ff921fb54442d18
-            const double PIBY2_TAIL = 6.1232339957367660e-17; // 0x3c91a62633145c07
+            // Polynomial coefficients from Sollya (AMD aocl-libm-ose acosf.c)
+            const double C1 = 0.166667014360427856445;  // 0x1.5555fcp-3
+            const double C2 = 0.074944347143173218;     // 0x1.32f8d8p-4
+            const double C3 = 0.045550186187028885;     // 0x1.7525aap-5
+            const double C4 = 0.023858169093728065;     // 0x1.86e46ap-6
+            const double C5 = 0.042635641992092133;     // 0x1.5d456cp-5
+
+            const double PIBY2 = 1.5707963267948966;    // 0x1.921fb54442d18p+0
+            const double PIBY4 = 0.78539816339744828;   // 0x1.921fb54442d18p-1
 
             TVectorDouble xneg = TVectorDouble.LessThan(dx, TVectorDouble.Zero);
             TVectorDouble ax = TVectorDouble.Abs(dx);
 
-            TVectorDouble transformMask = TVectorDouble.GreaterThanOrEqual(ax, TVectorDouble.Create(0.5));
-
-            // For |x| >= 0.5: r = 0.5*(1-ax), s = sqrt(r)
-            // For |x| < 0.5:  r = ax*ax
-            TVectorDouble r = TVectorDouble.ConditionalSelect(transformMask, TVectorDouble.Create(0.5) * (TVectorDouble.One - ax), ax * ax);
-            TVectorDouble s = TVectorDouble.Sqrt(r);
+            TVectorDouble gtHalf = TVectorDouble.GreaterThan(ax, TVectorDouble.Create(0.5));
 
-            // Rational polynomial: u = r * (C1 + (C2 + (C3 + C4*r)*r)*r) / (D1 + D2*r)
-            TVectorDouble polyNum = TVectorDouble.Create(C4);
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C3));
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C2));
-            polyNum = TVectorDouble.MultiplyAddEstimate(polyNum, r, TVectorDouble.Create(C1));
+            // For |x| > 0.5: z = 0.5*(1-|x|), y = -2*sqrt(z)
+            // For |x| <= 0.5: z = |x|*|x|, y = |x|
+            TVectorDouble z = TVectorDouble.ConditionalSelect(gtHalf, TVectorDouble.Create(0.5) * (TVectorDouble.One - ax), ax * ax);
+            TVectorDouble y = TVectorDouble.ConditionalSelect(gtHalf, TVectorDouble.Create(-2.0) * TVectorDouble.Sqrt(z), ax);
 
-            TVectorDouble polyDen = TVectorDouble.MultiplyAddEstimate(TVectorDouble.Create(D2), r, TVectorDouble.Create(D1));
+            // Evaluate polynomial: P(z) = C1 + z*(C2 + z*(C3 + z*(C4 + z*C5)))
+            TVectorDouble poly = TVectorDouble.Create(C5);
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C4));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C3));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C2));
+            poly = TVectorDouble.MultiplyAddEstimate(poly, z, TVectorDouble.Create(C1));
 
-            TVectorDouble u = r * polyNum / polyDen;
+            // poly = y + y * z * P(z)
+            poly = y + y * z * poly;
 
-            // For x < 0, |x| >= 0.5:  acos(x) = pi - 2*(s + (s*u - piby2_tail))
-            // Since we're in double for float output, piby2_tail correction provides extra precision
-            TVectorDouble transformNeg = TVectorDouble.Create(PI) - TVectorDouble.Create(2.0) * (s + (s * u - TVectorDouble.Create(PIBY2_TAIL)));
-            // For x > 0, |x| >= 0.5:  acos(x) = 2*s + 2*s*u
-            // (s1/c correction omitted: computing in double for float output, precision is sufficient)
-            TVectorDouble transformPos = TVectorDouble.Create(2.0) * s + TVectorDouble.Create(2.0) * s * u;
-            TVectorDouble vTransform = TVectorDouble.ConditionalSelect(xneg, transformNeg, transformPos);
+            // Reconstruct acos using split constants for precision:
+            //   |x| > 0.5:  A = 0, B = pi/2
+            //   |x| <= 0.5: A = pi/4, B = pi/4
+            //   positive x: result = (A - poly) + A
+            //   negative x: result = (B + poly) + B
+            TVectorDouble aConst = TVectorDouble.Create(PIBY4) & ~gtHalf;
+            TVectorDouble bConst = TVectorDouble.ConditionalSelect(gtHalf, TVectorDouble.Create(PIBY2), TVectorDouble.Create(PIBY4));
 
-            // For |x| < 0.5: acos(x) = piby2_head - (x - (piby2_tail - x*u))
-            TVectorDouble vNormal = TVectorDouble.Create(PIBY2_HEAD) - (dx - (TVectorDouble.Create(PIBY2_TAIL) - dx * u));
+            TVectorDouble posResult = (aConst - poly) + aConst;
+            TVectorDouble negResult = (bConst + poly) + bConst;
 
-            return TVectorDouble.ConditionalSelect(transformMask, vTransform, vNormal);
+            return TVectorDouble.ConditionalSelect(xneg, negResult, posResult);
         }
     }
 }