llvm-project

Commit Graph

Author	SHA1	Message	Date
Jan Vesely	3b8b4eb64d	half_powr: Implement using powr v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 323942	2018-02-01 03:00:35 +00:00
Jan Vesely	a75677c2b7	math.h: Use logical operations instead of bit operations for readability Trivial. Reported-by: Roman Lebedev <lebedev.ri@gmail.com> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 323920	2018-01-31 21:53:42 +00:00
Jan Vesely	0ecb5e511e	math.h: Set HAVE_HW_FMA32 based on compiler provided macro Fixes sin/cos piglits on non-FMA capable asics. Bugzilla: https://bugs.llvm.org/show_bug.cgi?id=35983 Reviewer: Tom Stellard Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 323677	2018-01-29 19:05:08 +00:00
Jan Vesely	7013857f95	tanpi: Port from amd_builtins Passes piglit on turks and carrizo. Passes CTS on carrizo. Acked-By: Aaron Watry <awatry@gmail.com> Tested-By: Aaron Watry <awatry@gmail.com> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322980	2018-01-19 18:57:22 +00:00
Jan Vesely	03937bdec3	tan: Port from amd_builtins v2: fixup constant precision Passes piglit on turks and carrizo. Passes CTS on carrizo Fixes half_tan to pass CTS on carrizo Acked-By: Aaron Watry <awatry@gmail.com> Tested-By: Aaron Watry <awatry@gmail.com> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322979	2018-01-19 18:57:19 +00:00
Jan Vesely	44e0522c09	half_divide: Implement using x/y Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322899	2018-01-18 21:12:06 +00:00
Jan Vesely	2813b4f8d9	half_tan: Implement using tan v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322898	2018-01-18 21:12:04 +00:00
Jan Vesely	bf38fae8de	half_sin: Implement using sin Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322897	2018-01-18 21:12:01 +00:00
Jan Vesely	398108b91e	half_recip: Implement using 1/x Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322896	2018-01-18 21:11:58 +00:00
Jan Vesely	a1aba44ffa	half_log2: Implement using log2 Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322895	2018-01-18 21:11:56 +00:00
Jan Vesely	b3b72af4b9	half_log10: Implement using log10 Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322894	2018-01-18 21:11:53 +00:00
Jan Vesely	6852023802	half_log: Implement using log Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322893	2018-01-18 21:11:50 +00:00
Jan Vesely	aa4c3899b5	half_exp10: Implement using exp10 Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322892	2018-01-18 21:11:48 +00:00
Jan Vesely	3c0e19b61a	half_exp2: Implement using exp2 Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322891	2018-01-18 21:11:45 +00:00
Jan Vesely	caa9000b1c	half_exp: Implement using exp Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322890	2018-01-18 21:11:43 +00:00
Jan Vesely	b5d556061d	half_cos: Implement using cos Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322889	2018-01-18 21:11:40 +00:00
Jan Vesely	e53ae3b596	half_sqrt: Cleanup implementation Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322888	2018-01-18 21:11:38 +00:00
Jan Vesely	a95db14461	half_rsqrt: Cleanup implementation Passes CTS on carrizo v2: Use full precision implementation Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322887	2018-01-18 21:11:35 +00:00
Jan Vesely	fe8e00bc3c	rootn: Port from amd_builtins Passes piglit on turks and carrizo fp64 passes ctx on carrizo v2: fix formatting check fp32 denormal support at runtime Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322763	2018-01-17 21:22:14 +00:00
Jan Vesely	c45ec604f5	powr: Port from amd_builtins Passes piglit on turks and carrizo fp64 passes cts on carrizo v2: fix formatting check fp32 denormal support at runtime Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322762	2018-01-17 21:22:06 +00:00
Jan Vesely	5efc8fe321	pown: Port from amd_builtins Passes piglit on turks and carrizo fp64 passes CTS on carrizo v2: fix formatting check fp32 denormal support at runtime Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322761	2018-01-17 21:22:03 +00:00
Jan Vesely	cc5c65b2c2	pow: Port from amd_builtins Passes piglit on turks and carrizo fp64 passes CTS on carrizo v2: fix formatting check fp32 denormal support at runtime Reviewer: Jeroen Ketema <j.ketema@xs4all.nl> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 322760	2018-01-17 21:21:35 +00:00
Jan Vesely	fe7c045753	math: Implement minmag Reviewer: Aaron Watry Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318265	2017-11-15 04:10:39 +00:00
Jan Vesely	7ba243cc3d	math: Implement maxmag Reviewer: Aaron Watry Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318264	2017-11-15 04:10:37 +00:00
Jan Vesely	383fbd050c	native_powr: Switch implementation to native_exp2 and native_log2 v2: don't use assume check only for x<0, the other conditions are handled transparently v3: don't check inputs at all, nan propagation works as expected Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318204	2017-11-14 21:55:41 +00:00
Jan Vesely	f38b40daf7	native_divide: provide function implementation instead of macro Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318067	2017-11-13 18:28:56 +00:00
Jan Vesely	1b9825f982	native_recip: provide function implementation instead of macro Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318066	2017-11-13 18:28:53 +00:00
Jan Vesely	a6758c94ef	native_rsqrt: Switch implementation to 1 / native_sqrt Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318065	2017-11-13 18:28:51 +00:00
Jan Vesely	541a3f0758	native_tan: Switch implementation to use native_sin/native_cos Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318064	2017-11-13 18:28:48 +00:00
Jan Vesely	79b7566210	math: Use precomputed constant for log2(10.0) exp10 CTS fails with or without this change Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 318063	2017-11-13 18:28:45 +00:00
Jan Vesely	6b4a625438	native_exp10: Switch implementation to llvm intrinsic v2: Use native_log2 instead of wrong constant Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317941	2017-11-10 22:16:41 +00:00
Jan Vesely	4301e6d0c9	native_sqrt: Switch implementation to llvm intrinsic Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317940	2017-11-10 22:16:39 +00:00
Jan Vesely	1f34c851e0	native_sin: Switch implementation to llvm intrinsic Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317939	2017-11-10 22:16:36 +00:00
Jan Vesely	0750b7df51	native_cos: Switch implementation to llvm intrinsic Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317938	2017-11-10 22:16:33 +00:00
Jan Vesely	edbde58de0	native_exp2: Switch implementation to llvm intrinsic Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317937	2017-11-10 22:16:31 +00:00
Jan Vesely	504f85c551	native_exp: Switch implementation to llvm intrinsic Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317936	2017-11-10 22:16:28 +00:00
Jan Vesely	adc1eaedf8	native_log10: Switch to generic native intrinsic inc file Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317934	2017-11-10 22:16:22 +00:00
Jan Vesely	086e796053	native_log: Switch to generic native intrinsic inc file Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317933	2017-11-10 22:16:20 +00:00
Jan Vesely	f58dee9f3a	native_log2: Switch to generic native intrinsic inc file v2: Add __CLC_XCONCAT instead of function name redirection Use __CLC_XCONCAT for intrinsic functions as well Reviewer: Jeroen Ketema Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 317932	2017-11-10 22:16:15 +00:00
Jan Vesely	47e093da9b	math: Implement native_log10 Use llvm instrinsic by default Provide amdgpu workaround v2: drop old amd copyrights Reviewer: Aaron Watry Reviewed-by: Vedran Miletić <vedran@miletic.net> Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 316588	2017-10-25 16:49:22 +00:00
Jan Vesely	7ab2d0bdcd	shared: Implement aligned vector stores (vstorea_half) Float version passes newly posted piglit tests on turks, float and double pass on carrizo. v2: scalar vstorea_half v3: fix typo Reviewer: Aaron Watry Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 316291	2017-10-22 14:21:59 +00:00
Jan Vesely	12061c7125	shared: Implement aligned vector loads (vloada_half) Passes newly posted piglits on turks and carrizo v2: add scalar vloada_half v3: fix typo Reviewer: Aaron Watry Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 316290	2017-10-22 14:21:56 +00:00
Jan Vesely	3d349ea98e	Make image builtins r600/llvm-3.9 only The implementation uses r600 sepcific intrinsics LLVM-4 switched to _ro_t and _rw_t image types Portions of the code can be moved back as more targets/llvm versions add image support Reviewer: Aaron Watry Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 315341	2017-10-10 18:10:21 +00:00
Jan Vesely	a02d0e2c50	integer/sub_sat: Use clang builtin instead of llvm asm reviewer: Tom Stellard Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 314703	2017-10-02 18:39:03 +00:00
Jan Vesely	1964df8fad	integer/add_sat: Use clang builtin instead of llvm asm reviewer: Tom Stellard Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 314702	2017-10-02 18:39:00 +00:00
Jan Vesely	943057a288	integer/clz: Use clang builtin instead of llvm asm The generated llvm IR mostly identical. char/uchar case is a bit worse. reviewer: Tom Stellard Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 314701	2017-10-02 18:38:57 +00:00
Jan Vesely	1fa727d615	Rework atomic ops to use clang builtins rather than llvm asm reviewer: Aaron Watry Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 314112	2017-09-25 16:07:34 +00:00
Jan Vesely	c9bbbe2403	Implement cl_khr_int64_extended_atomics builtins Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Aaron Watry <awatry@gmail.com> Tested-by: Aaron Watry <awatry@gmail.com> llvm-svn: 313811	2017-09-20 20:42:19 +00:00
Jan Vesely	1c81f4b0e3	Implement cl_khr_int64_base_atomics builtins Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Aaron Watry <awatry@gmail.com> Tested-by: Aaron Watry <awatry@gmail.com> llvm-svn: 313810	2017-09-20 20:42:14 +00:00
Jan Vesely	285d2fb85c	Implement vload_half{,n} and vload(half) v2: add vload(half) as well make helpers amdgpu specific (NVPTX uses different private AS numbering) use clang builtin on clang >= 6 Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <tstellar@redhat.com> llvm-svn: 312839	2017-09-08 23:59:00 +00:00
Jan Vesely	661ac03a1b	vstore: Cleanup and add vstore(half) Add missing undefs Make helpers amdgpu specific (NVPTX uses different numbering for private AS) Use clang builtins on clang >= 6 Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <tstellar@redhat.com> llvm-svn: 312838	2017-09-08 23:58:57 +00:00
Aaron Watry	0bf96b1712	relational: Implement shuffle2 builtin This was added in CL 1.1 Tested with a Radeon HD 7850 (Pitcairn) using the CL CTS via: test_conformance/relationals/test_relationals shuffle_built_in_dual_input v2: Add half support to shuffle2 Move shuffle2 to misc/ Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 312404	2017-09-02 02:23:28 +00:00
Aaron Watry	880f15dae6	relational: Implement shuffle builtin This was added in CL 1.1 Tested with a Radeon HD 7850 (Pitcairn) using the CL CTS via: test_conformance/relationals/test_relationals shuffle_built_in v2: Add half-precision support to shuffle when available. Move to misc/ and add section 6.12.12 to clc.h Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 312403	2017-09-02 02:23:26 +00:00
Jan Vesely	9f7172965c	math: Implement sinh function mostly copied form amd_builtins llvm-svn: 296233	2017-02-25 02:46:53 +00:00
Aaron Watry	c606efabb7	math: Add logb builtin Ported from the amd-builtins branch. Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Matt Arsenault <Matthew.Arsenault@amd.com> CC: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 292335	2017-01-18 03:14:10 +00:00
Aaron Watry	900bd7eb7f	math: Add expm1 builtin function Ported from the amd-builtins branch. Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Matt Arsenault <Matthew.Arsenault@amd.com> CC: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 292334	2017-01-18 03:13:37 +00:00
Jan Vesely	0a5aac3fc4	Provide vstore_half helper to workaround clc restrictions clang won't accept half precision loads and stores without cl_khr_fp16 since r281904 llvm-svn: 282106	2016-09-21 20:15:55 +00:00
Aaron Watry	af569547fa	math: Implement tgamma Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 281566	2016-09-15 00:17:34 +00:00
Aaron Watry	e9009cdd21	math: Implement lgamma Just use lgamma_r and ignore the value returned in the second argument Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 281565	2016-09-15 00:17:31 +00:00
Aaron Watry	0ab07e1bde	math: Implement lgamma_r Ported from the amd-builtins branch, which is itself based on the Sun Microsystems implementation. Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 281564	2016-09-15 00:17:28 +00:00
Aaron Watry	f969413a82	Add ADDR_SPACE parameter to _CLC_V_V_VP_VECTORIZE This macro is currently unused, but I plan to use it shortly. The previous form did casts of pointers without an address space, which doesn't work so well for CL 1.x. Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 281563	2016-09-15 00:17:22 +00:00
Matt Arsenault	fbfd828d2a	Replace nextafter implementation This one passes conformance. llvm-svn: 280961	2016-09-08 16:37:56 +00:00
Jan Vesely	eade17271a	Avoid ambiguity in calling atom_add functions. clang (since r280553) allows pointer casts in function overloads, so we need to disambiguate the second argument. clang might be smarter about overloads in the future see https://reviews.llvm.org/D24113, but let's be safe in libclc anyway. llvm-svn: 280871	2016-09-07 22:11:02 +00:00
Jan Vesely	ad8672727c	Implement vstore_half{,n} Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 278962	2016-08-17 20:02:11 +00:00
Jan Vesely	4c59714a52	Make min follow the OCL 1.0 specs OpenCL 1.0: "Returns y if y < x, otherwise it returns x. If x and y are infinite or NaN, the return values are undefined." OpenCL 1.1+: "Returns y if y < x, otherwise it returns x. If x or y are infinite or NaN, the return values are undefined." The 1.0 version is stricter so use that one. Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 276704	2016-07-25 22:36:22 +00:00
Tom Stellard	d835b3f1af	Implement cbrt builtin This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 276497	2016-07-22 23:45:15 +00:00
Tom Stellard	9cb070f96a	Implement cosh builtin This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 276496	2016-07-22 23:45:13 +00:00
Jan Vesely	a82e080b57	AMDGPU: Implement get_global_offset builtin Also fix get_global_id to consider offset No idea how to add this for ptx, so they are stuck with the old get_global_id implementation. v2: split to a separate patch v3: Switch R600 to use implictarg.ptr Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 276443	2016-07-22 17:24:24 +00:00
Jan Vesely	3317f253de	64 bit integers are legal in full profile without an extension Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <tom@stellard.net> llvm-svn: 273042	2016-06-17 20:30:41 +00:00
Jan Vesely	973c1fa5f5	math: Use single precision fmax in sp path Fixes fdim piglit on Turks v2: use CL fmax instead of __builtin Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <tom.stellard@amd.com> llvm-svn: 269807	2016-05-17 19:44:01 +00:00
Jan Vesely	c374cb76f4	math: Add erf ported from amd-builtins The scalar float/double function bodies are a direct copy/paste, aside from the removed (optional) code in float function body that requires subnormals. reviewers: jvesely Patch by: Vedran Miletić <rivanvx@gmail.com> llvm-svn: 268766	2016-05-06 18:02:30 +00:00
Aaron Watry	55a8e0fd6d	math: Add fdim implementation Based on the amd-builtin, but explicitly vectorized for all sizes (not just float4), and includes a vectorized double implementation. Passes piglit (float) tests on pitcairn. Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 268708	2016-05-06 03:34:45 +00:00
Aaron Watry	09f3c99a86	math: Fix ilogb(double) return type Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 261714	2016-02-24 00:52:15 +00:00
Aaron Watry	d6d0454231	math: Add ilogb ported from amd-builtins The scalar float/double function bodies are a direct copy/paste with usage of the CLC wrappers to vectorize them. This commit also adds in the FP_ILOGB0 and FP_ILOGBNAN macros which are equal to the results of ilogb(0.0f) and ilogb(float nan) respectively. v2: Add FP_ILOGB0 and FP_ILOGBNAN definitions Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Jan Vesely <jan.vesely@rutgers.edu> v1 Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 261639	2016-02-23 14:43:09 +00:00
Jan Vesely	7fbb96b907	math: Fix log2 vectorization on non-fp64 hw reviewer: tstellard Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 260301	2016-02-09 22:17:42 +00:00
Aaron Watry	8872800eff	math: Add frexp ported from amd-builtins The float implementation is almost a direct port from the amd-builtins, but instead of just having a scalar and float4 implementation, it has a scalar and arbitrary width vector implementation. The double scalar is also a direct port from AMD's builtin release. The double vector implementation copies the logic in the float vector implementation using the values from the double scalar version. Both have been tested in piglit using tests sent to that project's mailing list. Signed-off-by: Aaron Watry <awatry@gmail.com> Reviewed-by: Jan Vesely <jan.vesely@rutgers.edu> llvm-svn: 260114	2016-02-08 17:07:21 +00:00
Tom Stellard	37d19875fa	Implement modf math builtin V2: use the reference implementation as suggested by Matt Arsenault Patch By: Pavel Ondračka llvm-svn: 258933	2016-01-27 14:52:10 +00:00
Tom Stellard	a249f50970	Add _CLC_V_V_VP_VECTORIZE macro Patch by: Pavel Ondračka llvm-svn: 258932	2016-01-27 14:52:07 +00:00
Niels Ole Salscheider	f51df5ba8c	Implement tanh builtin This is a port from the AMD builtin library. llvm-svn: 248780	2015-09-29 06:39:09 +00:00
Tom Stellard	ccc0ec1ddb	Add image attribute getter builtins Added get_image_* OpenCL builtins to the headers. Added implementation to the r600 target. Patch by: Zoltan Gilian llvm-svn: 248159	2015-09-21 14:47:53 +00:00
Jeroen Ketema	d7be603ab1	Remove files accidentally not removed in r244310 llvm-svn: 244987	2015-08-13 23:43:12 +00:00
Tom Stellard	7a09e88b6e	Fix double implementation of log We need to use M_LOG2E instead of M_LOG2E_F. llvm-svn: 243132	2015-07-24 18:07:14 +00:00
Tom Stellard	44b6117dfd	Implement accurate log2 function Use the implementation was ported from the AMD builtin library rather than LLVM Intrinsics. This has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 243131	2015-07-24 18:07:12 +00:00
Tom Stellard	f01ffa9ddc	Use llvm intrinsics for native_log and native_log2 llvm-svn: 243130	2015-07-24 18:07:06 +00:00
Tom Stellard	2ef5ec6b2b	Fix implementation of sqrt v2 Passing values less than 0 to the llvm.sqrt() intrinsic results in undefined behavior, so we need to check the input and return NaN if is is less than 0. v2: - Fix build failures. llvm-svn: 241906	2015-07-10 13:37:07 +00:00
Tom Stellard	a64bad8338	Use a more accurate implementation for exp Using exp2(x * M_LOG2E_F) does not give us accurate enough results for OpenCL. If you look at the new exp implementation you'll see that it does multiply the input by M_LOG2E_F, but it still uses the original input in part of the calculation. This exp implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 237229	2015-05-13 03:55:09 +00:00
Tom Stellard	d538fdc217	Implement exp2 using OpenCL C rather than using an intrinsic Not all targets support the intrinsic, so it's better to have a generic implementation which does not use it. This exp2 implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 237228	2015-05-13 03:55:07 +00:00
Tom Stellard	4294541290	Implement sin for double types This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 237155	2015-05-12 17:18:47 +00:00
Tom Stellard	2e6ff0c66e	Implement cos for double types This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 237154	2015-05-12 17:18:46 +00:00
Tom Stellard	37406a209c	Implement atan2pi builtin This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 237138	2015-05-12 14:48:26 +00:00
Tom Stellard	79cc3eda1e	Implement atan2 for doubles This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 237131	2015-05-12 13:48:51 +00:00
Jan Vesely	b0fb990b54	math: limit half_sqrt to single precision Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 236941	2015-05-09 22:31:03 +00:00
Jan Vesely	7c829fe149	geometric: Limit fast_{distance,length} functions to single precision Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 236940	2015-05-09 22:31:01 +00:00
Jan Vesely	071833d454	Fix ldexp fp64 build error Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Aaron Watry <awatry@gmail.com> llvm-svn: 236939	2015-05-09 22:30:59 +00:00
Tom Stellard	17ec3a51c3	Implement fast_normalize builtin v4 This implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. v2: - Remove f suffix from constant in double implementations. - Consolidate implementations using the .cl/.inc approach. v3: - Use __CLC_FPSIZE instead of __CLC_FP{32,64} v4 (Jan Vesely): - Limit to single precision. llvm-svn: 236920	2015-05-09 00:04:12 +00:00
Tom Stellard	2ddfa0c5b2	Implement half_rsqrt builtin v3 This is a generic implementation which just calls rsqrt. Targets should override this if they want a faster implementation. v2: - Alphabettize SOURCES v3 (Jan Vesely): Limit to single precision types. llvm-svn: 236915	2015-05-08 23:28:44 +00:00
Jan Vesely	90e7ad589e	Move ldexp soft implementation to a separate file Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 236648	2015-05-06 21:59:29 +00:00
Jan Vesely	bc81ebefb7	Implement sinpi builtin Ported from AMD builtin library, passes piglit on Turks. Signed-off-by: Jan Vesely <jan.vesely@rutgers.edu> Reviewed-by: Tom Stellard <thomas.stellard@amd.com> llvm-svn: 236647	2015-05-06 21:59:26 +00:00
Tom Stellard	2ca909d824	math: Add ldexp implementation Signed-off-by: Aaron Watry <awatry@gmail.com> Tom Stellard: - Add denormal handling. - Share vectorization code with r600 implementation. Patch By: Aaron Watry llvm-svn: 236639	2015-05-06 20:53:32 +00:00
Tom Stellard	aed5f3cf7e	Fix implementation of normalize builtin The new implementation was ported from the AMD builtin library and has been tested with piglit, OpenCV, and the ocl conformance tests. llvm-svn: 236608	2015-05-06 16:06:31 +00:00

1 2 3 4 5 ...

280 Commits