Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
torvalds
GitHub Repository: torvalds/linux
Path: blob/master/arch/xtensa/lib/mulsi3.S
26426 views
1
/* SPDX-License-Identifier: GPL-2.0-or-later WITH GCC-exception-2.0 */
2
#include <linux/linkage.h>
3
#include <asm/asmmacro.h>
4
#include <asm/core.h>
5
6
.macro do_addx2 dst, as, at, tmp
7
#if XCHAL_HAVE_ADDX
8
addx2 \dst, \as, \at
9
#else
10
slli \tmp, \as, 1
11
add \dst, \tmp, \at
12
#endif
13
.endm
14
15
.macro do_addx4 dst, as, at, tmp
16
#if XCHAL_HAVE_ADDX
17
addx4 \dst, \as, \at
18
#else
19
slli \tmp, \as, 2
20
add \dst, \tmp, \at
21
#endif
22
.endm
23
24
.macro do_addx8 dst, as, at, tmp
25
#if XCHAL_HAVE_ADDX
26
addx8 \dst, \as, \at
27
#else
28
slli \tmp, \as, 3
29
add \dst, \tmp, \at
30
#endif
31
.endm
32
33
ENTRY(__mulsi3)
34
35
abi_entry_default
36
37
#if XCHAL_HAVE_MUL32
38
mull a2, a2, a3
39
40
#elif XCHAL_HAVE_MUL16
41
or a4, a2, a3
42
srai a4, a4, 16
43
bnez a4, .LMUL16
44
mul16u a2, a2, a3
45
abi_ret_default
46
.LMUL16:
47
srai a4, a2, 16
48
srai a5, a3, 16
49
mul16u a7, a4, a3
50
mul16u a6, a5, a2
51
mul16u a4, a2, a3
52
add a7, a7, a6
53
slli a7, a7, 16
54
add a2, a7, a4
55
56
#elif XCHAL_HAVE_MAC16
57
mul.aa.hl a2, a3
58
mula.aa.lh a2, a3
59
rsr a5, ACCLO
60
umul.aa.ll a2, a3
61
rsr a4, ACCLO
62
slli a5, a5, 16
63
add a2, a4, a5
64
65
#else /* !MUL32 && !MUL16 && !MAC16 */
66
67
/* Multiply one bit at a time, but unroll the loop 4x to better
68
exploit the addx instructions and avoid overhead.
69
Peel the first iteration to save a cycle on init. */
70
71
/* Avoid negative numbers. */
72
xor a5, a2, a3 /* Top bit is 1 if one input is negative. */
73
do_abs a3, a3, a6
74
do_abs a2, a2, a6
75
76
/* Swap so the second argument is smaller. */
77
sub a7, a2, a3
78
mov a4, a3
79
movgez a4, a2, a7 /* a4 = max (a2, a3) */
80
movltz a3, a2, a7 /* a3 = min (a2, a3) */
81
82
movi a2, 0
83
extui a6, a3, 0, 1
84
movnez a2, a4, a6
85
86
do_addx2 a7, a4, a2, a7
87
extui a6, a3, 1, 1
88
movnez a2, a7, a6
89
90
do_addx4 a7, a4, a2, a7
91
extui a6, a3, 2, 1
92
movnez a2, a7, a6
93
94
do_addx8 a7, a4, a2, a7
95
extui a6, a3, 3, 1
96
movnez a2, a7, a6
97
98
bgeui a3, 16, .Lmult_main_loop
99
neg a3, a2
100
movltz a2, a3, a5
101
abi_ret_default
102
103
.align 4
104
.Lmult_main_loop:
105
srli a3, a3, 4
106
slli a4, a4, 4
107
108
add a7, a4, a2
109
extui a6, a3, 0, 1
110
movnez a2, a7, a6
111
112
do_addx2 a7, a4, a2, a7
113
extui a6, a3, 1, 1
114
movnez a2, a7, a6
115
116
do_addx4 a7, a4, a2, a7
117
extui a6, a3, 2, 1
118
movnez a2, a7, a6
119
120
do_addx8 a7, a4, a2, a7
121
extui a6, a3, 3, 1
122
movnez a2, a7, a6
123
124
bgeui a3, 16, .Lmult_main_loop
125
126
neg a3, a2
127
movltz a2, a3, a5
128
129
#endif /* !MUL32 && !MUL16 && !MAC16 */
130
131
abi_ret_default
132
133
ENDPROC(__mulsi3)
134
EXPORT_SYMBOL(__mulsi3)
135
136