CoCalc -- poly1305-p10le

GitHub Repository: torvalds/linux
Path: blob/master/lib/crypto/powerpc/poly1305-p10le_64.S
²⁶²⁸⁹ views
1
/* SPDX-License-Identifier: GPL-2.0-or-later */
2
#
3
# Accelerated poly1305 implementation for ppc64le.
4
#
5
# Copyright 2023- IBM Corp. All rights reserved
6
#
7
#===================================================================================
8
# Written by Danny Tsen <[email protected]>
9
#
10
# Poly1305 - this version mainly using vector/VSX/Scalar
11
#  - 26 bits limbs
12
#  - Handle multiple 64 byte blcok.
13
#
14
# Block size 16 bytes
15
# key = (r, s)
16
# clamp r &= 0x0FFFFFFC0FFFFFFC 0x0FFFFFFC0FFFFFFF
17
# p = 2^130 - 5
18
# a += m
19
# a = (r + a) % p
20
# a += s
21
#
22
# Improve performance by breaking down polynominal to the sum of products with
23
#     h4 = m1 * r⁴ + m2 * r³ + m3 * r² + m4 * r
24
#
25
#  07/22/21 - this revison based on the above sum of products.  Setup r^4, r^3, r^2, r and s3, s2, s1, s0
26
#             to 9 vectors for multiplications.
27
#
28
# setup r^4, r^3, r^2, r vectors
29
#    vs    [r^1, r^3, r^2, r^4]
30
#    vs0 = [r0,.....]
31
#    vs1 = [r1,.....]
32
#    vs2 = [r2,.....]
33
#    vs3 = [r3,.....]
34
#    vs4 = [r4,.....]
35
#    vs5 = [r1*5,...]
36
#    vs6 = [r2*5,...]
37
#    vs7 = [r2*5,...]
38
#    vs8 = [r4*5,...]
39
#
40
#  Each word in a vector consists a member of a "r/s" in [a * r/s].
41
#
42
# r0, r4*5, r3*5, r2*5, r1*5;
43
# r1, r0,   r4*5, r3*5, r2*5;
44
# r2, r1,   r0,   r4*5, r3*5;
45
# r3, r2,   r1,   r0,   r4*5;
46
# r4, r3,   r2,   r1,   r0  ;
47
#
48
#
49
# poly1305_p10le_4blocks( uint8_t *k, uint32_t mlen, uint8_t *m)
50
#  k = 32 bytes key
51
#  r3 = k (r, s)
52
#  r4 = mlen
53
#  r5 = m
54
#
55
#include <asm/ppc_asm.h>
56
#include <asm/asm-offsets.h>
57
#include <asm/asm-compat.h>
58
#include <linux/linkage.h>
59

60
.machine "any"
61

62
.text
63

64
.macro	SAVE_GPR GPR OFFSET FRAME
65
	std	\GPR,\OFFSET(\FRAME)
66
.endm
67

68
.macro	SAVE_VRS VRS OFFSET FRAME
69
	li	16, \OFFSET
70
	stvx	\VRS, 16, \FRAME
71
.endm
72

73
.macro	SAVE_VSX VSX OFFSET FRAME
74
	li	16, \OFFSET
75
	stxvx	\VSX, 16, \FRAME
76
.endm
77

78
.macro	RESTORE_GPR GPR OFFSET FRAME
79
	ld	\GPR,\OFFSET(\FRAME)
80
.endm
81

82
.macro	RESTORE_VRS VRS OFFSET FRAME
83
	li	16, \OFFSET
84
	lvx	\VRS, 16, \FRAME
85
.endm
86

87
.macro	RESTORE_VSX VSX OFFSET FRAME
88
	li	16, \OFFSET
89
	lxvx	\VSX, 16, \FRAME
90
.endm
91

92
.macro SAVE_REGS
93
	mflr 0
94
	std 0, 16(1)
95
	stdu 1,-752(1)
96

97
	SAVE_GPR 14, 112, 1
98
	SAVE_GPR 15, 120, 1
99
	SAVE_GPR 16, 128, 1
100
	SAVE_GPR 17, 136, 1
101
	SAVE_GPR 18, 144, 1
102
	SAVE_GPR 19, 152, 1
103
	SAVE_GPR 20, 160, 1
104
	SAVE_GPR 21, 168, 1
105
	SAVE_GPR 22, 176, 1
106
	SAVE_GPR 23, 184, 1
107
	SAVE_GPR 24, 192, 1
108
	SAVE_GPR 25, 200, 1
109
	SAVE_GPR 26, 208, 1
110
	SAVE_GPR 27, 216, 1
111
	SAVE_GPR 28, 224, 1
112
	SAVE_GPR 29, 232, 1
113
	SAVE_GPR 30, 240, 1
114
	SAVE_GPR 31, 248, 1
115

116
	addi	9, 1, 256
117
	SAVE_VRS 20, 0, 9
118
	SAVE_VRS 21, 16, 9
119
	SAVE_VRS 22, 32, 9
120
	SAVE_VRS 23, 48, 9
121
	SAVE_VRS 24, 64, 9
122
	SAVE_VRS 25, 80, 9
123
	SAVE_VRS 26, 96, 9
124
	SAVE_VRS 27, 112, 9
125
	SAVE_VRS 28, 128, 9
126
	SAVE_VRS 29, 144, 9
127
	SAVE_VRS 30, 160, 9
128
	SAVE_VRS 31, 176, 9
129

130
	SAVE_VSX 14, 192, 9
131
	SAVE_VSX 15, 208, 9
132
	SAVE_VSX 16, 224, 9
133
	SAVE_VSX 17, 240, 9
134
	SAVE_VSX 18, 256, 9
135
	SAVE_VSX 19, 272, 9
136
	SAVE_VSX 20, 288, 9
137
	SAVE_VSX 21, 304, 9
138
	SAVE_VSX 22, 320, 9
139
	SAVE_VSX 23, 336, 9
140
	SAVE_VSX 24, 352, 9
141
	SAVE_VSX 25, 368, 9
142
	SAVE_VSX 26, 384, 9
143
	SAVE_VSX 27, 400, 9
144
	SAVE_VSX 28, 416, 9
145
	SAVE_VSX 29, 432, 9
146
	SAVE_VSX 30, 448, 9
147
	SAVE_VSX 31, 464, 9
148
.endm # SAVE_REGS
149

150
.macro RESTORE_REGS
151
	addi	9, 1, 256
152
	RESTORE_VRS 20, 0, 9
153
	RESTORE_VRS 21, 16, 9
154
	RESTORE_VRS 22, 32, 9
155
	RESTORE_VRS 23, 48, 9
156
	RESTORE_VRS 24, 64, 9
157
	RESTORE_VRS 25, 80, 9
158
	RESTORE_VRS 26, 96, 9
159
	RESTORE_VRS 27, 112, 9
160
	RESTORE_VRS 28, 128, 9
161
	RESTORE_VRS 29, 144, 9
162
	RESTORE_VRS 30, 160, 9
163
	RESTORE_VRS 31, 176, 9
164

165
	RESTORE_VSX 14, 192, 9
166
	RESTORE_VSX 15, 208, 9
167
	RESTORE_VSX 16, 224, 9
168
	RESTORE_VSX 17, 240, 9
169
	RESTORE_VSX 18, 256, 9
170
	RESTORE_VSX 19, 272, 9
171
	RESTORE_VSX 20, 288, 9
172
	RESTORE_VSX 21, 304, 9
173
	RESTORE_VSX 22, 320, 9
174
	RESTORE_VSX 23, 336, 9
175
	RESTORE_VSX 24, 352, 9
176
	RESTORE_VSX 25, 368, 9
177
	RESTORE_VSX 26, 384, 9
178
	RESTORE_VSX 27, 400, 9
179
	RESTORE_VSX 28, 416, 9
180
	RESTORE_VSX 29, 432, 9
181
	RESTORE_VSX 30, 448, 9
182
	RESTORE_VSX 31, 464, 9
183

184
	RESTORE_GPR 14, 112, 1
185
	RESTORE_GPR 15, 120, 1
186
	RESTORE_GPR 16, 128, 1
187
	RESTORE_GPR 17, 136, 1
188
	RESTORE_GPR 18, 144, 1
189
	RESTORE_GPR 19, 152, 1
190
	RESTORE_GPR 20, 160, 1
191
	RESTORE_GPR 21, 168, 1
192
	RESTORE_GPR 22, 176, 1
193
	RESTORE_GPR 23, 184, 1
194
	RESTORE_GPR 24, 192, 1
195
	RESTORE_GPR 25, 200, 1
196
	RESTORE_GPR 26, 208, 1
197
	RESTORE_GPR 27, 216, 1
198
	RESTORE_GPR 28, 224, 1
199
	RESTORE_GPR 29, 232, 1
200
	RESTORE_GPR 30, 240, 1
201
	RESTORE_GPR 31, 248, 1
202

203
	addi    1, 1, 752
204
	ld 0, 16(1)
205
	mtlr 0
206
.endm # RESTORE_REGS
207

208
#
209
# p[0] = a0*r0 + a1*r4*5 + a2*r3*5 + a3*r2*5 + a4*r1*5;
210
# p[1] = a0*r1 + a1*r0   + a2*r4*5 + a3*r3*5 + a4*r2*5;
211
# p[2] = a0*r2 + a1*r1   + a2*r0   + a3*r4*5 + a4*r3*5;
212
# p[3] = a0*r3 + a1*r2   + a2*r1   + a3*r0   + a4*r4*5;
213
# p[4] = a0*r4 + a1*r3   + a2*r2   + a3*r1   + a4*r0  ;
214
#
215
#    [r^2, r^3, r^1, r^4]
216
#    [m3,  m2,  m4,  m1]
217
#
218
# multiply odd and even words
219
.macro mul_odd
220
	vmulouw	14, 4, 26
221
	vmulouw	10, 5, 3
222
	vmulouw	11, 6, 2
223
	vmulouw	12, 7, 1
224
	vmulouw	13, 8, 0
225
	vmulouw	15, 4, 27
226
	vaddudm	14, 14, 10
227
	vaddudm	14, 14, 11
228
	vmulouw	10, 5, 26
229
	vmulouw	11, 6, 3
230
	vaddudm	14, 14, 12
231
	vaddudm	14, 14, 13	# x0
232
	vaddudm	15, 15, 10
233
	vaddudm	15, 15, 11
234
	vmulouw	12, 7, 2
235
	vmulouw	13, 8, 1
236
	vaddudm	15, 15, 12
237
	vaddudm	15, 15, 13	# x1
238
	vmulouw	16, 4, 28
239
	vmulouw	10, 5, 27
240
	vmulouw	11, 6, 26
241
	vaddudm	16, 16, 10
242
	vaddudm	16, 16, 11
243
	vmulouw	12, 7, 3
244
	vmulouw	13, 8, 2
245
	vaddudm	16, 16, 12
246
	vaddudm	16, 16, 13	# x2
247
	vmulouw	17, 4, 29
248
	vmulouw	10, 5, 28
249
	vmulouw	11, 6, 27
250
	vaddudm	17, 17, 10
251
	vaddudm	17, 17, 11
252
	vmulouw	12, 7, 26
253
	vmulouw	13, 8, 3
254
	vaddudm	17, 17, 12
255
	vaddudm	17, 17, 13	# x3
256
	vmulouw	18, 4, 30
257
	vmulouw	10, 5, 29
258
	vmulouw	11, 6, 28
259
	vaddudm	18, 18, 10
260
	vaddudm	18, 18, 11
261
	vmulouw	12, 7, 27
262
	vmulouw	13, 8, 26
263
	vaddudm	18, 18, 12
264
	vaddudm	18, 18, 13	# x4
265
.endm
266

267
.macro mul_even
268
	vmuleuw	9, 4, 26
269
	vmuleuw	10, 5, 3
270
	vmuleuw	11, 6, 2
271
	vmuleuw	12, 7, 1
272
	vmuleuw	13, 8, 0
273
	vaddudm	14, 14, 9
274
	vaddudm	14, 14, 10
275
	vaddudm	14, 14, 11
276
	vaddudm	14, 14, 12
277
	vaddudm	14, 14, 13	# x0
278

279
	vmuleuw	9, 4, 27
280
	vmuleuw	10, 5, 26
281
	vmuleuw	11, 6, 3
282
	vmuleuw	12, 7, 2
283
	vmuleuw	13, 8, 1
284
	vaddudm	15, 15, 9
285
	vaddudm	15, 15, 10
286
	vaddudm	15, 15, 11
287
	vaddudm	15, 15, 12
288
	vaddudm	15, 15, 13	# x1
289

290
	vmuleuw	9, 4, 28
291
	vmuleuw	10, 5, 27
292
	vmuleuw	11, 6, 26
293
	vmuleuw	12, 7, 3
294
	vmuleuw	13, 8, 2
295
	vaddudm	16, 16, 9
296
	vaddudm	16, 16, 10
297
	vaddudm	16, 16, 11
298
	vaddudm	16, 16, 12
299
	vaddudm	16, 16, 13	# x2
300

301
	vmuleuw	9, 4, 29
302
	vmuleuw	10, 5, 28
303
	vmuleuw	11, 6, 27
304
	vmuleuw	12, 7, 26
305
	vmuleuw	13, 8, 3
306
	vaddudm	17, 17, 9
307
	vaddudm	17, 17, 10
308
	vaddudm	17, 17, 11
309
	vaddudm	17, 17, 12
310
	vaddudm	17, 17, 13	# x3
311

312
	vmuleuw	9, 4, 30
313
	vmuleuw	10, 5, 29
314
	vmuleuw	11, 6, 28
315
	vmuleuw	12, 7, 27
316
	vmuleuw	13, 8, 26
317
	vaddudm	18, 18, 9
318
	vaddudm	18, 18, 10
319
	vaddudm	18, 18, 11
320
	vaddudm	18, 18, 12
321
	vaddudm	18, 18, 13	# x4
322
.endm
323

324
#
325
# poly1305_setup_r
326
#
327
# setup r^4, r^3, r^2, r vectors
328
#    [r, r^3, r^2, r^4]
329
#    vs0 = [r0,...]
330
#    vs1 = [r1,...]
331
#    vs2 = [r2,...]
332
#    vs3 = [r3,...]
333
#    vs4 = [r4,...]
334
#    vs5 = [r4*5,...]
335
#    vs6 = [r3*5,...]
336
#    vs7 = [r2*5,...]
337
#    vs8 = [r1*5,...]
338
#
339
# r0, r4*5, r3*5, r2*5, r1*5;
340
# r1, r0,   r4*5, r3*5, r2*5;
341
# r2, r1,   r0,   r4*5, r3*5;
342
# r3, r2,   r1,   r0,   r4*5;
343
# r4, r3,   r2,   r1,   r0  ;
344
#
345
.macro poly1305_setup_r
346

347
	# save r
348
	xxlor	26, 58, 58
349
	xxlor	27, 59, 59
350
	xxlor	28, 60, 60
351
	xxlor	29, 61, 61
352
	xxlor	30, 62, 62
353

354
	xxlxor	31, 31, 31
355

356
#    [r, r^3, r^2, r^4]
357
	# compute r^2
358
	vmr	4, 26
359
	vmr	5, 27
360
	vmr	6, 28
361
	vmr	7, 29
362
	vmr	8, 30
363
	bl	do_mul		# r^2 r^1
364
	xxpermdi 58, 58, 36, 0x3		# r0
365
	xxpermdi 59, 59, 37, 0x3		# r1
366
	xxpermdi 60, 60, 38, 0x3		# r2
367
	xxpermdi 61, 61, 39, 0x3		# r3
368
	xxpermdi 62, 62, 40, 0x3		# r4
369
	xxpermdi 36, 36, 36, 0x3
370
	xxpermdi 37, 37, 37, 0x3
371
	xxpermdi 38, 38, 38, 0x3
372
	xxpermdi 39, 39, 39, 0x3
373
	xxpermdi 40, 40, 40, 0x3
374
	vspltisb 13, 2
375
	vsld	9, 27, 13
376
	vsld	10, 28, 13
377
	vsld	11, 29, 13
378
	vsld	12, 30, 13
379
	vaddudm	0, 9, 27
380
	vaddudm	1, 10, 28
381
	vaddudm	2, 11, 29
382
	vaddudm	3, 12, 30
383

384
	bl	do_mul		# r^4 r^3
385
	vmrgow	26, 26, 4
386
	vmrgow	27, 27, 5
387
	vmrgow	28, 28, 6
388
	vmrgow	29, 29, 7
389
	vmrgow	30, 30, 8
390
	vspltisb 13, 2
391
	vsld	9, 27, 13
392
	vsld	10, 28, 13
393
	vsld	11, 29, 13
394
	vsld	12, 30, 13
395
	vaddudm	0, 9, 27
396
	vaddudm	1, 10, 28
397
	vaddudm	2, 11, 29
398
	vaddudm	3, 12, 30
399

400
	# r^2 r^4
401
	xxlor	0, 58, 58
402
	xxlor	1, 59, 59
403
	xxlor	2, 60, 60
404
	xxlor	3, 61, 61
405
	xxlor	4, 62, 62
406
	xxlor	5, 32, 32
407
	xxlor	6, 33, 33
408
	xxlor	7, 34, 34
409
	xxlor	8, 35, 35
410

411
	vspltw	9, 26, 3
412
	vspltw	10, 26, 2
413
	vmrgow	26, 10, 9
414
	vspltw	9, 27, 3
415
	vspltw	10, 27, 2
416
	vmrgow	27, 10, 9
417
	vspltw	9, 28, 3
418
	vspltw	10, 28, 2
419
	vmrgow	28, 10, 9
420
	vspltw	9, 29, 3
421
	vspltw	10, 29, 2
422
	vmrgow	29, 10, 9
423
	vspltw	9, 30, 3
424
	vspltw	10, 30, 2
425
	vmrgow	30, 10, 9
426

427
	vsld	9, 27, 13
428
	vsld	10, 28, 13
429
	vsld	11, 29, 13
430
	vsld	12, 30, 13
431
	vaddudm	0, 9, 27
432
	vaddudm	1, 10, 28
433
	vaddudm	2, 11, 29
434
	vaddudm	3, 12, 30
435
.endm
436

437
SYM_FUNC_START_LOCAL(do_mul)
438
	mul_odd
439

440
	# do reduction ( h %= p )
441
	# carry reduction
442
	vspltisb 9, 2
443
	vsrd	10, 14, 31
444
	vsrd	11, 17, 31
445
	vand	7, 17, 25
446
	vand	4, 14, 25
447
	vaddudm	18, 18, 11
448
	vsrd	12, 18, 31
449
	vaddudm	15, 15, 10
450

451
	vsrd	11, 15, 31
452
	vand	8, 18, 25
453
	vand	5, 15, 25
454
	vaddudm	4, 4, 12
455
	vsld	10, 12, 9
456
	vaddudm	6, 16, 11
457

458
	vsrd	13, 6, 31
459
	vand	6, 6, 25
460
	vaddudm	4, 4, 10
461
	vsrd	10, 4, 31
462
	vaddudm	7, 7, 13
463

464
	vsrd	11, 7, 31
465
	vand	7, 7, 25
466
	vand	4, 4, 25
467
	vaddudm	5, 5, 10
468
	vaddudm	8, 8, 11
469
	blr
470
SYM_FUNC_END(do_mul)
471

472
#
473
# init key
474
#
475
.macro do_poly1305_init
476
	addis	10, 2, rmask@toc@ha
477
	addi	10, 10, rmask@toc@l
478

479
	ld	11, 0(10)
480
	ld	12, 8(10)
481

482
	li	14, 16
483
	li	15, 32
484
	addis	10, 2, cnum@toc@ha
485
	addi	10, 10, cnum@toc@l
486
	lvx	25, 0, 10	# v25 - mask
487
	lvx	31, 14, 10	# v31 = 1a
488
	lvx	19, 15, 10	# v19 = 1 << 24
489
	lxv	24, 48(10)	# vs24
490
	lxv	25, 64(10)	# vs25
491

492
	# initialize
493
	# load key from r3 to vectors
494
	ld	9, 24(3)
495
	ld	10, 32(3)
496
	and.	9, 9, 11
497
	and.	10, 10, 12
498

499
	# break 26 bits
500
	extrdi	14, 9, 26, 38
501
	extrdi	15, 9, 26, 12
502
	extrdi	16, 9, 12, 0
503
	mtvsrdd	58, 0, 14
504
	insrdi	16, 10, 14, 38
505
	mtvsrdd	59, 0, 15
506
	extrdi	17, 10, 26, 24
507
	mtvsrdd	60, 0, 16
508
	extrdi	18, 10, 24, 0
509
	mtvsrdd	61, 0, 17
510
	mtvsrdd	62, 0, 18
511

512
	# r1 = r1 * 5, r2 = r2 * 5, r3 = r3 * 5, r4 = r4 * 5
513
	li	9, 5
514
	mtvsrdd	36, 0, 9
515
	vmulouw	0, 27, 4		# v0 = rr0
516
	vmulouw	1, 28, 4		# v1 = rr1
517
	vmulouw	2, 29, 4		# v2 = rr2
518
	vmulouw	3, 30, 4		# v3 = rr3
519
.endm
520

521
#
522
# poly1305_p10le_4blocks( uint8_t *k, uint32_t mlen, uint8_t *m)
523
#  k = 32 bytes key
524
#  r3 = k (r, s)
525
#  r4 = mlen
526
#  r5 = m
527
#
528
SYM_FUNC_START(poly1305_p10le_4blocks)
529
.align 5
530
	cmpdi	5, 64
531
	blt	Out_no_poly1305
532

533
	SAVE_REGS
534

535
	do_poly1305_init
536

537
	li	21, 0	# counter to message
538

539
	poly1305_setup_r
540

541
	# load previous H state
542
	# break/convert r6 to 26 bits
543
	ld	9, 0(3)
544
	ld	10, 8(3)
545
	ld	19, 16(3)
546
	sldi	19, 19, 24
547
	mtvsrdd	41, 0, 19
548
	extrdi	14, 9, 26, 38
549
	extrdi	15, 9, 26, 12
550
	extrdi	16, 9, 12, 0
551
	mtvsrdd	36, 0, 14
552
	insrdi	16, 10, 14, 38
553
	mtvsrdd	37, 0, 15
554
	extrdi	17, 10, 26, 24
555
	mtvsrdd	38, 0, 16
556
	extrdi	18, 10, 24, 0
557
	mtvsrdd	39, 0, 17
558
	mtvsrdd	40, 0, 18
559
	vor	8, 8, 9
560

561
	# input m1 m2
562
	add	20, 4, 21
563
	xxlor	49, 24, 24
564
	xxlor	50, 25, 25
565
	lxvw4x	43, 0, 20
566
	addi	17, 20, 16
567
	lxvw4x	44, 0, 17
568
	vperm	14, 11, 12, 17
569
	vperm	15, 11, 12, 18
570
	vand	9, 14, 25	# a0
571
	vsrd	10, 14, 31	# >> 26
572
	vsrd	11, 10, 31	# 12 bits left
573
	vand	10, 10, 25	# a1
574
	vspltisb 13, 12
575
	vand	16, 15, 25
576
	vsld	12, 16, 13
577
	vor	11, 11, 12
578
	vand	11, 11, 25	# a2
579
	vspltisb 13, 14
580
	vsrd	12, 15, 13	# >> 14
581
	vsrd	13, 12, 31	# >> 26, a4
582
	vand	12, 12, 25	# a3
583

584
	vaddudm	20, 4, 9
585
	vaddudm	21, 5, 10
586
	vaddudm	22, 6, 11
587
	vaddudm	23, 7, 12
588
	vaddudm	24, 8, 13
589

590
	# m3 m4
591
	addi	17, 17, 16
592
	lxvw4x	43, 0, 17
593
	addi	17, 17, 16
594
	lxvw4x	44, 0, 17
595
	vperm	14, 11, 12, 17
596
	vperm	15, 11, 12, 18
597
	vand	9, 14, 25	# a0
598
	vsrd	10, 14, 31	# >> 26
599
	vsrd	11, 10, 31	# 12 bits left
600
	vand	10, 10, 25	# a1
601
	vspltisb 13, 12
602
	vand	16, 15, 25
603
	vsld	12, 16, 13
604
	vspltisb 13, 14
605
	vor	11, 11, 12
606
	vand	11, 11, 25	# a2
607
	vsrd	12, 15, 13	# >> 14
608
	vsrd	13, 12, 31	# >> 26, a4
609
	vand	12, 12, 25	# a3
610

611
	# Smash 4 message blocks into 5 vectors of [m4,  m2,  m3,  m1]
612
	vmrgow	4, 9, 20
613
	vmrgow	5, 10, 21
614
	vmrgow	6, 11, 22
615
	vmrgow	7, 12, 23
616
	vmrgow	8, 13, 24
617
	vaddudm	8, 8, 19
618

619
	addi	5, 5, -64	# len -= 64
620
	addi	21, 21, 64	# offset += 64
621

622
	li      9, 64
623
	divdu   31, 5, 9
624

625
	cmpdi	31, 0
626
	ble	Skip_block_loop
627

628
	mtctr	31
629

630
# h4 =   m1 * r⁴ + m2 * r³ + m3 * r² + m4 * r
631
# Rewrite the polynominal sum of product as follows,
632
# h1 = (h0 + m1) * r^2,	h2 = (h0 + m2) * r^2
633
# h3 = (h1 + m3) * r^2,	h4 = (h2 + m4) * r^2  --> (h0 + m1) r*4 + (h3 + m3) r^2, (h0 + m2) r^4 + (h0 + m4) r^2
634
#  .... Repeat
635
# h5 = (h3 + m5) * r^2,	h6 = (h4 + m6) * r^2  -->
636
# h7 = (h5 + m7) * r^2,	h8 = (h6 + m8) * r^1  --> m5 * r^4 + m6 * r^3 + m7 * r^2 + m8 * r
637
#
638
loop_4blocks:
639

640
	# Multiply odd words and even words
641
	mul_odd
642
	mul_even
643
	# carry reduction
644
	vspltisb 9, 2
645
	vsrd	10, 14, 31
646
	vsrd	11, 17, 31
647
	vand	7, 17, 25
648
	vand	4, 14, 25
649
	vaddudm	18, 18, 11
650
	vsrd	12, 18, 31
651
	vaddudm	15, 15, 10
652

653
	vsrd	11, 15, 31
654
	vand	8, 18, 25
655
	vand	5, 15, 25
656
	vaddudm	4, 4, 12
657
	vsld	10, 12, 9
658
	vaddudm	6, 16, 11
659

660
	vsrd	13, 6, 31
661
	vand	6, 6, 25
662
	vaddudm	4, 4, 10
663
	vsrd	10, 4, 31
664
	vaddudm	7, 7, 13
665

666
	vsrd	11, 7, 31
667
	vand	7, 7, 25
668
	vand	4, 4, 25
669
	vaddudm	5, 5, 10
670
	vaddudm	8, 8, 11
671

672
	# input m1  m2  m3  m4
673
	add	20, 4, 21
674
	xxlor	49, 24, 24
675
	xxlor	50, 25, 25
676
	lxvw4x	43, 0, 20
677
	addi	17, 20, 16
678
	lxvw4x	44, 0, 17
679
	vperm	14, 11, 12, 17
680
	vperm	15, 11, 12, 18
681
	addi	17, 17, 16
682
	lxvw4x	43, 0, 17
683
	addi	17, 17, 16
684
	lxvw4x	44, 0, 17
685
	vperm	17, 11, 12, 17
686
	vperm	18, 11, 12, 18
687

688
	vand	20, 14, 25	# a0
689
	vand	9, 17, 25	# a0
690
	vsrd	21, 14, 31	# >> 26
691
	vsrd	22, 21, 31	# 12 bits left
692
	vsrd	10, 17, 31	# >> 26
693
	vsrd	11, 10, 31	# 12 bits left
694

695
	vand	21, 21, 25	# a1
696
	vand	10, 10, 25	# a1
697

698
	vspltisb 13, 12
699
	vand	16, 15, 25
700
	vsld	23, 16, 13
701
	vor	22, 22, 23
702
	vand	22, 22, 25	# a2
703
	vand	16, 18, 25
704
	vsld	12, 16, 13
705
	vor	11, 11, 12
706
	vand	11, 11, 25	# a2
707
	vspltisb 13, 14
708
	vsrd	23, 15, 13	# >> 14
709
	vsrd	24, 23, 31	# >> 26, a4
710
	vand	23, 23, 25	# a3
711
	vsrd	12, 18, 13	# >> 14
712
	vsrd	13, 12, 31	# >> 26, a4
713
	vand	12, 12, 25	# a3
714

715
	vaddudm	4, 4, 20
716
	vaddudm	5, 5, 21
717
	vaddudm	6, 6, 22
718
	vaddudm	7, 7, 23
719
	vaddudm	8, 8, 24
720

721
	# Smash 4 message blocks into 5 vectors of [m4,  m2,  m3,  m1]
722
	vmrgow	4, 9, 4
723
	vmrgow	5, 10, 5
724
	vmrgow	6, 11, 6
725
	vmrgow	7, 12, 7
726
	vmrgow	8, 13, 8
727
	vaddudm	8, 8, 19
728

729
	addi	5, 5, -64	# len -= 64
730
	addi	21, 21, 64	# offset += 64
731

732
	bdnz	loop_4blocks
733

734
Skip_block_loop:
735
	xxlor	58, 0, 0
736
	xxlor	59, 1, 1
737
	xxlor	60, 2, 2
738
	xxlor	61, 3, 3
739
	xxlor	62, 4, 4
740
	xxlor	32, 5, 5
741
	xxlor	33, 6, 6
742
	xxlor	34, 7, 7
743
	xxlor	35, 8, 8
744

745
	# Multiply odd words and even words
746
	mul_odd
747
	mul_even
748

749
	# Sum the products.
750
	xxpermdi 41, 31, 46, 0
751
	xxpermdi 42, 31, 47, 0
752
	vaddudm	4, 14, 9
753
	xxpermdi 36, 31, 36, 3
754
	vaddudm	5, 15, 10
755
	xxpermdi 37, 31, 37, 3
756
	xxpermdi 43, 31, 48, 0
757
	vaddudm	6, 16, 11
758
	xxpermdi 38, 31, 38, 3
759
	xxpermdi 44, 31, 49, 0
760
	vaddudm	7, 17, 12
761
	xxpermdi 39, 31, 39, 3
762
	xxpermdi 45, 31, 50, 0
763
	vaddudm	8, 18, 13
764
	xxpermdi 40, 31, 40, 3
765

766
	# carry reduction
767
	vspltisb 9, 2
768
	vsrd	10, 4, 31
769
	vsrd	11, 7, 31
770
	vand	7, 7, 25
771
	vand	4, 4, 25
772
	vaddudm	8, 8, 11
773
	vsrd	12, 8, 31
774
	vaddudm	5, 5, 10
775

776
	vsrd	11, 5, 31
777
	vand	8, 8, 25
778
	vand	5, 5, 25
779
	vaddudm	4, 4, 12
780
	vsld	10, 12, 9
781
	vaddudm	6, 6, 11
782

783
	vsrd	13, 6, 31
784
	vand	6, 6, 25
785
	vaddudm	4, 4, 10
786
	vsrd	10, 4, 31
787
	vaddudm	7, 7, 13
788

789
	vsrd	11, 7, 31
790
	vand	7, 7, 25
791
	vand	4, 4, 25
792
	vaddudm	5, 5, 10
793
	vsrd	10, 5, 31
794
	vand	5, 5, 25
795
	vaddudm	6, 6, 10
796
	vaddudm	8, 8, 11
797

798
	b	do_final_update
799

800
do_final_update:
801
	# combine 26 bit limbs
802
	# v4, v5, v6, v7 and v8 are 26 bit vectors
803
	vsld	5, 5, 31
804
	vor	20, 4, 5
805
	vspltisb 11, 12
806
	vsrd	12, 6, 11
807
	vsld	6, 6, 31
808
	vsld	6, 6, 31
809
	vor	20, 20, 6
810
	vspltisb 11, 14
811
	vsld	7, 7, 11
812
	vor	21, 7, 12
813
	mfvsrld	16, 40		# save last 2 bytes
814
	vsld	8, 8, 11
815
	vsld	8, 8, 31
816
	vor	21, 21, 8
817
	mfvsrld	17, 52
818
	mfvsrld	19, 53
819
	srdi	16, 16, 24
820

821
	std	17, 0(3)
822
	std	19, 8(3)
823
	stw	16, 16(3)
824

825
Out_loop:
826
	li	3, 0
827

828
	RESTORE_REGS
829

830
	blr
831

832
Out_no_poly1305:
833
	li	3, 0
834
	blr
835
SYM_FUNC_END(poly1305_p10le_4blocks)
836

837
#
838
# =======================================================================
839
# The following functions implement 64 x 64 bits multiplication poly1305.
840
#
841
SYM_FUNC_START_LOCAL(Poly1305_init_64)
842
	#  mask 0x0FFFFFFC0FFFFFFC
843
	#  mask 0x0FFFFFFC0FFFFFFF
844
	addis	10, 2, rmask@toc@ha
845
	addi	10, 10, rmask@toc@l
846
	ld	11, 0(10)
847
	ld	12, 8(10)
848

849
	# initialize
850
	# load key from r3
851
	ld	9, 24(3)
852
	ld	10, 32(3)
853
	and.	9, 9, 11	# cramp mask r0
854
	and.	10, 10, 12	# cramp mask r1
855

856
        srdi    21, 10, 2
857
        add     19, 21, 10      # s1: r19 - (r1 >> 2) *5
858

859
        # setup r and s
860
        li      25, 0
861
	mtvsrdd 32+0, 9, 19	# r0, s1
862
	mtvsrdd 32+1, 10, 9	# r1, r0
863
	mtvsrdd 32+2, 19, 25	# s1
864
	mtvsrdd 32+3, 9, 25	# r0
865

866
	blr
867
SYM_FUNC_END(Poly1305_init_64)
868

869
# Poly1305_mult
870
# v6 = (h0, h1), v8 = h2
871
# v0 = (r0, s1), v1 = (r1, r0), v2 = s1, v3 = r0
872
#
873
# Output: v7, v10, v11
874
#
875
SYM_FUNC_START_LOCAL(Poly1305_mult)
876
	#
877
	#	d0 = h0 * r0 + h1 * s1
878
	vmsumudm	7, 6, 0, 9		# h0 * r0, h1 * s1
879

880
	#	d1 = h0 * r1 + h1 * r0 + h2 * s1
881
	vmsumudm	11, 6, 1, 9		# h0 * r1, h1 * r0
882
	vmsumudm	10, 8, 2, 11		# d1 += h2 * s1
883

884
	#       d2 = r0
885
	vmsumudm	11, 8, 3, 9		# d2 = h2 * r0
886
	blr
887
SYM_FUNC_END(Poly1305_mult)
888

889
#
890
# carry reduction
891
# h %=p
892
#
893
# Input: v7, v10, v11
894
# Output: r27, r28, r29
895
#
896
SYM_FUNC_START_LOCAL(Carry_reduction)
897
	mfvsrld	27, 32+7
898
	mfvsrld	28, 32+10
899
	mfvsrld	29, 32+11
900
	mfvsrd	20, 32+7	# h0.h
901
	mfvsrd	21, 32+10	# h1.h
902

903
	addc	28, 28, 20
904
	adde	29, 29, 21
905
	srdi	22, 29, 0x2
906
	sldi	23, 22, 0x2
907
	add	23, 23, 22	# (h2 & 3) * 5
908
	addc	27, 27, 23	# h0
909
	addze	28, 28		# h1
910
	andi.	29, 29, 0x3	# h2
911
	blr
912
SYM_FUNC_END(Carry_reduction)
913

914
#
915
# poly1305 multiplication
916
# h *= r, h %= p
917
#	d0 = h0 * r0 + h1 * s1
918
#	d1 = h0 * r1 + h1 * r0 + h2 * s1
919
#       d2 = h0 * r0
920
#
921
#
922
# unsigned int poly1305_test_64s(unisgned char *state, const byte *src, size_t len, highbit)
923
#   - no highbit if final leftover block (highbit = 0)
924
#
925
SYM_FUNC_START(poly1305_64s)
926
	cmpdi	5, 0
927
	ble	Out_no_poly1305_64
928

929
	mflr 0
930
	std 0, 16(1)
931
	stdu 1,-400(1)
932

933
	SAVE_GPR 14, 112, 1
934
	SAVE_GPR 15, 120, 1
935
	SAVE_GPR 16, 128, 1
936
	SAVE_GPR 17, 136, 1
937
	SAVE_GPR 18, 144, 1
938
	SAVE_GPR 19, 152, 1
939
	SAVE_GPR 20, 160, 1
940
	SAVE_GPR 21, 168, 1
941
	SAVE_GPR 22, 176, 1
942
	SAVE_GPR 23, 184, 1
943
	SAVE_GPR 24, 192, 1
944
	SAVE_GPR 25, 200, 1
945
	SAVE_GPR 26, 208, 1
946
	SAVE_GPR 27, 216, 1
947
	SAVE_GPR 28, 224, 1
948
	SAVE_GPR 29, 232, 1
949
	SAVE_GPR 30, 240, 1
950
	SAVE_GPR 31, 248, 1
951

952
	# Init poly1305
953
	bl Poly1305_init_64
954

955
	li 25, 0			# offset to inp and outp
956

957
	add 11, 25, 4
958

959
	# load h
960
	# h0, h1, h2?
961
        ld	27, 0(3)
962
        ld	28, 8(3)
963
        lwz	29, 16(3)
964

965
        li      30, 16
966
        divdu   31, 5, 30
967

968
        mtctr   31
969

970
        mr      24, 6		# highbit
971

972
Loop_block_64:
973
	vxor	9, 9, 9
974

975
	ld	20, 0(11)
976
	ld	21, 8(11)
977
	addi	11, 11, 16
978

979
	addc	27, 27, 20
980
	adde	28, 28, 21
981
	adde	29, 29, 24
982

983
	li	22, 0
984
	mtvsrdd	32+6, 27, 28	# h0, h1
985
	mtvsrdd	32+8, 29, 22	# h2
986

987
	bl	Poly1305_mult
988

989
	bl	Carry_reduction
990

991
	bdnz	Loop_block_64
992

993
	std	27, 0(3)
994
	std	28, 8(3)
995
	stw	29, 16(3)
996

997
	li	3, 0
998

999
	RESTORE_GPR 14, 112, 1
1000
	RESTORE_GPR 15, 120, 1
1001
	RESTORE_GPR 16, 128, 1
1002
	RESTORE_GPR 17, 136, 1
1003
	RESTORE_GPR 18, 144, 1
1004
	RESTORE_GPR 19, 152, 1
1005
	RESTORE_GPR 20, 160, 1
1006
	RESTORE_GPR 21, 168, 1
1007
	RESTORE_GPR 22, 176, 1
1008
	RESTORE_GPR 23, 184, 1
1009
	RESTORE_GPR 24, 192, 1
1010
	RESTORE_GPR 25, 200, 1
1011
	RESTORE_GPR 26, 208, 1
1012
	RESTORE_GPR 27, 216, 1
1013
	RESTORE_GPR 28, 224, 1
1014
	RESTORE_GPR 29, 232, 1
1015
	RESTORE_GPR 30, 240, 1
1016
	RESTORE_GPR 31, 248, 1
1017

1018
	addi    1, 1, 400
1019
	ld 0, 16(1)
1020
	mtlr 0
1021

1022
	blr
1023

1024
Out_no_poly1305_64:
1025
	li	3, 0
1026
	blr
1027
SYM_FUNC_END(poly1305_64s)
1028

1029
#
1030
# Input: r3 = h, r4 = s, r5 = mac
1031
# mac = h + s
1032
#
1033
SYM_FUNC_START(poly1305_emit_64)
1034
	ld	10, 0(3)
1035
	ld	11, 8(3)
1036
	ld	12, 16(3)
1037

1038
	# compare modulus
1039
	# h + 5 + (-p)
1040
	mr	6, 10
1041
	mr	7, 11
1042
	mr	8, 12
1043
	addic.	6, 6, 5
1044
	addze	7, 7
1045
	addze	8, 8
1046
	srdi	9, 8, 2		# overflow?
1047
	cmpdi	9, 0
1048
	beq	Skip_h64
1049
	mr	10, 6
1050
	mr	11, 7
1051
	mr	12, 8
1052

1053
Skip_h64:
1054
	ld	6, 0(4)
1055
	ld	7, 8(4)
1056
	addc	10, 10, 6
1057
	adde	11, 11, 7
1058
	addze	12, 12
1059

1060
	std	10, 0(5)
1061
	std	11, 8(5)
1062
	blr
1063
SYM_FUNC_END(poly1305_emit_64)
1064

1065
SYM_DATA_START_LOCAL(RMASK)
1066
.align 5
1067
rmask:
1068
.byte	0xff, 0xff, 0xff, 0x0f, 0xfc, 0xff, 0xff, 0x0f, 0xfc, 0xff, 0xff, 0x0f, 0xfc, 0xff, 0xff, 0x0f
1069
cnum:
1070
.long	0x03ffffff, 0x00000000, 0x03ffffff, 0x00000000
1071
.long	0x1a, 0x00, 0x1a, 0x00
1072
.long	0x01000000, 0x01000000, 0x01000000, 0x01000000
1073
.long	0x00010203, 0x04050607, 0x10111213, 0x14151617
1074
.long	0x08090a0b, 0x0c0d0e0f, 0x18191a1b, 0x1c1d1e1f
1075
SYM_DATA_END(RMASK)
1076

1077
Product

Resources

Company