1 From bfc49f5ecdd60f2b37cd2f21a6f4de6ea91625e5 Mon Sep 17 00:00:00 2001
2 From: "Jason A. Donenfeld" <Jason@zx2c4.com>
3 Date: Fri, 8 Nov 2019 13:22:37 +0100
4 Subject: [PATCH 030/124] crypto: arm/curve25519 - import Bernstein and
5 Schwabe's Curve25519 ARM implementation
7 commit f0fb006b604f98e2309a30f34ef455ac734f7c1c upstream.
9 This comes from Dan Bernstein and Peter Schwabe's public domain NEON
10 code, and is included here in raw form so that subsequent commits that
11 fix these up for the kernel can see how it has changed. This code does
12 have some entirely cosmetic formatting differences, adding indentation
13 and so forth, so that when we actually port it for use in the kernel in
14 the subsequent commit, it's obvious what's changed in the process.
16 This code originates from SUPERCOP 20180818, available at
17 <https://bench.cr.yp.to/supercop.html>.
19 Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
20 Signed-off-by: Ard Biesheuvel <ardb@kernel.org>
21 Signed-off-by: Herbert Xu <herbert@gondor.apana.org.au>
22 Signed-off-by: Jason A. Donenfeld <Jason@zx2c4.com>
24 arch/arm/crypto/curve25519-core.S | 2105 +++++++++++++++++++++++++++++
25 1 file changed, 2105 insertions(+)
26 create mode 100644 arch/arm/crypto/curve25519-core.S
29 +++ b/arch/arm/crypto/curve25519-core.S
32 + * Public domain code from Daniel J. Bernstein and Peter Schwabe, from
33 + * SUPERCOP's curve25519/neon2/scalarmult.s.
39 +.global _crypto_scalarmult_curve25519_neon2
40 +.global crypto_scalarmult_curve25519_neon2
41 +.type _crypto_scalarmult_curve25519_neon2 STT_FUNC
42 +.type crypto_scalarmult_curve25519_neon2 STT_FUNC
43 + _crypto_scalarmult_curve25519_neon2:
44 + crypto_scalarmult_curve25519_neon2:
45 + vpush {q4, q5, q6, q7}
48 + and sp, sp, #0xffffffe0
67 + vst1.8 {d2-d3}, [r6, : 128]
69 + vst1.8 {d0-d1}, [r6, : 128]
71 + vst1.8 {d4-d5}, [r6, : 128]
74 + vst1.8 {d4-d5}, [r6, : 128]!
75 + vst1.8 {d4-d5}, [r6, : 128]!
76 + vst1.8 d4, [r6, : 64]
81 + sub r7, r7, r7, LSL #7
84 + vld1.8 {d4-d5}, [r1]!
85 + vld1.8 {d6-d7}, [r1]
86 + vst1.8 {d4-d5}, [r6, : 128]!
87 + vst1.8 {d6-d7}, [r6, : 128]
96 + vmov.i64 q2, #0xffffffff
114 + vshr.u64 q5, q5, #26
115 + vshr.u64 q6, q6, #3
116 + vshr.u64 q7, q7, #29
117 + vshr.u64 q8, q8, #6
118 + vshr.u64 q10, q10, #25
119 + vshr.u64 q11, q11, #3
120 + vshr.u64 q12, q12, #12
121 + vshr.u64 q13, q13, #38
133 + vadd.i64 q12, q4, q1
134 + vadd.i64 q13, q10, q1
135 + vshr.s64 q12, q12, #26
136 + vshr.s64 q13, q13, #26
137 + vadd.i64 q5, q5, q12
138 + vshl.i64 q12, q12, #26
139 + vadd.i64 q14, q5, q0
140 + vadd.i64 q11, q11, q13
141 + vshl.i64 q13, q13, #26
142 + vadd.i64 q15, q11, q0
143 + vsub.i64 q4, q4, q12
144 + vshr.s64 q12, q14, #25
145 + vsub.i64 q10, q10, q13
146 + vshr.s64 q13, q15, #25
147 + vadd.i64 q6, q6, q12
148 + vshl.i64 q12, q12, #25
149 + vadd.i64 q14, q6, q1
150 + vadd.i64 q2, q2, q13
151 + vsub.i64 q5, q5, q12
152 + vshr.s64 q12, q14, #26
153 + vshl.i64 q13, q13, #25
154 + vadd.i64 q14, q2, q1
155 + vadd.i64 q7, q7, q12
156 + vshl.i64 q12, q12, #26
157 + vadd.i64 q15, q7, q0
158 + vsub.i64 q11, q11, q13
159 + vshr.s64 q13, q14, #26
160 + vsub.i64 q6, q6, q12
161 + vshr.s64 q12, q15, #25
162 + vadd.i64 q3, q3, q13
163 + vshl.i64 q13, q13, #26
164 + vadd.i64 q14, q3, q0
165 + vadd.i64 q8, q8, q12
166 + vshl.i64 q12, q12, #25
167 + vadd.i64 q15, q8, q1
169 + vsub.i64 q2, q2, q13
170 + vshr.s64 q13, q14, #25
171 + vsub.i64 q7, q7, q12
172 + vshr.s64 q12, q15, #26
173 + vadd.i64 q14, q13, q13
174 + vadd.i64 q9, q9, q12
176 + vshl.i64 q12, q12, #26
178 + vadd.i64 q0, q9, q0
179 + vadd.i64 q4, q4, q14
180 + vst1.8 d12, [r2, : 64]!
181 + vshl.i64 q6, q13, #4
182 + vsub.i64 q7, q8, q12
183 + vshr.s64 q0, q0, #25
184 + vadd.i64 q4, q4, q6
185 + vadd.i64 q6, q10, q0
186 + vshl.i64 q0, q0, #25
187 + vadd.i64 q8, q6, q1
188 + vadd.i64 q4, q4, q13
189 + vshl.i64 q10, q13, #25
190 + vadd.i64 q1, q4, q1
191 + vsub.i64 q0, q9, q0
192 + vshr.s64 q8, q8, #26
193 + vsub.i64 q3, q3, q10
195 + vshr.s64 q1, q1, #26
197 + vadd.i64 q0, q11, q8
198 + vst1.8 d14, [r2, : 64]
199 + vshl.i64 q7, q8, #26
200 + vadd.i64 q5, q5, q1
202 + vshl.i64 q1, q1, #26
204 + vsub.i64 q3, q6, q7
206 + vsub.i64 q1, q4, q1
207 + vst1.8 d4, [r2, : 64]
213 + vst1.8 d6, [r2, : 64]
215 + vst1.8 d2, [r2, : 64]
220 + vshr.u32 q1, q1, #7
221 + vst1.8 {d2-d3}, [r2, : 128]!
222 + vst1.8 {d0-d1}, [r2, : 128]!
223 + vst1.8 d0, [r2, : 64]
226 + vst1.8 {d0-d1}, [r2, : 128]!
227 + vst1.8 {d0-d1}, [r2, : 128]!
228 + vst1.8 d0, [r2, : 64]
233 + vshr.u32 q1, q1, #7
234 + vst1.8 {d2-d3}, [r2, : 128]!
235 + vst1.8 {d0-d1}, [r2, : 128]!
236 + vst1.8 d0, [r2, : 64]
239 + vld1.8 {d0-d1}, [r2, : 128]!
240 + vld1.8 {d2-d3}, [r2, : 128]!
241 + vld1.8 {d4}, [r2, : 64]
242 + vst1.8 {d0-d1}, [r6, : 128]!
243 + vst1.8 {d2-d3}, [r6, : 128]!
244 + vst1.8 d4, [r6, : 64]
258 + vld1.8 {d8-d9}, [r4, : 128]!
260 + vld1.8 {d10-d11}, [r5, : 128]!
262 + vld1.8 {d14-d15}, [r6, : 128]!
264 + vld1.8 {d18-d19}, [r7, : 128]!
266 + vld1.8 {d22-d23}, [r4, : 128]!
268 + vld1.8 {d24-d25}, [r5, : 128]!
270 + vld1.8 {d26-d27}, [r6, : 128]!
272 + vld1.8 {d28-d29}, [r7, : 128]!
274 + vld1.8 {d0}, [r4, : 64]
276 + vld1.8 {d2}, [r5, : 64]
278 + vld1.8 {d4}, [r6, : 64]
280 + vld1.8 {d6}, [r7, : 64]
300 + vadd.i32 q8, q4, q6
301 + vsub.i32 q4, q4, q6
302 + vst1.8 {d16-d17}, [r2, : 128]!
303 + vadd.i32 q6, q11, q12
304 + vst1.8 {d8-d9}, [r5, : 128]!
305 + vsub.i32 q4, q11, q12
306 + vst1.8 {d12-d13}, [r2, : 128]!
307 + vadd.i32 q6, q0, q2
308 + vst1.8 {d8-d9}, [r5, : 128]!
309 + vsub.i32 q0, q0, q2
310 + vst1.8 d12, [r2, : 64]
311 + vadd.i32 q2, q5, q7
312 + vst1.8 d0, [r5, : 64]
313 + vsub.i32 q0, q5, q7
314 + vst1.8 {d4-d5}, [r4, : 128]!
315 + vadd.i32 q2, q9, q10
316 + vst1.8 {d0-d1}, [r6, : 128]!
317 + vsub.i32 q0, q9, q10
318 + vst1.8 {d4-d5}, [r4, : 128]!
319 + vadd.i32 q2, q1, q3
320 + vst1.8 {d0-d1}, [r6, : 128]!
321 + vsub.i32 q0, q1, q3
322 + vst1.8 d4, [r4, : 64]
323 + vst1.8 d0, [r6, : 64]
327 + vld1.8 {d0-d1}, [r2, : 128]
328 + vld1.8 {d2-d3}, [r4, : 128]!
329 + vld1.8 {d4-d5}, [r5, : 128]!
331 + vld1.8 {d6-d7}, [r4, : 128]!
332 + vld1.8 {d8-d9}, [r5, : 128]!
333 + vshl.i32 q5, q1, #1
335 + vshl.i32 q6, q2, #1
336 + vld1.8 {d14}, [r4, : 64]
337 + vshl.i32 q8, q3, #1
338 + vld1.8 {d15}, [r5, : 64]
339 + vshl.i32 q9, q4, #1
340 + vmul.i32 d21, d7, d1
342 + vmul.i32 q11, q4, q0
343 + vmul.i32 q0, q7, q0
344 + vmull.s32 q12, d2, d2
345 + vmlal.s32 q12, d11, d1
346 + vmlal.s32 q12, d12, d0
347 + vmlal.s32 q12, d13, d23
348 + vmlal.s32 q12, d16, d22
349 + vmlal.s32 q12, d7, d21
350 + vmull.s32 q10, d2, d11
351 + vmlal.s32 q10, d4, d1
352 + vmlal.s32 q10, d13, d0
353 + vmlal.s32 q10, d6, d23
354 + vmlal.s32 q10, d17, d22
355 + vmull.s32 q13, d10, d4
356 + vmlal.s32 q13, d11, d3
357 + vmlal.s32 q13, d13, d1
358 + vmlal.s32 q13, d16, d0
359 + vmlal.s32 q13, d17, d23
360 + vmlal.s32 q13, d8, d22
361 + vmull.s32 q1, d10, d5
362 + vmlal.s32 q1, d11, d4
363 + vmlal.s32 q1, d6, d1
364 + vmlal.s32 q1, d17, d0
365 + vmlal.s32 q1, d8, d23
366 + vmull.s32 q14, d10, d6
367 + vmlal.s32 q14, d11, d13
368 + vmlal.s32 q14, d4, d4
369 + vmlal.s32 q14, d17, d1
370 + vmlal.s32 q14, d18, d0
371 + vmlal.s32 q14, d9, d23
372 + vmull.s32 q11, d10, d7
373 + vmlal.s32 q11, d11, d6
374 + vmlal.s32 q11, d12, d5
375 + vmlal.s32 q11, d8, d1
376 + vmlal.s32 q11, d19, d0
377 + vmull.s32 q15, d10, d8
378 + vmlal.s32 q15, d11, d17
379 + vmlal.s32 q15, d12, d6
380 + vmlal.s32 q15, d13, d5
381 + vmlal.s32 q15, d19, d1
382 + vmlal.s32 q15, d14, d0
383 + vmull.s32 q2, d10, d9
384 + vmlal.s32 q2, d11, d8
385 + vmlal.s32 q2, d12, d7
386 + vmlal.s32 q2, d13, d6
387 + vmlal.s32 q2, d14, d1
388 + vmull.s32 q0, d15, d1
389 + vmlal.s32 q0, d10, d14
390 + vmlal.s32 q0, d11, d19
391 + vmlal.s32 q0, d12, d8
392 + vmlal.s32 q0, d13, d17
393 + vmlal.s32 q0, d6, d6
395 + vld1.8 {d18-d19}, [r2, : 128]
396 + vmull.s32 q3, d16, d7
397 + vmlal.s32 q3, d10, d15
398 + vmlal.s32 q3, d11, d14
399 + vmlal.s32 q3, d12, d9
400 + vmlal.s32 q3, d13, d8
402 + vld1.8 {d8-d9}, [r2, : 128]
403 + vadd.i64 q5, q12, q9
404 + vadd.i64 q6, q15, q9
405 + vshr.s64 q5, q5, #26
406 + vshr.s64 q6, q6, #26
407 + vadd.i64 q7, q10, q5
408 + vshl.i64 q5, q5, #26
409 + vadd.i64 q8, q7, q4
410 + vadd.i64 q2, q2, q6
411 + vshl.i64 q6, q6, #26
412 + vadd.i64 q10, q2, q4
413 + vsub.i64 q5, q12, q5
414 + vshr.s64 q8, q8, #25
415 + vsub.i64 q6, q15, q6
416 + vshr.s64 q10, q10, #25
417 + vadd.i64 q12, q13, q8
418 + vshl.i64 q8, q8, #25
419 + vadd.i64 q13, q12, q9
420 + vadd.i64 q0, q0, q10
421 + vsub.i64 q7, q7, q8
422 + vshr.s64 q8, q13, #26
423 + vshl.i64 q10, q10, #25
424 + vadd.i64 q13, q0, q9
425 + vadd.i64 q1, q1, q8
426 + vshl.i64 q8, q8, #26
427 + vadd.i64 q15, q1, q4
428 + vsub.i64 q2, q2, q10
429 + vshr.s64 q10, q13, #26
430 + vsub.i64 q8, q12, q8
431 + vshr.s64 q12, q15, #25
432 + vadd.i64 q3, q3, q10
433 + vshl.i64 q10, q10, #26
434 + vadd.i64 q13, q3, q4
435 + vadd.i64 q14, q14, q12
437 + vshl.i64 q12, q12, #25
439 + vadd.i64 q15, q14, q9
441 + vsub.i64 q0, q0, q10
443 + vshr.s64 q10, q13, #25
444 + vsub.i64 q1, q1, q12
445 + vshr.s64 q12, q15, #26
446 + vadd.i64 q13, q10, q10
447 + vadd.i64 q11, q11, q12
449 + vshl.i64 q12, q12, #26
451 + vadd.i64 q1, q11, q4
452 + vadd.i64 q4, q5, q13
453 + vst1.8 d16, [r2, : 64]!
454 + vshl.i64 q5, q10, #4
455 + vst1.8 d17, [r4, : 64]!
456 + vsub.i64 q8, q14, q12
457 + vshr.s64 q1, q1, #25
458 + vadd.i64 q4, q4, q5
459 + vadd.i64 q5, q6, q1
460 + vshl.i64 q1, q1, #25
461 + vadd.i64 q6, q5, q9
462 + vadd.i64 q4, q4, q10
463 + vshl.i64 q10, q10, #25
464 + vadd.i64 q9, q4, q9
465 + vsub.i64 q1, q11, q1
466 + vshr.s64 q6, q6, #26
467 + vsub.i64 q3, q3, q10
469 + vshr.s64 q9, q9, #26
471 + vadd.i64 q1, q2, q6
472 + vst1.8 d16, [r2, : 64]
473 + vshl.i64 q2, q6, #26
474 + vst1.8 d17, [r4, : 64]
475 + vadd.i64 q6, q7, q9
477 + vshl.i64 q7, q9, #26
479 + vsub.i64 q2, q5, q2
481 + vsub.i64 q3, q4, q7
482 + vst1.8 d0, [r2, : 64]
484 + vst1.8 d1, [r4, : 64]
491 + vst1.8 d4, [r2, : 64]
492 + vst1.8 d5, [r4, : 64]
495 + vst1.8 d6, [r2, : 64]
496 + vst1.8 d7, [r4, : 64]
499 + vld1.8 {d0-d1}, [r4, : 128]!
500 + vld1.8 {d2-d3}, [r4, : 128]!
501 + vld1.8 {d4}, [r4, : 64]
503 + vld1.8 {d6-d7}, [r4, : 128]!
505 + vld1.8 {d8-d9}, [r4, : 128]!
506 + vshl.i32 q5, q0, #4
508 + vshl.i32 q6, q3, #4
509 + vadd.i32 q5, q5, q0
510 + vadd.i32 q6, q6, q3
511 + vshl.i32 q7, q1, #4
512 + vld1.8 {d5}, [r4, : 64]
513 + vshl.i32 q8, q4, #4
515 + vadd.i32 q7, q7, q1
516 + vadd.i32 q8, q8, q4
517 + vld1.8 {d18-d19}, [r2, : 128]!
518 + vshl.i32 q10, q2, #4
519 + vld1.8 {d22-d23}, [r2, : 128]!
520 + vadd.i32 q10, q10, q2
521 + vld1.8 {d24}, [r2, : 64]
522 + vadd.i32 q5, q5, q0
524 + vld1.8 {d26-d27}, [r2, : 128]!
525 + vadd.i32 q6, q6, q3
526 + vld1.8 {d28-d29}, [r2, : 128]!
527 + vadd.i32 q8, q8, q4
528 + vld1.8 {d25}, [r2, : 64]
529 + vadd.i32 q10, q10, q2
531 + vadd.i32 q7, q7, q1
532 + vadd.i32 q5, q5, q0
534 + vadd.i32 q6, q6, q3
536 + vadd.i32 q10, q10, q2
538 + vst1.8 {d12-d13}, [r2, : 128]
539 + vshl.i32 q6, q13, #1
541 + vst1.8 {d20-d21}, [r2, : 128]
542 + vshl.i32 q10, q14, #1
544 + vst1.8 {d12-d13}, [r2, : 128]
545 + vshl.i32 q15, q12, #1
546 + vadd.i32 q8, q8, q4
547 + vext.32 d10, d31, d30, #0
548 + vadd.i32 q7, q7, q1
550 + vst1.8 {d16-d17}, [r2, : 128]
551 + vmull.s32 q8, d18, d5
552 + vmlal.s32 q8, d26, d4
553 + vmlal.s32 q8, d19, d9
554 + vmlal.s32 q8, d27, d3
555 + vmlal.s32 q8, d22, d8
556 + vmlal.s32 q8, d28, d2
557 + vmlal.s32 q8, d23, d7
558 + vmlal.s32 q8, d29, d1
559 + vmlal.s32 q8, d24, d6
560 + vmlal.s32 q8, d25, d0
562 + vst1.8 {d14-d15}, [r2, : 128]
563 + vmull.s32 q2, d18, d4
564 + vmlal.s32 q2, d12, d9
565 + vmlal.s32 q2, d13, d8
566 + vmlal.s32 q2, d19, d3
567 + vmlal.s32 q2, d22, d2
568 + vmlal.s32 q2, d23, d1
569 + vmlal.s32 q2, d24, d0
571 + vst1.8 {d20-d21}, [r2, : 128]
572 + vmull.s32 q7, d18, d9
573 + vmlal.s32 q7, d26, d3
574 + vmlal.s32 q7, d19, d8
575 + vmlal.s32 q7, d27, d2
576 + vmlal.s32 q7, d22, d7
577 + vmlal.s32 q7, d28, d1
578 + vmlal.s32 q7, d23, d6
579 + vmlal.s32 q7, d29, d0
581 + vst1.8 {d10-d11}, [r2, : 128]
582 + vmull.s32 q5, d18, d3
583 + vmlal.s32 q5, d19, d2
584 + vmlal.s32 q5, d22, d1
585 + vmlal.s32 q5, d23, d0
586 + vmlal.s32 q5, d12, d8
588 + vst1.8 {d16-d17}, [r2, : 128]
589 + vmull.s32 q4, d18, d8
590 + vmlal.s32 q4, d26, d2
591 + vmlal.s32 q4, d19, d7
592 + vmlal.s32 q4, d27, d1
593 + vmlal.s32 q4, d22, d6
594 + vmlal.s32 q4, d28, d0
595 + vmull.s32 q8, d18, d7
596 + vmlal.s32 q8, d26, d1
597 + vmlal.s32 q8, d19, d6
598 + vmlal.s32 q8, d27, d0
600 + vld1.8 {d20-d21}, [r2, : 128]
601 + vmlal.s32 q7, d24, d21
602 + vmlal.s32 q7, d25, d20
603 + vmlal.s32 q4, d23, d21
604 + vmlal.s32 q4, d29, d20
605 + vmlal.s32 q8, d22, d21
606 + vmlal.s32 q8, d28, d20
607 + vmlal.s32 q5, d24, d20
609 + vst1.8 {d14-d15}, [r2, : 128]
610 + vmull.s32 q7, d18, d6
611 + vmlal.s32 q7, d26, d0
613 + vld1.8 {d30-d31}, [r2, : 128]
614 + vmlal.s32 q2, d30, d21
615 + vmlal.s32 q7, d19, d21
616 + vmlal.s32 q7, d27, d20
618 + vld1.8 {d26-d27}, [r2, : 128]
619 + vmlal.s32 q4, d25, d27
620 + vmlal.s32 q8, d29, d27
621 + vmlal.s32 q8, d25, d26
622 + vmlal.s32 q7, d28, d27
623 + vmlal.s32 q7, d29, d26
625 + vld1.8 {d28-d29}, [r2, : 128]
626 + vmlal.s32 q4, d24, d29
627 + vmlal.s32 q8, d23, d29
628 + vmlal.s32 q8, d24, d28
629 + vmlal.s32 q7, d22, d29
630 + vmlal.s32 q7, d23, d28
632 + vst1.8 {d8-d9}, [r2, : 128]
634 + vld1.8 {d8-d9}, [r2, : 128]
635 + vmlal.s32 q7, d24, d9
636 + vmlal.s32 q7, d25, d31
637 + vmull.s32 q1, d18, d2
638 + vmlal.s32 q1, d19, d1
639 + vmlal.s32 q1, d22, d0
640 + vmlal.s32 q1, d24, d27
641 + vmlal.s32 q1, d23, d20
642 + vmlal.s32 q1, d12, d7
643 + vmlal.s32 q1, d13, d6
644 + vmull.s32 q6, d18, d1
645 + vmlal.s32 q6, d19, d0
646 + vmlal.s32 q6, d23, d27
647 + vmlal.s32 q6, d22, d20
648 + vmlal.s32 q6, d24, d26
649 + vmull.s32 q0, d18, d0
650 + vmlal.s32 q0, d22, d27
651 + vmlal.s32 q0, d23, d26
652 + vmlal.s32 q0, d24, d31
653 + vmlal.s32 q0, d19, d20
655 + vld1.8 {d18-d19}, [r2, : 128]
656 + vmlal.s32 q2, d18, d7
657 + vmlal.s32 q2, d19, d6
658 + vmlal.s32 q5, d18, d6
659 + vmlal.s32 q5, d19, d21
660 + vmlal.s32 q1, d18, d21
661 + vmlal.s32 q1, d19, d29
662 + vmlal.s32 q0, d18, d28
663 + vmlal.s32 q0, d19, d9
664 + vmlal.s32 q6, d18, d29
665 + vmlal.s32 q6, d19, d28
667 + vld1.8 {d18-d19}, [r2, : 128]
669 + vld1.8 {d22-d23}, [r2, : 128]
670 + vmlal.s32 q5, d19, d7
671 + vmlal.s32 q0, d18, d21
672 + vmlal.s32 q0, d19, d29
673 + vmlal.s32 q6, d18, d6
675 + vld1.8 {d6-d7}, [r2, : 128]
676 + vmlal.s32 q6, d19, d21
678 + vld1.8 {d18-d19}, [r2, : 128]
679 + vmlal.s32 q0, d30, d8
681 + vld1.8 {d20-d21}, [r2, : 128]
682 + vmlal.s32 q5, d30, d29
684 + vld1.8 {d24-d25}, [r2, : 128]
685 + vmlal.s32 q1, d30, d28
686 + vadd.i64 q13, q0, q11
687 + vadd.i64 q14, q5, q11
688 + vmlal.s32 q6, d30, d9
689 + vshr.s64 q4, q13, #26
690 + vshr.s64 q13, q14, #26
691 + vadd.i64 q7, q7, q4
692 + vshl.i64 q4, q4, #26
693 + vadd.i64 q14, q7, q3
694 + vadd.i64 q9, q9, q13
695 + vshl.i64 q13, q13, #26
696 + vadd.i64 q15, q9, q3
697 + vsub.i64 q0, q0, q4
698 + vshr.s64 q4, q14, #25
699 + vsub.i64 q5, q5, q13
700 + vshr.s64 q13, q15, #25
701 + vadd.i64 q6, q6, q4
702 + vshl.i64 q4, q4, #25
703 + vadd.i64 q14, q6, q11
704 + vadd.i64 q2, q2, q13
705 + vsub.i64 q4, q7, q4
706 + vshr.s64 q7, q14, #26
707 + vshl.i64 q13, q13, #25
708 + vadd.i64 q14, q2, q11
709 + vadd.i64 q8, q8, q7
710 + vshl.i64 q7, q7, #26
711 + vadd.i64 q15, q8, q3
712 + vsub.i64 q9, q9, q13
713 + vshr.s64 q13, q14, #26
714 + vsub.i64 q6, q6, q7
715 + vshr.s64 q7, q15, #25
716 + vadd.i64 q10, q10, q13
717 + vshl.i64 q13, q13, #26
718 + vadd.i64 q14, q10, q3
719 + vadd.i64 q1, q1, q7
721 + vshl.i64 q7, q7, #25
723 + vadd.i64 q15, q1, q11
725 + vsub.i64 q2, q2, q13
727 + vshr.s64 q13, q14, #25
728 + vsub.i64 q7, q8, q7
729 + vshr.s64 q8, q15, #26
730 + vadd.i64 q14, q13, q13
731 + vadd.i64 q12, q12, q8
733 + vshl.i64 q8, q8, #26
735 + vadd.i64 q3, q12, q3
736 + vadd.i64 q0, q0, q14
737 + vst1.8 d12, [r2, : 64]!
738 + vshl.i64 q7, q13, #4
739 + vst1.8 d13, [r4, : 64]!
740 + vsub.i64 q1, q1, q8
741 + vshr.s64 q3, q3, #25
742 + vadd.i64 q0, q0, q7
743 + vadd.i64 q5, q5, q3
744 + vshl.i64 q3, q3, #25
745 + vadd.i64 q6, q5, q11
746 + vadd.i64 q0, q0, q13
747 + vshl.i64 q7, q13, #25
748 + vadd.i64 q8, q0, q11
749 + vsub.i64 q3, q12, q3
750 + vshr.s64 q6, q6, #26
751 + vsub.i64 q7, q10, q7
753 + vshr.s64 q8, q8, #26
755 + vadd.i64 q3, q9, q6
756 + vst1.8 d2, [r2, : 64]
757 + vshl.i64 q6, q6, #26
758 + vst1.8 d3, [r4, : 64]
759 + vadd.i64 q1, q4, q8
761 + vshl.i64 q4, q8, #26
763 + vsub.i64 q5, q5, q6
765 + vsub.i64 q0, q0, q4
766 + vst1.8 d4, [r2, : 64]
768 + vst1.8 d5, [r4, : 64]
775 + vst1.8 d10, [r2, : 64]
776 + vst1.8 d11, [r4, : 64]
779 + vst1.8 d0, [r2, : 64]
780 + vst1.8 d1, [r4, : 64]
783 + vld1.8 {d0-d1}, [r2, : 128]!
784 + vld1.8 {d2-d3}, [r4, : 128]!
785 + vsub.i32 q0, q0, q1
786 + vld1.8 {d2-d3}, [r2, : 128]!
787 + vld1.8 {d4-d5}, [r4, : 128]!
788 + vsub.i32 q1, q1, q2
790 + vld1.8 {d4}, [r2, : 64]
791 + vld1.8 {d6}, [r4, : 64]
792 + vsub.i32 q2, q2, q3
793 + vst1.8 {d0-d1}, [r5, : 128]!
794 + vst1.8 {d2-d3}, [r5, : 128]!
795 + vst1.8 d4, [r5, : 64]
800 + vld1.8 {d0-d1}, [r2, : 128]!
801 + vld1.8 {d2-d3}, [r4, : 128]!
802 + vsub.i32 q2, q0, q1
803 + vadd.i32 q0, q0, q1
804 + vld1.8 {d2-d3}, [r2, : 128]!
805 + vld1.8 {d6-d7}, [r4, : 128]!
806 + vsub.i32 q4, q1, q3
807 + vadd.i32 q1, q1, q3
808 + vld1.8 {d6}, [r2, : 64]
809 + vld1.8 {d10}, [r4, : 64]
810 + vsub.i32 q6, q3, q5
811 + vadd.i32 q3, q3, q5
812 + vst1.8 {d4-d5}, [r5, : 128]!
813 + vst1.8 {d0-d1}, [r6, : 128]!
814 + vst1.8 {d8-d9}, [r5, : 128]!
815 + vst1.8 {d2-d3}, [r6, : 128]!
816 + vst1.8 d12, [r5, : 64]
817 + vst1.8 d6, [r6, : 64]
820 + vld1.8 {d0-d1}, [r4, : 128]!
821 + vld1.8 {d2-d3}, [r4, : 128]!
822 + vld1.8 {d4}, [r4, : 64]
824 + vld1.8 {d6-d7}, [r4, : 128]!
826 + vld1.8 {d8-d9}, [r4, : 128]!
827 + vshl.i32 q5, q0, #4
829 + vshl.i32 q6, q3, #4
830 + vadd.i32 q5, q5, q0
831 + vadd.i32 q6, q6, q3
832 + vshl.i32 q7, q1, #4
833 + vld1.8 {d5}, [r4, : 64]
834 + vshl.i32 q8, q4, #4
836 + vadd.i32 q7, q7, q1
837 + vadd.i32 q8, q8, q4
838 + vld1.8 {d18-d19}, [r2, : 128]!
839 + vshl.i32 q10, q2, #4
840 + vld1.8 {d22-d23}, [r2, : 128]!
841 + vadd.i32 q10, q10, q2
842 + vld1.8 {d24}, [r2, : 64]
843 + vadd.i32 q5, q5, q0
845 + vld1.8 {d26-d27}, [r2, : 128]!
846 + vadd.i32 q6, q6, q3
847 + vld1.8 {d28-d29}, [r2, : 128]!
848 + vadd.i32 q8, q8, q4
849 + vld1.8 {d25}, [r2, : 64]
850 + vadd.i32 q10, q10, q2
852 + vadd.i32 q7, q7, q1
853 + vadd.i32 q5, q5, q0
855 + vadd.i32 q6, q6, q3
857 + vadd.i32 q10, q10, q2
859 + vst1.8 {d12-d13}, [r2, : 128]
860 + vshl.i32 q6, q13, #1
862 + vst1.8 {d20-d21}, [r2, : 128]
863 + vshl.i32 q10, q14, #1
865 + vst1.8 {d12-d13}, [r2, : 128]
866 + vshl.i32 q15, q12, #1
867 + vadd.i32 q8, q8, q4
868 + vext.32 d10, d31, d30, #0
869 + vadd.i32 q7, q7, q1
871 + vst1.8 {d16-d17}, [r2, : 128]
872 + vmull.s32 q8, d18, d5
873 + vmlal.s32 q8, d26, d4
874 + vmlal.s32 q8, d19, d9
875 + vmlal.s32 q8, d27, d3
876 + vmlal.s32 q8, d22, d8
877 + vmlal.s32 q8, d28, d2
878 + vmlal.s32 q8, d23, d7
879 + vmlal.s32 q8, d29, d1
880 + vmlal.s32 q8, d24, d6
881 + vmlal.s32 q8, d25, d0
883 + vst1.8 {d14-d15}, [r2, : 128]
884 + vmull.s32 q2, d18, d4
885 + vmlal.s32 q2, d12, d9
886 + vmlal.s32 q2, d13, d8
887 + vmlal.s32 q2, d19, d3
888 + vmlal.s32 q2, d22, d2
889 + vmlal.s32 q2, d23, d1
890 + vmlal.s32 q2, d24, d0
892 + vst1.8 {d20-d21}, [r2, : 128]
893 + vmull.s32 q7, d18, d9
894 + vmlal.s32 q7, d26, d3
895 + vmlal.s32 q7, d19, d8
896 + vmlal.s32 q7, d27, d2
897 + vmlal.s32 q7, d22, d7
898 + vmlal.s32 q7, d28, d1
899 + vmlal.s32 q7, d23, d6
900 + vmlal.s32 q7, d29, d0
902 + vst1.8 {d10-d11}, [r2, : 128]
903 + vmull.s32 q5, d18, d3
904 + vmlal.s32 q5, d19, d2
905 + vmlal.s32 q5, d22, d1
906 + vmlal.s32 q5, d23, d0
907 + vmlal.s32 q5, d12, d8
909 + vst1.8 {d16-d17}, [r2, : 128]
910 + vmull.s32 q4, d18, d8
911 + vmlal.s32 q4, d26, d2
912 + vmlal.s32 q4, d19, d7
913 + vmlal.s32 q4, d27, d1
914 + vmlal.s32 q4, d22, d6
915 + vmlal.s32 q4, d28, d0
916 + vmull.s32 q8, d18, d7
917 + vmlal.s32 q8, d26, d1
918 + vmlal.s32 q8, d19, d6
919 + vmlal.s32 q8, d27, d0
921 + vld1.8 {d20-d21}, [r2, : 128]
922 + vmlal.s32 q7, d24, d21
923 + vmlal.s32 q7, d25, d20
924 + vmlal.s32 q4, d23, d21
925 + vmlal.s32 q4, d29, d20
926 + vmlal.s32 q8, d22, d21
927 + vmlal.s32 q8, d28, d20
928 + vmlal.s32 q5, d24, d20
930 + vst1.8 {d14-d15}, [r2, : 128]
931 + vmull.s32 q7, d18, d6
932 + vmlal.s32 q7, d26, d0
934 + vld1.8 {d30-d31}, [r2, : 128]
935 + vmlal.s32 q2, d30, d21
936 + vmlal.s32 q7, d19, d21
937 + vmlal.s32 q7, d27, d20
939 + vld1.8 {d26-d27}, [r2, : 128]
940 + vmlal.s32 q4, d25, d27
941 + vmlal.s32 q8, d29, d27
942 + vmlal.s32 q8, d25, d26
943 + vmlal.s32 q7, d28, d27
944 + vmlal.s32 q7, d29, d26
946 + vld1.8 {d28-d29}, [r2, : 128]
947 + vmlal.s32 q4, d24, d29
948 + vmlal.s32 q8, d23, d29
949 + vmlal.s32 q8, d24, d28
950 + vmlal.s32 q7, d22, d29
951 + vmlal.s32 q7, d23, d28
953 + vst1.8 {d8-d9}, [r2, : 128]
955 + vld1.8 {d8-d9}, [r2, : 128]
956 + vmlal.s32 q7, d24, d9
957 + vmlal.s32 q7, d25, d31
958 + vmull.s32 q1, d18, d2
959 + vmlal.s32 q1, d19, d1
960 + vmlal.s32 q1, d22, d0
961 + vmlal.s32 q1, d24, d27
962 + vmlal.s32 q1, d23, d20
963 + vmlal.s32 q1, d12, d7
964 + vmlal.s32 q1, d13, d6
965 + vmull.s32 q6, d18, d1
966 + vmlal.s32 q6, d19, d0
967 + vmlal.s32 q6, d23, d27
968 + vmlal.s32 q6, d22, d20
969 + vmlal.s32 q6, d24, d26
970 + vmull.s32 q0, d18, d0
971 + vmlal.s32 q0, d22, d27
972 + vmlal.s32 q0, d23, d26
973 + vmlal.s32 q0, d24, d31
974 + vmlal.s32 q0, d19, d20
976 + vld1.8 {d18-d19}, [r2, : 128]
977 + vmlal.s32 q2, d18, d7
978 + vmlal.s32 q2, d19, d6
979 + vmlal.s32 q5, d18, d6
980 + vmlal.s32 q5, d19, d21
981 + vmlal.s32 q1, d18, d21
982 + vmlal.s32 q1, d19, d29
983 + vmlal.s32 q0, d18, d28
984 + vmlal.s32 q0, d19, d9
985 + vmlal.s32 q6, d18, d29
986 + vmlal.s32 q6, d19, d28
988 + vld1.8 {d18-d19}, [r2, : 128]
990 + vld1.8 {d22-d23}, [r2, : 128]
991 + vmlal.s32 q5, d19, d7
992 + vmlal.s32 q0, d18, d21
993 + vmlal.s32 q0, d19, d29
994 + vmlal.s32 q6, d18, d6
996 + vld1.8 {d6-d7}, [r2, : 128]
997 + vmlal.s32 q6, d19, d21
999 + vld1.8 {d18-d19}, [r2, : 128]
1000 + vmlal.s32 q0, d30, d8
1002 + vld1.8 {d20-d21}, [r2, : 128]
1003 + vmlal.s32 q5, d30, d29
1005 + vld1.8 {d24-d25}, [r2, : 128]
1006 + vmlal.s32 q1, d30, d28
1007 + vadd.i64 q13, q0, q11
1008 + vadd.i64 q14, q5, q11
1009 + vmlal.s32 q6, d30, d9
1010 + vshr.s64 q4, q13, #26
1011 + vshr.s64 q13, q14, #26
1012 + vadd.i64 q7, q7, q4
1013 + vshl.i64 q4, q4, #26
1014 + vadd.i64 q14, q7, q3
1015 + vadd.i64 q9, q9, q13
1016 + vshl.i64 q13, q13, #26
1017 + vadd.i64 q15, q9, q3
1018 + vsub.i64 q0, q0, q4
1019 + vshr.s64 q4, q14, #25
1020 + vsub.i64 q5, q5, q13
1021 + vshr.s64 q13, q15, #25
1022 + vadd.i64 q6, q6, q4
1023 + vshl.i64 q4, q4, #25
1024 + vadd.i64 q14, q6, q11
1025 + vadd.i64 q2, q2, q13
1026 + vsub.i64 q4, q7, q4
1027 + vshr.s64 q7, q14, #26
1028 + vshl.i64 q13, q13, #25
1029 + vadd.i64 q14, q2, q11
1030 + vadd.i64 q8, q8, q7
1031 + vshl.i64 q7, q7, #26
1032 + vadd.i64 q15, q8, q3
1033 + vsub.i64 q9, q9, q13
1034 + vshr.s64 q13, q14, #26
1035 + vsub.i64 q6, q6, q7
1036 + vshr.s64 q7, q15, #25
1037 + vadd.i64 q10, q10, q13
1038 + vshl.i64 q13, q13, #26
1039 + vadd.i64 q14, q10, q3
1040 + vadd.i64 q1, q1, q7
1042 + vshl.i64 q7, q7, #25
1044 + vadd.i64 q15, q1, q11
1046 + vsub.i64 q2, q2, q13
1048 + vshr.s64 q13, q14, #25
1049 + vsub.i64 q7, q8, q7
1050 + vshr.s64 q8, q15, #26
1051 + vadd.i64 q14, q13, q13
1052 + vadd.i64 q12, q12, q8
1054 + vshl.i64 q8, q8, #26
1056 + vadd.i64 q3, q12, q3
1057 + vadd.i64 q0, q0, q14
1058 + vst1.8 d12, [r2, : 64]!
1059 + vshl.i64 q7, q13, #4
1060 + vst1.8 d13, [r4, : 64]!
1061 + vsub.i64 q1, q1, q8
1062 + vshr.s64 q3, q3, #25
1063 + vadd.i64 q0, q0, q7
1064 + vadd.i64 q5, q5, q3
1065 + vshl.i64 q3, q3, #25
1066 + vadd.i64 q6, q5, q11
1067 + vadd.i64 q0, q0, q13
1068 + vshl.i64 q7, q13, #25
1069 + vadd.i64 q8, q0, q11
1070 + vsub.i64 q3, q12, q3
1071 + vshr.s64 q6, q6, #26
1072 + vsub.i64 q7, q10, q7
1074 + vshr.s64 q8, q8, #26
1076 + vadd.i64 q3, q9, q6
1077 + vst1.8 d2, [r2, : 64]
1078 + vshl.i64 q6, q6, #26
1079 + vst1.8 d3, [r4, : 64]
1080 + vadd.i64 q1, q4, q8
1082 + vshl.i64 q4, q8, #26
1084 + vsub.i64 q5, q5, q6
1086 + vsub.i64 q0, q0, q4
1087 + vst1.8 d4, [r2, : 64]
1089 + vst1.8 d5, [r4, : 64]
1096 + vst1.8 d10, [r2, : 64]
1097 + vst1.8 d11, [r4, : 64]
1100 + vst1.8 d0, [r2, : 64]
1101 + vst1.8 d1, [r4, : 64]
1105 + vld1.8 {d0-d1}, [r2, : 128]
1106 + vld1.8 {d2-d3}, [r4, : 128]!
1107 + vld1.8 {d4-d5}, [r5, : 128]!
1109 + vld1.8 {d6-d7}, [r4, : 128]!
1110 + vld1.8 {d8-d9}, [r5, : 128]!
1111 + vshl.i32 q5, q1, #1
1113 + vshl.i32 q6, q2, #1
1114 + vld1.8 {d14}, [r4, : 64]
1115 + vshl.i32 q8, q3, #1
1116 + vld1.8 {d15}, [r5, : 64]
1117 + vshl.i32 q9, q4, #1
1118 + vmul.i32 d21, d7, d1
1120 + vmul.i32 q11, q4, q0
1121 + vmul.i32 q0, q7, q0
1122 + vmull.s32 q12, d2, d2
1123 + vmlal.s32 q12, d11, d1
1124 + vmlal.s32 q12, d12, d0
1125 + vmlal.s32 q12, d13, d23
1126 + vmlal.s32 q12, d16, d22
1127 + vmlal.s32 q12, d7, d21
1128 + vmull.s32 q10, d2, d11
1129 + vmlal.s32 q10, d4, d1
1130 + vmlal.s32 q10, d13, d0
1131 + vmlal.s32 q10, d6, d23
1132 + vmlal.s32 q10, d17, d22
1133 + vmull.s32 q13, d10, d4
1134 + vmlal.s32 q13, d11, d3
1135 + vmlal.s32 q13, d13, d1
1136 + vmlal.s32 q13, d16, d0
1137 + vmlal.s32 q13, d17, d23
1138 + vmlal.s32 q13, d8, d22
1139 + vmull.s32 q1, d10, d5
1140 + vmlal.s32 q1, d11, d4
1141 + vmlal.s32 q1, d6, d1
1142 + vmlal.s32 q1, d17, d0
1143 + vmlal.s32 q1, d8, d23
1144 + vmull.s32 q14, d10, d6
1145 + vmlal.s32 q14, d11, d13
1146 + vmlal.s32 q14, d4, d4
1147 + vmlal.s32 q14, d17, d1
1148 + vmlal.s32 q14, d18, d0
1149 + vmlal.s32 q14, d9, d23
1150 + vmull.s32 q11, d10, d7
1151 + vmlal.s32 q11, d11, d6
1152 + vmlal.s32 q11, d12, d5
1153 + vmlal.s32 q11, d8, d1
1154 + vmlal.s32 q11, d19, d0
1155 + vmull.s32 q15, d10, d8
1156 + vmlal.s32 q15, d11, d17
1157 + vmlal.s32 q15, d12, d6
1158 + vmlal.s32 q15, d13, d5
1159 + vmlal.s32 q15, d19, d1
1160 + vmlal.s32 q15, d14, d0
1161 + vmull.s32 q2, d10, d9
1162 + vmlal.s32 q2, d11, d8
1163 + vmlal.s32 q2, d12, d7
1164 + vmlal.s32 q2, d13, d6
1165 + vmlal.s32 q2, d14, d1
1166 + vmull.s32 q0, d15, d1
1167 + vmlal.s32 q0, d10, d14
1168 + vmlal.s32 q0, d11, d19
1169 + vmlal.s32 q0, d12, d8
1170 + vmlal.s32 q0, d13, d17
1171 + vmlal.s32 q0, d6, d6
1173 + vld1.8 {d18-d19}, [r2, : 128]
1174 + vmull.s32 q3, d16, d7
1175 + vmlal.s32 q3, d10, d15
1176 + vmlal.s32 q3, d11, d14
1177 + vmlal.s32 q3, d12, d9
1178 + vmlal.s32 q3, d13, d8
1180 + vld1.8 {d8-d9}, [r2, : 128]
1181 + vadd.i64 q5, q12, q9
1182 + vadd.i64 q6, q15, q9
1183 + vshr.s64 q5, q5, #26
1184 + vshr.s64 q6, q6, #26
1185 + vadd.i64 q7, q10, q5
1186 + vshl.i64 q5, q5, #26
1187 + vadd.i64 q8, q7, q4
1188 + vadd.i64 q2, q2, q6
1189 + vshl.i64 q6, q6, #26
1190 + vadd.i64 q10, q2, q4
1191 + vsub.i64 q5, q12, q5
1192 + vshr.s64 q8, q8, #25
1193 + vsub.i64 q6, q15, q6
1194 + vshr.s64 q10, q10, #25
1195 + vadd.i64 q12, q13, q8
1196 + vshl.i64 q8, q8, #25
1197 + vadd.i64 q13, q12, q9
1198 + vadd.i64 q0, q0, q10
1199 + vsub.i64 q7, q7, q8
1200 + vshr.s64 q8, q13, #26
1201 + vshl.i64 q10, q10, #25
1202 + vadd.i64 q13, q0, q9
1203 + vadd.i64 q1, q1, q8
1204 + vshl.i64 q8, q8, #26
1205 + vadd.i64 q15, q1, q4
1206 + vsub.i64 q2, q2, q10
1207 + vshr.s64 q10, q13, #26
1208 + vsub.i64 q8, q12, q8
1209 + vshr.s64 q12, q15, #25
1210 + vadd.i64 q3, q3, q10
1211 + vshl.i64 q10, q10, #26
1212 + vadd.i64 q13, q3, q4
1213 + vadd.i64 q14, q14, q12
1215 + vshl.i64 q12, q12, #25
1217 + vadd.i64 q15, q14, q9
1219 + vsub.i64 q0, q0, q10
1221 + vshr.s64 q10, q13, #25
1222 + vsub.i64 q1, q1, q12
1223 + vshr.s64 q12, q15, #26
1224 + vadd.i64 q13, q10, q10
1225 + vadd.i64 q11, q11, q12
1227 + vshl.i64 q12, q12, #26
1229 + vadd.i64 q1, q11, q4
1230 + vadd.i64 q4, q5, q13
1231 + vst1.8 d16, [r2, : 64]!
1232 + vshl.i64 q5, q10, #4
1233 + vst1.8 d17, [r4, : 64]!
1234 + vsub.i64 q8, q14, q12
1235 + vshr.s64 q1, q1, #25
1236 + vadd.i64 q4, q4, q5
1237 + vadd.i64 q5, q6, q1
1238 + vshl.i64 q1, q1, #25
1239 + vadd.i64 q6, q5, q9
1240 + vadd.i64 q4, q4, q10
1241 + vshl.i64 q10, q10, #25
1242 + vadd.i64 q9, q4, q9
1243 + vsub.i64 q1, q11, q1
1244 + vshr.s64 q6, q6, #26
1245 + vsub.i64 q3, q3, q10
1247 + vshr.s64 q9, q9, #26
1249 + vadd.i64 q1, q2, q6
1250 + vst1.8 d16, [r2, : 64]
1251 + vshl.i64 q2, q6, #26
1252 + vst1.8 d17, [r4, : 64]
1253 + vadd.i64 q6, q7, q9
1255 + vshl.i64 q7, q9, #26
1257 + vsub.i64 q2, q5, q2
1259 + vsub.i64 q3, q4, q7
1260 + vst1.8 d0, [r2, : 64]
1262 + vst1.8 d1, [r4, : 64]
1269 + vst1.8 d4, [r2, : 64]
1270 + vst1.8 d5, [r4, : 64]
1273 + vst1.8 d6, [r2, : 64]
1274 + vst1.8 d7, [r4, : 64]
1277 + vld1.8 {d0-d1}, [r2, : 128]!
1278 + vld1.8 {d2-d3}, [r4, : 128]!
1279 + vadd.i32 q0, q0, q1
1280 + vld1.8 {d2-d3}, [r2, : 128]!
1281 + vld1.8 {d4-d5}, [r4, : 128]!
1282 + vadd.i32 q1, q1, q2
1284 + vld1.8 {d4}, [r2, : 64]
1285 + vld1.8 {d6}, [r4, : 64]
1286 + vadd.i32 q2, q2, q3
1287 + vst1.8 {d0-d1}, [r5, : 128]!
1288 + vst1.8 {d2-d3}, [r5, : 128]!
1289 + vst1.8 d4, [r5, : 64]
1292 + vld1.8 {d0-d1}, [r4, : 128]!
1293 + vld1.8 {d2-d3}, [r4, : 128]!
1294 + vld1.8 {d4}, [r4, : 64]
1296 + vld1.8 {d6-d7}, [r4, : 128]!
1298 + vld1.8 {d8-d9}, [r4, : 128]!
1299 + vshl.i32 q5, q0, #4
1301 + vshl.i32 q6, q3, #4
1302 + vadd.i32 q5, q5, q0
1303 + vadd.i32 q6, q6, q3
1304 + vshl.i32 q7, q1, #4
1305 + vld1.8 {d5}, [r4, : 64]
1306 + vshl.i32 q8, q4, #4
1308 + vadd.i32 q7, q7, q1
1309 + vadd.i32 q8, q8, q4
1310 + vld1.8 {d18-d19}, [r2, : 128]!
1311 + vshl.i32 q10, q2, #4
1312 + vld1.8 {d22-d23}, [r2, : 128]!
1313 + vadd.i32 q10, q10, q2
1314 + vld1.8 {d24}, [r2, : 64]
1315 + vadd.i32 q5, q5, q0
1317 + vld1.8 {d26-d27}, [r2, : 128]!
1318 + vadd.i32 q6, q6, q3
1319 + vld1.8 {d28-d29}, [r2, : 128]!
1320 + vadd.i32 q8, q8, q4
1321 + vld1.8 {d25}, [r2, : 64]
1322 + vadd.i32 q10, q10, q2
1324 + vadd.i32 q7, q7, q1
1325 + vadd.i32 q5, q5, q0
1327 + vadd.i32 q6, q6, q3
1329 + vadd.i32 q10, q10, q2
1331 + vst1.8 {d12-d13}, [r2, : 128]
1332 + vshl.i32 q6, q13, #1
1334 + vst1.8 {d20-d21}, [r2, : 128]
1335 + vshl.i32 q10, q14, #1
1337 + vst1.8 {d12-d13}, [r2, : 128]
1338 + vshl.i32 q15, q12, #1
1339 + vadd.i32 q8, q8, q4
1340 + vext.32 d10, d31, d30, #0
1341 + vadd.i32 q7, q7, q1
1343 + vst1.8 {d16-d17}, [r2, : 128]
1344 + vmull.s32 q8, d18, d5
1345 + vmlal.s32 q8, d26, d4
1346 + vmlal.s32 q8, d19, d9
1347 + vmlal.s32 q8, d27, d3
1348 + vmlal.s32 q8, d22, d8
1349 + vmlal.s32 q8, d28, d2
1350 + vmlal.s32 q8, d23, d7
1351 + vmlal.s32 q8, d29, d1
1352 + vmlal.s32 q8, d24, d6
1353 + vmlal.s32 q8, d25, d0
1355 + vst1.8 {d14-d15}, [r2, : 128]
1356 + vmull.s32 q2, d18, d4
1357 + vmlal.s32 q2, d12, d9
1358 + vmlal.s32 q2, d13, d8
1359 + vmlal.s32 q2, d19, d3
1360 + vmlal.s32 q2, d22, d2
1361 + vmlal.s32 q2, d23, d1
1362 + vmlal.s32 q2, d24, d0
1364 + vst1.8 {d20-d21}, [r2, : 128]
1365 + vmull.s32 q7, d18, d9
1366 + vmlal.s32 q7, d26, d3
1367 + vmlal.s32 q7, d19, d8
1368 + vmlal.s32 q7, d27, d2
1369 + vmlal.s32 q7, d22, d7
1370 + vmlal.s32 q7, d28, d1
1371 + vmlal.s32 q7, d23, d6
1372 + vmlal.s32 q7, d29, d0
1374 + vst1.8 {d10-d11}, [r2, : 128]
1375 + vmull.s32 q5, d18, d3
1376 + vmlal.s32 q5, d19, d2
1377 + vmlal.s32 q5, d22, d1
1378 + vmlal.s32 q5, d23, d0
1379 + vmlal.s32 q5, d12, d8
1381 + vst1.8 {d16-d17}, [r2, : 128]
1382 + vmull.s32 q4, d18, d8
1383 + vmlal.s32 q4, d26, d2
1384 + vmlal.s32 q4, d19, d7
1385 + vmlal.s32 q4, d27, d1
1386 + vmlal.s32 q4, d22, d6
1387 + vmlal.s32 q4, d28, d0
1388 + vmull.s32 q8, d18, d7
1389 + vmlal.s32 q8, d26, d1
1390 + vmlal.s32 q8, d19, d6
1391 + vmlal.s32 q8, d27, d0
1393 + vld1.8 {d20-d21}, [r2, : 128]
1394 + vmlal.s32 q7, d24, d21
1395 + vmlal.s32 q7, d25, d20
1396 + vmlal.s32 q4, d23, d21
1397 + vmlal.s32 q4, d29, d20
1398 + vmlal.s32 q8, d22, d21
1399 + vmlal.s32 q8, d28, d20
1400 + vmlal.s32 q5, d24, d20
1402 + vst1.8 {d14-d15}, [r2, : 128]
1403 + vmull.s32 q7, d18, d6
1404 + vmlal.s32 q7, d26, d0
1406 + vld1.8 {d30-d31}, [r2, : 128]
1407 + vmlal.s32 q2, d30, d21
1408 + vmlal.s32 q7, d19, d21
1409 + vmlal.s32 q7, d27, d20
1411 + vld1.8 {d26-d27}, [r2, : 128]
1412 + vmlal.s32 q4, d25, d27
1413 + vmlal.s32 q8, d29, d27
1414 + vmlal.s32 q8, d25, d26
1415 + vmlal.s32 q7, d28, d27
1416 + vmlal.s32 q7, d29, d26
1418 + vld1.8 {d28-d29}, [r2, : 128]
1419 + vmlal.s32 q4, d24, d29
1420 + vmlal.s32 q8, d23, d29
1421 + vmlal.s32 q8, d24, d28
1422 + vmlal.s32 q7, d22, d29
1423 + vmlal.s32 q7, d23, d28
1425 + vst1.8 {d8-d9}, [r2, : 128]
1427 + vld1.8 {d8-d9}, [r2, : 128]
1428 + vmlal.s32 q7, d24, d9
1429 + vmlal.s32 q7, d25, d31
1430 + vmull.s32 q1, d18, d2
1431 + vmlal.s32 q1, d19, d1
1432 + vmlal.s32 q1, d22, d0
1433 + vmlal.s32 q1, d24, d27
1434 + vmlal.s32 q1, d23, d20
1435 + vmlal.s32 q1, d12, d7
1436 + vmlal.s32 q1, d13, d6
1437 + vmull.s32 q6, d18, d1
1438 + vmlal.s32 q6, d19, d0
1439 + vmlal.s32 q6, d23, d27
1440 + vmlal.s32 q6, d22, d20
1441 + vmlal.s32 q6, d24, d26
1442 + vmull.s32 q0, d18, d0
1443 + vmlal.s32 q0, d22, d27
1444 + vmlal.s32 q0, d23, d26
1445 + vmlal.s32 q0, d24, d31
1446 + vmlal.s32 q0, d19, d20
1448 + vld1.8 {d18-d19}, [r2, : 128]
1449 + vmlal.s32 q2, d18, d7
1450 + vmlal.s32 q2, d19, d6
1451 + vmlal.s32 q5, d18, d6
1452 + vmlal.s32 q5, d19, d21
1453 + vmlal.s32 q1, d18, d21
1454 + vmlal.s32 q1, d19, d29
1455 + vmlal.s32 q0, d18, d28
1456 + vmlal.s32 q0, d19, d9
1457 + vmlal.s32 q6, d18, d29
1458 + vmlal.s32 q6, d19, d28
1460 + vld1.8 {d18-d19}, [r2, : 128]
1462 + vld1.8 {d22-d23}, [r2, : 128]
1463 + vmlal.s32 q5, d19, d7
1464 + vmlal.s32 q0, d18, d21
1465 + vmlal.s32 q0, d19, d29
1466 + vmlal.s32 q6, d18, d6
1468 + vld1.8 {d6-d7}, [r2, : 128]
1469 + vmlal.s32 q6, d19, d21
1471 + vld1.8 {d18-d19}, [r2, : 128]
1472 + vmlal.s32 q0, d30, d8
1474 + vld1.8 {d20-d21}, [r2, : 128]
1475 + vmlal.s32 q5, d30, d29
1477 + vld1.8 {d24-d25}, [r2, : 128]
1478 + vmlal.s32 q1, d30, d28
1479 + vadd.i64 q13, q0, q11
1480 + vadd.i64 q14, q5, q11
1481 + vmlal.s32 q6, d30, d9
1482 + vshr.s64 q4, q13, #26
1483 + vshr.s64 q13, q14, #26
1484 + vadd.i64 q7, q7, q4
1485 + vshl.i64 q4, q4, #26
1486 + vadd.i64 q14, q7, q3
1487 + vadd.i64 q9, q9, q13
1488 + vshl.i64 q13, q13, #26
1489 + vadd.i64 q15, q9, q3
1490 + vsub.i64 q0, q0, q4
1491 + vshr.s64 q4, q14, #25
1492 + vsub.i64 q5, q5, q13
1493 + vshr.s64 q13, q15, #25
1494 + vadd.i64 q6, q6, q4
1495 + vshl.i64 q4, q4, #25
1496 + vadd.i64 q14, q6, q11
1497 + vadd.i64 q2, q2, q13
1498 + vsub.i64 q4, q7, q4
1499 + vshr.s64 q7, q14, #26
1500 + vshl.i64 q13, q13, #25
1501 + vadd.i64 q14, q2, q11
1502 + vadd.i64 q8, q8, q7
1503 + vshl.i64 q7, q7, #26
1504 + vadd.i64 q15, q8, q3
1505 + vsub.i64 q9, q9, q13
1506 + vshr.s64 q13, q14, #26
1507 + vsub.i64 q6, q6, q7
1508 + vshr.s64 q7, q15, #25
1509 + vadd.i64 q10, q10, q13
1510 + vshl.i64 q13, q13, #26
1511 + vadd.i64 q14, q10, q3
1512 + vadd.i64 q1, q1, q7
1514 + vshl.i64 q7, q7, #25
1516 + vadd.i64 q15, q1, q11
1518 + vsub.i64 q2, q2, q13
1520 + vshr.s64 q13, q14, #25
1521 + vsub.i64 q7, q8, q7
1522 + vshr.s64 q8, q15, #26
1523 + vadd.i64 q14, q13, q13
1524 + vadd.i64 q12, q12, q8
1526 + vshl.i64 q8, q8, #26
1528 + vadd.i64 q3, q12, q3
1529 + vadd.i64 q0, q0, q14
1530 + vst1.8 d12, [r2, : 64]!
1531 + vshl.i64 q7, q13, #4
1532 + vst1.8 d13, [r4, : 64]!
1533 + vsub.i64 q1, q1, q8
1534 + vshr.s64 q3, q3, #25
1535 + vadd.i64 q0, q0, q7
1536 + vadd.i64 q5, q5, q3
1537 + vshl.i64 q3, q3, #25
1538 + vadd.i64 q6, q5, q11
1539 + vadd.i64 q0, q0, q13
1540 + vshl.i64 q7, q13, #25
1541 + vadd.i64 q8, q0, q11
1542 + vsub.i64 q3, q12, q3
1543 + vshr.s64 q6, q6, #26
1544 + vsub.i64 q7, q10, q7
1546 + vshr.s64 q8, q8, #26
1548 + vadd.i64 q3, q9, q6
1549 + vst1.8 d2, [r2, : 64]
1550 + vshl.i64 q6, q6, #26
1551 + vst1.8 d3, [r4, : 64]
1552 + vadd.i64 q1, q4, q8
1554 + vshl.i64 q4, q8, #26
1556 + vsub.i64 q5, q5, q6
1558 + vsub.i64 q0, q0, q4
1559 + vst1.8 d4, [r2, : 64]
1561 + vst1.8 d5, [r4, : 64]
1568 + vst1.8 d10, [r2, : 64]
1569 + vst1.8 d11, [r4, : 64]
1572 + vst1.8 d0, [r2, : 64]
1573 + vst1.8 d1, [r4, : 64]
1574 + ldr r2, [sp, #488]
1575 + ldr r4, [sp, #492]
1580 + vld1.8 {d0-d1}, [r1, : 128]!
1581 + vld1.8 {d2-d3}, [r1, : 128]!
1582 + vld1.8 {d4}, [r1, : 64]
1583 + vst1.8 {d0-d1}, [r2, : 128]!
1584 + vst1.8 {d2-d3}, [r2, : 128]!
1585 + vst1.8 d4, [r2, : 64]
1593 + addeq r2, r3, #336
1600 + addeq r4, r3, #336
1607 + addeq r2, r3, #336
1608 + addeq r4, r3, #336
1615 + addeq r2, r3, #336
1624 + vld1.8 {d0-d1}, [r6, : 128]!
1625 + vld1.8 {d2-d3}, [r6, : 128]!
1626 + vld1.8 {d4}, [r6, : 64]
1627 + vst1.8 {d0-d1}, [r7, : 128]!
1628 + vst1.8 {d2-d3}, [r7, : 128]!
1629 + vst1.8 d4, [r7, : 64]
1631 + beq ._skipsquaringloop
1640 + vld1.8 {d4-d5}, [r7, : 128]!
1641 + vld1.8 {d6-d7}, [r7, : 128]!
1642 + vld1.8 {d9}, [r7, : 64]
1643 + vld1.8 {d10-d11}, [r6, : 128]!
1645 + vld1.8 {d12-d13}, [r6, : 128]!
1646 + vmul.i32 q7, q2, q0
1647 + vld1.8 {d8}, [r6, : 64]
1648 + vext.32 d17, d11, d10, #1
1649 + vmul.i32 q9, q3, q0
1650 + vext.32 d16, d10, d8, #1
1651 + vshl.u32 q10, q5, q1
1652 + vext.32 d22, d14, d4, #1
1653 + vext.32 d24, d18, d6, #1
1654 + vshl.u32 q13, q6, q1
1655 + vshl.u32 d28, d8, d2
1656 + vrev64.i32 d22, d22
1657 + vmul.i32 d1, d9, d1
1658 + vrev64.i32 d24, d24
1659 + vext.32 d29, d8, d13, #1
1660 + vext.32 d0, d1, d9, #1
1662 + vext.32 d2, d9, d1, #1
1663 + vext.32 d23, d15, d5, #1
1664 + vmull.s32 q4, d20, d4
1665 + vrev64.i32 d23, d23
1666 + vmlal.s32 q4, d21, d1
1668 + vmlal.s32 q4, d26, d19
1669 + vext.32 d3, d5, d15, #1
1670 + vmlal.s32 q4, d27, d18
1672 + vmlal.s32 q4, d28, d15
1673 + vext.32 d14, d12, d11, #1
1674 + vmull.s32 q5, d16, d23
1675 + vext.32 d15, d13, d12, #1
1676 + vmlal.s32 q5, d17, d4
1677 + vst1.8 d8, [r7, : 64]!
1678 + vmlal.s32 q5, d14, d1
1679 + vext.32 d12, d9, d8, #0
1680 + vmlal.s32 q5, d15, d19
1682 + vmlal.s32 q5, d29, d18
1683 + vext.32 d25, d19, d7, #1
1684 + vmlal.s32 q6, d20, d5
1685 + vrev64.i32 d25, d25
1686 + vmlal.s32 q6, d21, d4
1687 + vst1.8 d11, [r7, : 64]!
1688 + vmlal.s32 q6, d26, d1
1689 + vext.32 d9, d10, d10, #0
1690 + vmlal.s32 q6, d27, d19
1692 + vmlal.s32 q6, d28, d18
1693 + vmlal.s32 q4, d16, d24
1694 + vmlal.s32 q4, d17, d5
1695 + vmlal.s32 q4, d14, d4
1696 + vst1.8 d12, [r7, : 64]!
1697 + vmlal.s32 q4, d15, d1
1698 + vext.32 d10, d13, d12, #0
1699 + vmlal.s32 q4, d29, d19
1701 + vmlal.s32 q5, d20, d6
1702 + vmlal.s32 q5, d21, d5
1703 + vmlal.s32 q5, d26, d4
1704 + vext.32 d13, d8, d8, #0
1705 + vmlal.s32 q5, d27, d1
1707 + vmlal.s32 q5, d28, d19
1708 + vst1.8 d9, [r7, : 64]!
1709 + vmlal.s32 q6, d16, d25
1710 + vmlal.s32 q6, d17, d6
1711 + vst1.8 d10, [r7, : 64]
1712 + vmlal.s32 q6, d14, d5
1713 + vext.32 d8, d11, d10, #0
1714 + vmlal.s32 q6, d15, d4
1716 + vmlal.s32 q6, d29, d1
1717 + vmlal.s32 q4, d20, d7
1718 + vmlal.s32 q4, d21, d6
1719 + vmlal.s32 q4, d26, d5
1720 + vext.32 d11, d12, d12, #0
1721 + vmlal.s32 q4, d27, d4
1723 + vmlal.s32 q4, d28, d1
1724 + vmlal.s32 q5, d16, d0
1726 + vmlal.s32 q5, d17, d7
1727 + vmlal.s32 q5, d14, d6
1728 + vext.32 d30, d9, d8, #0
1729 + vmlal.s32 q5, d15, d5
1730 + vld1.8 {d31}, [r6, : 64]!
1731 + vmlal.s32 q5, d29, d4
1732 + vmlal.s32 q15, d20, d0
1733 + vext.32 d0, d6, d18, #1
1734 + vmlal.s32 q15, d21, d25
1736 + vmlal.s32 q15, d26, d24
1737 + vext.32 d1, d7, d19, #1
1738 + vext.32 d7, d10, d10, #0
1739 + vmlal.s32 q15, d27, d23
1741 + vld1.8 {d6}, [r6, : 64]
1742 + vmlal.s32 q15, d28, d22
1743 + vmlal.s32 q3, d16, d4
1745 + vmlal.s32 q3, d17, d2
1746 + vext.32 d4, d31, d30, #0
1748 + vmlal.s32 q3, d14, d1
1749 + vext.32 d11, d13, d13, #0
1750 + vext.32 d13, d30, d30, #0
1751 + vmlal.s32 q3, d15, d0
1752 + vext.32 d1, d8, d8, #0
1753 + vmlal.s32 q3, d29, d3
1754 + vld1.8 {d5}, [r6, : 64]
1756 + vext.32 d10, d6, d6, #0
1757 + vmov.i32 q1, #0xffffffff
1758 + vshl.i64 q4, q1, #25
1760 + vld1.8 {d14-d15}, [r7, : 128]
1761 + vadd.i64 q9, q2, q7
1762 + vshl.i64 q1, q1, #26
1763 + vshr.s64 q10, q9, #26
1764 + vld1.8 {d0}, [r6, : 64]!
1765 + vadd.i64 q5, q5, q10
1767 + vld1.8 {d16}, [r6, : 64]!
1769 + vld1.8 {d20-d21}, [r6, : 128]
1770 + vadd.i64 q11, q5, q10
1771 + vsub.i64 q2, q2, q9
1772 + vshr.s64 q9, q11, #25
1773 + vext.32 d12, d5, d4, #0
1775 + vadd.i64 q0, q0, q9
1777 + vadd.i64 q3, q0, q7
1778 + vsub.i64 q5, q5, q11
1779 + vshr.s64 q11, q3, #26
1780 + vext.32 d18, d11, d10, #0
1782 + vadd.i64 q8, q8, q11
1783 + vadd.i64 q11, q8, q10
1784 + vsub.i64 q0, q0, q3
1785 + vshr.s64 q3, q11, #25
1787 + vadd.i64 q3, q6, q3
1788 + vadd.i64 q6, q3, q7
1789 + vsub.i64 q8, q8, q11
1790 + vshr.s64 q11, q6, #26
1792 + vadd.i64 q9, q9, q11
1793 + vadd.i64 d25, d19, d21
1794 + vsub.i64 q3, q3, q6
1795 + vshr.s64 d23, d25, #25
1797 + vadd.i64 d21, d23, d23
1798 + vshl.i64 d25, d23, #4
1799 + vadd.i64 d21, d21, d23
1800 + vadd.i64 d25, d25, d21
1801 + vadd.i64 d4, d4, d25
1803 + vadd.i64 d12, d4, d14
1805 + vst1.8 d0, [r6, : 64]
1806 + vsub.i64 d19, d19, d9
1808 + vst1.8 d16, [r6, : 64]
1809 + vshr.s64 d22, d12, #26
1811 + vadd.i64 d10, d10, d22
1813 + vsub.i64 d4, d4, d0
1815 + vst1.8 d6, [r6, : 64]
1817 + vst1.8 d18, [r6, : 64]
1820 + vst1.8 d4, [r6, : 64]
1822 + bhi ._squaringloop
1823 +._skipsquaringloop:
1831 + vld1.8 {d4-d5}, [r5, : 128]!
1832 + vld1.8 {d6-d7}, [r5, : 128]!
1833 + vld1.8 {d9}, [r5, : 64]
1834 + vld1.8 {d10-d11}, [r2, : 128]!
1836 + vld1.8 {d12-d13}, [r2, : 128]!
1837 + vmul.i32 q7, q2, q0
1838 + vld1.8 {d8}, [r2, : 64]
1839 + vext.32 d17, d11, d10, #1
1840 + vmul.i32 q9, q3, q0
1841 + vext.32 d16, d10, d8, #1
1842 + vshl.u32 q10, q5, q1
1843 + vext.32 d22, d14, d4, #1
1844 + vext.32 d24, d18, d6, #1
1845 + vshl.u32 q13, q6, q1
1846 + vshl.u32 d28, d8, d2
1847 + vrev64.i32 d22, d22
1848 + vmul.i32 d1, d9, d1
1849 + vrev64.i32 d24, d24
1850 + vext.32 d29, d8, d13, #1
1851 + vext.32 d0, d1, d9, #1
1853 + vext.32 d2, d9, d1, #1
1854 + vext.32 d23, d15, d5, #1
1855 + vmull.s32 q4, d20, d4
1856 + vrev64.i32 d23, d23
1857 + vmlal.s32 q4, d21, d1
1859 + vmlal.s32 q4, d26, d19
1860 + vext.32 d3, d5, d15, #1
1861 + vmlal.s32 q4, d27, d18
1863 + vmlal.s32 q4, d28, d15
1864 + vext.32 d14, d12, d11, #1
1865 + vmull.s32 q5, d16, d23
1866 + vext.32 d15, d13, d12, #1
1867 + vmlal.s32 q5, d17, d4
1868 + vst1.8 d8, [r5, : 64]!
1869 + vmlal.s32 q5, d14, d1
1870 + vext.32 d12, d9, d8, #0
1871 + vmlal.s32 q5, d15, d19
1873 + vmlal.s32 q5, d29, d18
1874 + vext.32 d25, d19, d7, #1
1875 + vmlal.s32 q6, d20, d5
1876 + vrev64.i32 d25, d25
1877 + vmlal.s32 q6, d21, d4
1878 + vst1.8 d11, [r5, : 64]!
1879 + vmlal.s32 q6, d26, d1
1880 + vext.32 d9, d10, d10, #0
1881 + vmlal.s32 q6, d27, d19
1883 + vmlal.s32 q6, d28, d18
1884 + vmlal.s32 q4, d16, d24
1885 + vmlal.s32 q4, d17, d5
1886 + vmlal.s32 q4, d14, d4
1887 + vst1.8 d12, [r5, : 64]!
1888 + vmlal.s32 q4, d15, d1
1889 + vext.32 d10, d13, d12, #0
1890 + vmlal.s32 q4, d29, d19
1892 + vmlal.s32 q5, d20, d6
1893 + vmlal.s32 q5, d21, d5
1894 + vmlal.s32 q5, d26, d4
1895 + vext.32 d13, d8, d8, #0
1896 + vmlal.s32 q5, d27, d1
1898 + vmlal.s32 q5, d28, d19
1899 + vst1.8 d9, [r5, : 64]!
1900 + vmlal.s32 q6, d16, d25
1901 + vmlal.s32 q6, d17, d6
1902 + vst1.8 d10, [r5, : 64]
1903 + vmlal.s32 q6, d14, d5
1904 + vext.32 d8, d11, d10, #0
1905 + vmlal.s32 q6, d15, d4
1907 + vmlal.s32 q6, d29, d1
1908 + vmlal.s32 q4, d20, d7
1909 + vmlal.s32 q4, d21, d6
1910 + vmlal.s32 q4, d26, d5
1911 + vext.32 d11, d12, d12, #0
1912 + vmlal.s32 q4, d27, d4
1914 + vmlal.s32 q4, d28, d1
1915 + vmlal.s32 q5, d16, d0
1917 + vmlal.s32 q5, d17, d7
1918 + vmlal.s32 q5, d14, d6
1919 + vext.32 d30, d9, d8, #0
1920 + vmlal.s32 q5, d15, d5
1921 + vld1.8 {d31}, [r2, : 64]!
1922 + vmlal.s32 q5, d29, d4
1923 + vmlal.s32 q15, d20, d0
1924 + vext.32 d0, d6, d18, #1
1925 + vmlal.s32 q15, d21, d25
1927 + vmlal.s32 q15, d26, d24
1928 + vext.32 d1, d7, d19, #1
1929 + vext.32 d7, d10, d10, #0
1930 + vmlal.s32 q15, d27, d23
1932 + vld1.8 {d6}, [r2, : 64]
1933 + vmlal.s32 q15, d28, d22
1934 + vmlal.s32 q3, d16, d4
1936 + vmlal.s32 q3, d17, d2
1937 + vext.32 d4, d31, d30, #0
1939 + vmlal.s32 q3, d14, d1
1940 + vext.32 d11, d13, d13, #0
1941 + vext.32 d13, d30, d30, #0
1942 + vmlal.s32 q3, d15, d0
1943 + vext.32 d1, d8, d8, #0
1944 + vmlal.s32 q3, d29, d3
1945 + vld1.8 {d5}, [r2, : 64]
1947 + vext.32 d10, d6, d6, #0
1948 + vmov.i32 q1, #0xffffffff
1949 + vshl.i64 q4, q1, #25
1951 + vld1.8 {d14-d15}, [r5, : 128]
1952 + vadd.i64 q9, q2, q7
1953 + vshl.i64 q1, q1, #26
1954 + vshr.s64 q10, q9, #26
1955 + vld1.8 {d0}, [r2, : 64]!
1956 + vadd.i64 q5, q5, q10
1958 + vld1.8 {d16}, [r2, : 64]!
1960 + vld1.8 {d20-d21}, [r2, : 128]
1961 + vadd.i64 q11, q5, q10
1962 + vsub.i64 q2, q2, q9
1963 + vshr.s64 q9, q11, #25
1964 + vext.32 d12, d5, d4, #0
1966 + vadd.i64 q0, q0, q9
1968 + vadd.i64 q3, q0, q7
1969 + vsub.i64 q5, q5, q11
1970 + vshr.s64 q11, q3, #26
1971 + vext.32 d18, d11, d10, #0
1973 + vadd.i64 q8, q8, q11
1974 + vadd.i64 q11, q8, q10
1975 + vsub.i64 q0, q0, q3
1976 + vshr.s64 q3, q11, #25
1978 + vadd.i64 q3, q6, q3
1979 + vadd.i64 q6, q3, q7
1980 + vsub.i64 q8, q8, q11
1981 + vshr.s64 q11, q6, #26
1983 + vadd.i64 q9, q9, q11
1984 + vadd.i64 d25, d19, d21
1985 + vsub.i64 q3, q3, q6
1986 + vshr.s64 d23, d25, #25
1988 + vadd.i64 d21, d23, d23
1989 + vshl.i64 d25, d23, #4
1990 + vadd.i64 d21, d21, d23
1991 + vadd.i64 d25, d25, d21
1992 + vadd.i64 d4, d4, d25
1994 + vadd.i64 d12, d4, d14
1996 + vst1.8 d0, [r2, : 64]
1997 + vsub.i64 d19, d19, d9
1999 + vst1.8 d16, [r2, : 64]
2000 + vshr.s64 d22, d12, #26
2002 + vadd.i64 d10, d10, d22
2004 + vsub.i64 d4, d4, d0
2006 + vst1.8 d6, [r2, : 64]
2008 + vst1.8 d18, [r2, : 64]
2011 + vst1.8 d4, [r2, : 64]
2013 + beq ._skippostcopy
2016 + vld1.8 {d0-d1}, [r2, : 128]!
2017 + vld1.8 {d2-d3}, [r2, : 128]!
2018 + vld1.8 {d4}, [r2, : 64]
2019 + vst1.8 {d0-d1}, [r4, : 128]!
2020 + vst1.8 {d2-d3}, [r4, : 128]!
2021 + vst1.8 d4, [r4, : 64]
2024 + bne ._skipfinalcopy
2027 + vld1.8 {d0-d1}, [r2, : 128]!
2028 + vld1.8 {d2-d3}, [r2, : 128]!
2029 + vld1.8 {d4}, [r2, : 64]
2030 + vst1.8 {d0-d1}, [r4, : 128]!
2031 + vst1.8 {d2-d3}, [r4, : 128]!
2032 + vst1.8 d4, [r4, : 64]
2048 + add r11, r1, r1, LSL #4
2049 + add r11, r11, r1, LSL #1
2050 + add r11, r11, #16777216
2051 + mov r11, r11, ASR #25
2053 + mov r11, r11, ASR #26
2055 + mov r11, r11, ASR #25
2057 + mov r11, r11, ASR #26
2059 + mov r11, r11, ASR #25
2061 + mov r11, r11, ASR #26
2063 + mov r11, r11, ASR #25
2065 + mov r11, r11, ASR #26
2067 + mov r11, r11, ASR #25
2069 + mov r11, r11, ASR #26
2071 + mov r11, r11, ASR #25
2073 + add r2, r2, r11, LSL #1
2074 + add r2, r2, r11, LSL #4
2075 + mov r11, r2, ASR #26
2077 + sub r2, r2, r11, LSL #26
2078 + mov r11, r3, ASR #25
2080 + sub r3, r3, r11, LSL #25
2081 + mov r11, r4, ASR #26
2083 + sub r4, r4, r11, LSL #26
2084 + mov r11, r5, ASR #25
2086 + sub r5, r5, r11, LSL #25
2087 + mov r11, r6, ASR #26
2089 + sub r6, r6, r11, LSL #26
2090 + mov r11, r7, ASR #25
2092 + sub r7, r7, r11, LSL #25
2093 + mov r11, r8, ASR #26
2095 + sub r8, r8, r11, LSL #26
2096 + mov r11, r9, ASR #25
2098 + sub r9, r9, r11, LSL #25
2099 + mov r11, r10, ASR #26
2101 + sub r10, r10, r11, LSL #26
2102 + mov r11, r1, ASR #25
2103 + sub r1, r1, r11, LSL #25
2104 + add r2, r2, r3, LSL #26
2105 + mov r3, r3, LSR #6
2106 + add r3, r3, r4, LSL #19
2107 + mov r4, r4, LSR #13
2108 + add r4, r4, r5, LSL #13
2109 + mov r5, r5, LSR #19
2110 + add r5, r5, r6, LSL #6
2111 + add r6, r7, r8, LSL #25
2112 + mov r7, r8, LSR #7
2113 + add r7, r7, r9, LSL #19
2114 + mov r8, r9, LSR #13
2115 + add r8, r8, r10, LSL #12
2116 + mov r9, r10, LSR #20
2117 + add r1, r9, r1, LSL #6
2128 + ldrd r8, [sp, #16]
2129 + ldrd r10, [sp, #24]
2130 + ldr r12, [sp, #480]
2131 + ldr r14, [sp, #484]
2134 + vpop {q4, q5, q6, q7}