]> git.bitcoin.ninja Git - dnssec-prover/blob - src/crypto/bigint.rs
Swap `add_one!(_)` for `add_u64!(_, 1)`
[dnssec-prover] / src / crypto / bigint.rs
1 //! Simple variable-time big integer implementation
2
3 use alloc::vec::Vec;
4 use core::marker::PhantomData;
5
6 const WORD_COUNT_4096: usize = 4096 / 64;
7 const WORD_COUNT_256: usize = 256 / 64;
8 const WORD_COUNT_384: usize = 384 / 64;
9
10 // RFC 5702 indicates RSA keys can be up to 4096 bits
11 #[derive(Clone, Debug, PartialEq, Eq, PartialOrd, Ord)]
12 pub(super) struct U4096([u64; WORD_COUNT_4096]);
13
14 #[derive(Clone, Debug, PartialEq, Eq, PartialOrd, Ord)]
15 pub(super) struct U256([u64; WORD_COUNT_256]);
16
17 #[derive(Clone, Debug, PartialEq, Eq, PartialOrd, Ord)]
18 pub(super) struct U384([u64; WORD_COUNT_384]);
19
20 pub(super) trait Int: Clone + Ord + Sized {
21         const ZERO: Self;
22         const BYTES: usize;
23         fn from_be_bytes(b: &[u8]) -> Result<Self, ()>;
24         fn limbs(&self) -> &[u64];
25 }
26 impl Int for U256 {
27         const ZERO: U256 = U256([0; 4]);
28         const BYTES: usize = 32;
29         fn from_be_bytes(b: &[u8]) -> Result<Self, ()> { Self::from_be_bytes(b) }
30         fn limbs(&self) -> &[u64] { &self.0 }
31 }
32 impl Int for U384 {
33         const ZERO: U384 = U384([0; 6]);
34         const BYTES: usize = 48;
35         fn from_be_bytes(b: &[u8]) -> Result<Self, ()> { Self::from_be_bytes(b) }
36         fn limbs(&self) -> &[u64] { &self.0 }
37 }
38
39 /// Defines a *PRIME* Modulus
40 pub(super) trait PrimeModulus<I: Int> {
41         const PRIME: I;
42         const R_SQUARED_MOD_PRIME: I;
43         const NEGATIVE_PRIME_INV_MOD_R: I;
44 }
45
46 #[derive(Clone, Debug, PartialEq, Eq)] // Ord doesn't make sense cause we have an R factor
47 pub(super) struct U256Mod<M: PrimeModulus<U256>>(U256, PhantomData<M>);
48
49 #[derive(Clone, Debug, PartialEq, Eq)] // Ord doesn't make sense cause we have an R factor
50 pub(super) struct U384Mod<M: PrimeModulus<U384>>(U384, PhantomData<M>);
51
52 macro_rules! debug_unwrap { ($v: expr) => { {
53         let v = $v;
54         debug_assert!(v.is_ok());
55         match v {
56                 Ok(r) => r,
57                 Err(e) => return Err(e),
58         }
59 } } }
60
61 // Various const versions of existing slice utilities
62 /// Const version of `&a[start..end]`
63 const fn const_subslice<'a, T>(a: &'a [T], start: usize, end: usize) -> &'a [T] {
64         assert!(start <= a.len());
65         assert!(end <= a.len());
66         assert!(end >= start);
67         let mut startptr = a.as_ptr();
68         startptr = unsafe { startptr.add(start) };
69         let len = end - start;
70         // The docs for from_raw_parts do not mention any requirements that the pointer be valid if the
71         // length is zero, aside from requiring proper alignment (which is met here). Thus,
72         // one-past-the-end should be an acceptable pointer for a 0-length slice.
73         unsafe { alloc::slice::from_raw_parts(startptr, len) }
74 }
75
76 /// Const version of `dest[dest_start..dest_end].copy_from_slice(source)`
77 ///
78 /// Once `const_mut_refs` is stable we can convert this to a function
79 macro_rules! copy_from_slice {
80         ($dest: ident, $dest_start: expr, $dest_end: expr, $source: ident) => { {
81                 let dest_start = $dest_start;
82                 let dest_end = $dest_end;
83                 assert!(dest_start <= $dest.len());
84                 assert!(dest_end <= $dest.len());
85                 assert!(dest_end >= dest_start);
86                 assert!(dest_end - dest_start == $source.len());
87                 let mut i = 0;
88                 while i < $source.len() {
89                         $dest[i + dest_start] = $source[i];
90                         i += 1;
91                 }
92         } }
93 }
94
95 /// Const version of a > b
96 const fn slice_greater_than(a: &[u64], b: &[u64]) -> bool {
97         debug_assert!(a.len() == b.len());
98         let len = if a.len() <= b.len() { a.len() } else { b.len() };
99         let mut i = 0;
100         while i < len {
101                 if a[i] > b[i] { return true; }
102                 else if a[i] < b[i] { return false; }
103                 i += 1;
104         }
105         false // Equal
106 }
107
108 /// Const version of a == b
109 const fn slice_equal(a: &[u64], b: &[u64]) -> bool {
110         debug_assert!(a.len() == b.len());
111         let len = if a.len() <= b.len() { a.len() } else { b.len() };
112         let mut i = 0;
113         while i < len {
114                 if a[i] != b[i] { return false; }
115                 i += 1;
116         }
117         true
118 }
119
120 /// Adds a single u64 valuein-place, returning an overflow flag, in which case one out-of-bounds
121 /// high bit is implicitly included in the result.
122 ///
123 /// Once `const_mut_refs` is stable we can convert this to a function
124 macro_rules! add_u64 { ($a: ident, $b: expr) => { {
125         let len = $a.len();
126         let mut i = len - 1;
127         let mut add = $b;
128         loop {
129                 let (v, carry) = $a[i].overflowing_add(add);
130                 $a[i] = v;
131                 add = carry as u64;
132                 if add == 0 { break; }
133
134                 if i == 0 { break; }
135                 i -= 1;
136         }
137         add != 0
138 } } }
139
140 /// Negates the given u64 slice.
141 ///
142 /// Once `const_mut_refs` is stable we can convert this to a function
143 macro_rules! negate { ($v: ident) => { {
144         let mut i = 0;
145         while i < $v.len() {
146                 $v[i] ^= 0xffff_ffff_ffff_ffff;
147                 i += 1;
148         }
149         let overflow = add_u64!($v, 1);
150         debug_assert!(!overflow);
151 } } }
152
153 /// Doubles in-place, returning an overflow flag, in which case one out-of-bounds high bit is
154 /// implicitly included in the result.
155 ///
156 /// Once `const_mut_refs` is stable we can convert this to a function
157 macro_rules! double { ($a: ident) => { {
158         { let _: &[u64] = &$a; } // Force type resolution
159         let len = $a.len();
160         let mut carry = false;
161         let mut i = 0;
162         while i < len {
163                 let mut next_carry = ($a[len - 1 - i] & (1 << 63)) != 0;
164                 let (v, next_carry_2) = ($a[len - 1 - i] << 1).overflowing_add(carry as u64);
165                 $a[len - 1 - i] = v;
166                 debug_assert!(!next_carry || !next_carry_2);
167                 next_carry |= next_carry_2;
168                 carry = next_carry;
169                 i += 1;
170         }
171         carry
172 } } }
173
174 macro_rules! define_add { ($name: ident, $len: expr) => {
175         /// Adds two $len-64-bit integers together, returning a new $len-64-bit integer and an overflow
176         /// bit, with the same semantics as the std [`u64::overflowing_add`] method.
177         const fn $name(a: &[u64], b: &[u64]) -> ([u64; $len], bool) {
178                 debug_assert!(a.len() == $len);
179                 debug_assert!(b.len() == $len);
180                 let mut r = [0; $len];
181                 let mut carry = false;
182                 let mut i = 0;
183                 while i < $len {
184                         let pos = $len - 1 - i;
185                         let (v, mut new_carry) = a[pos].overflowing_add(b[pos]);
186                         let (v2, new_new_carry) = v.overflowing_add(carry as u64);
187                         new_carry |= new_new_carry;
188                         r[pos] = v2;
189                         carry = new_carry;
190                         i += 1;
191                 }
192                 (r, carry)
193         }
194 } }
195
196 define_add!(add_2, 2);
197 define_add!(add_3, 3);
198 define_add!(add_4, 4);
199 define_add!(add_6, 6);
200 define_add!(add_8, 8);
201 define_add!(add_12, 12);
202 define_add!(add_16, 16);
203 define_add!(add_32, 32);
204 define_add!(add_64, 64);
205 define_add!(add_128, 128);
206
207 macro_rules! define_sub { ($name: ident, $name_abs: ident, $len: expr) => {
208         /// Subtracts the `b` $len-64-bit integer from the `a` $len-64-bit integer, returning a new
209         /// $len-64-bit integer and an overflow bit, with the same semantics as the std
210         /// [`u64::overflowing_sub`] method.
211         const fn $name(a: &[u64], b: &[u64]) -> ([u64; $len], bool) {
212                 debug_assert!(a.len() == $len);
213                 debug_assert!(b.len() == $len);
214                 let mut r = [0; $len];
215                 let mut carry = false;
216                 let mut i = 0;
217                 while i < $len {
218                         let pos = $len - 1 - i;
219                         let (v, mut new_carry) = a[pos].overflowing_sub(b[pos]);
220                         let (v2, new_new_carry) = v.overflowing_sub(carry as u64);
221                         new_carry |= new_new_carry;
222                         r[pos] = v2;
223                         carry = new_carry;
224                         i += 1;
225                 }
226                 (r, carry)
227         }
228
229         /// Subtracts the `b` $len-64-bit integer from the `a` $len-64-bit integer, returning a new
230         /// $len-64-bit integer representing the absolute value of the result, as well as a sign bit.
231         #[allow(unused)]
232         const fn $name_abs(a: &[u64], b: &[u64]) -> ([u64; $len], bool) {
233                 let (mut res, neg) = $name(a, b);
234                 if neg {
235                         negate!(res);
236                 }
237                 (res, neg)
238         }
239 } }
240
241 define_sub!(sub_2, sub_abs_2, 2);
242 define_sub!(sub_3, sub_abs_3, 3);
243 define_sub!(sub_4, sub_abs_4, 4);
244 define_sub!(sub_6, sub_abs_6, 6);
245 define_sub!(sub_8, sub_abs_8, 8);
246 define_sub!(sub_12, sub_abs_12, 12);
247 define_sub!(sub_16, sub_abs_16, 16);
248 define_sub!(sub_32, sub_abs_32, 32);
249 define_sub!(sub_64, sub_abs_64, 64);
250 define_sub!(sub_128, sub_abs_128, 128);
251
252 /// Multiplies two 128-bit integers together, returning a new 256-bit integer.
253 ///
254 /// This is the base case for our multiplication, taking advantage of Rust's native 128-bit int
255 /// types to do multiplication (potentially) natively.
256 const fn mul_2(a: &[u64], b: &[u64]) -> [u64; 4] {
257         debug_assert!(a.len() == 2);
258         debug_assert!(b.len() == 2);
259
260         // Gradeschool multiplication is way faster here.
261         let (a0, a1) = (a[0] as u128, a[1] as u128);
262         let (b0, b1) = (b[0] as u128, b[1] as u128);
263         let z2 = a0 * b0;
264         let z1i = a0 * b1;
265         let z1j = b0 * a1;
266         let (z1, i_carry) = z1i.overflowing_add(z1j);
267         let z0 = a1 * b1;
268
269         let z2a = ((z2 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
270         let z1a = ((z1 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
271         let z0a = ((z0 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
272         let z2b = (z2 & 0xffff_ffff_ffff_ffff) as u64;
273         let z1b = (z1 & 0xffff_ffff_ffff_ffff) as u64;
274         let z0b = (z0 & 0xffff_ffff_ffff_ffff) as u64;
275
276         let l = z0b;
277         let (k, j_carry) = z0a.overflowing_add(z1b);
278         let (mut j, mut second_i_carry) = z1a.overflowing_add(z2b);
279
280         let new_i_carry;
281         (j, new_i_carry) = j.overflowing_add(j_carry as u64);
282         debug_assert!(!second_i_carry || !new_i_carry);
283         second_i_carry |= new_i_carry;
284
285         let mut i = z2a;
286         let mut spurious_overflow;
287         (i, spurious_overflow) = i.overflowing_add(i_carry as u64);
288         debug_assert!(!spurious_overflow);
289         (i, spurious_overflow) = i.overflowing_add(second_i_carry as u64);
290         debug_assert!(!spurious_overflow);
291
292         [i, j, k, l]
293 }
294
295 const fn mul_3(a: &[u64], b: &[u64]) -> [u64; 6] {
296         debug_assert!(a.len() == 3);
297         debug_assert!(b.len() == 3);
298
299         let (a0, a1, a2) = (a[0] as u128, a[1] as u128, a[2] as u128);
300         let (b0, b1, b2) = (b[0] as u128, b[1] as u128, b[2] as u128);
301
302         let m4 = a2 * b2;
303         let m3a = a2 * b1;
304         let m3b = a1 * b2;
305         let m2a = a2 * b0;
306         let m2b = a1 * b1;
307         let m2c = a0 * b2;
308         let m1a = a1 * b0;
309         let m1b = a0 * b1;
310         let m0 = a0 * b0;
311
312         let r5 = ((m4 >> 0) & 0xffff_ffff_ffff_ffff) as u64;
313
314         let r4a = ((m4 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
315         let r4b = ((m3a >> 0) & 0xffff_ffff_ffff_ffff) as u64;
316         let r4c = ((m3b >> 0) & 0xffff_ffff_ffff_ffff) as u64;
317
318         let r3a = ((m3a >> 64) & 0xffff_ffff_ffff_ffff) as u64;
319         let r3b = ((m3b >> 64) & 0xffff_ffff_ffff_ffff) as u64;
320         let r3c = ((m2a >> 0 ) & 0xffff_ffff_ffff_ffff) as u64;
321         let r3d = ((m2b >> 0 ) & 0xffff_ffff_ffff_ffff) as u64;
322         let r3e = ((m2c >> 0 ) & 0xffff_ffff_ffff_ffff) as u64;
323
324         let r2a = ((m2a >> 64) & 0xffff_ffff_ffff_ffff) as u64;
325         let r2b = ((m2b >> 64) & 0xffff_ffff_ffff_ffff) as u64;
326         let r2c = ((m2c >> 64) & 0xffff_ffff_ffff_ffff) as u64;
327         let r2d = ((m1a >> 0 ) & 0xffff_ffff_ffff_ffff) as u64;
328         let r2e = ((m1b >> 0 ) & 0xffff_ffff_ffff_ffff) as u64;
329
330         let r1a = ((m1a >> 64) & 0xffff_ffff_ffff_ffff) as u64;
331         let r1b = ((m1b >> 64) & 0xffff_ffff_ffff_ffff) as u64;
332         let r1c = ((m0  >> 0 ) & 0xffff_ffff_ffff_ffff) as u64;
333
334         let r0a = ((m0  >> 64) & 0xffff_ffff_ffff_ffff) as u64;
335
336         let (r4, r3_ca) = r4a.overflowing_add(r4b);
337         let (r4, r3_cb) = r4.overflowing_add(r4c);
338         let r3_c = r3_ca as u64 + r3_cb as u64;
339
340         let (r3, r2_ca) = r3a.overflowing_add(r3b);
341         let (r3, r2_cb) = r3.overflowing_add(r3c);
342         let (r3, r2_cc) = r3.overflowing_add(r3d);
343         let (r3, r2_cd) = r3.overflowing_add(r3e);
344         let (r3, r2_ce) = r3.overflowing_add(r3_c);
345         let r2_c = r2_ca as u64 + r2_cb as u64 + r2_cc as u64 + r2_cd as u64 + r2_ce as u64;
346
347         let (r2, r1_ca) = r2a.overflowing_add(r2b);
348         let (r2, r1_cb) = r2.overflowing_add(r2c);
349         let (r2, r1_cc) = r2.overflowing_add(r2d);
350         let (r2, r1_cd) = r2.overflowing_add(r2e);
351         let (r2, r1_ce) = r2.overflowing_add(r2_c);
352         let r1_c = r1_ca as u64 + r1_cb as u64 + r1_cc as u64 + r1_cd as u64 + r1_ce as u64;
353
354         let (r1, r0_ca) = r1a.overflowing_add(r1b);
355         let (r1, r0_cb) = r1.overflowing_add(r1c);
356         let (r1, r0_cc) = r1.overflowing_add(r1_c);
357         let r0_c = r0_ca as u64 + r0_cb as u64 + r0_cc as u64;
358
359         let (r0, must_not_overflow) = r0a.overflowing_add(r0_c);
360         debug_assert!(!must_not_overflow);
361
362         [r0, r1, r2, r3, r4, r5]
363 }
364
365 macro_rules! define_mul { ($name: ident, $len: expr, $submul: ident, $add: ident, $subadd: ident, $sub: ident, $subsub: ident) => {
366         /// Multiplies two $len-64-bit integers together, returning a new $len*2-64-bit integer.
367         const fn $name(a: &[u64], b: &[u64]) -> [u64; $len * 2] {
368                 // We could probably get a bit faster doing gradeschool multiplication for some smaller
369                 // sizes, but its easier to just have one variable-length multiplication, so we do
370                 // Karatsuba always here.
371                 debug_assert!(a.len() == $len);
372                 debug_assert!(b.len() == $len);
373
374                 let a0 = const_subslice(a, 0, $len / 2);
375                 let a1 = const_subslice(a, $len / 2, $len);
376                 let b0 = const_subslice(b, 0, $len / 2);
377                 let b1 = const_subslice(b, $len / 2, $len);
378
379                 let z2 = $submul(a0, b0);
380                 let z0 = $submul(a1, b1);
381
382                 let (z1a_max, z1a_min, z1a_sign) =
383                         if slice_greater_than(&a1, &a0) { (a1, a0, true) } else { (a0, a1, false) };
384                 let (z1b_max, z1b_min, z1b_sign) =
385                         if slice_greater_than(&b1, &b0) { (b1, b0, true) } else { (b0, b1, false) };
386
387                 let z1a = $subsub(z1a_max, z1a_min);
388                 debug_assert!(!z1a.1);
389                 let z1b = $subsub(z1b_max, z1b_min);
390                 debug_assert!(!z1b.1);
391                 let z1m_sign = z1a_sign == z1b_sign;
392
393                 let z1m = $submul(&z1a.0, &z1b.0);
394                 let z1n = $add(&z0, &z2);
395                 let mut z1_carry = z1n.1;
396                 let z1 = if z1m_sign {
397                         let r = $sub(&z1n.0, &z1m);
398                         if r.1 { z1_carry ^= true; }
399                         r.0
400                 } else {
401                         let r = $add(&z1n.0, &z1m);
402                         if r.1 { z1_carry = true; }
403                         r.0
404                 };
405
406                 let l = const_subslice(&z0, $len / 2, $len);
407                 let (k, j_carry) = $subadd(const_subslice(&z0, 0, $len / 2), const_subslice(&z1, $len / 2, $len));
408                 let (mut j, mut i_carry) = $subadd(const_subslice(&z1, 0, $len / 2), const_subslice(&z2, $len / 2, $len));
409                 if j_carry {
410                         let new_i_carry = add_u64!(j, 1);
411                         debug_assert!(!i_carry || !new_i_carry);
412                         i_carry |= new_i_carry;
413                 }
414                 let mut i = [0; $len / 2];
415                 let i_source = const_subslice(&z2, 0, $len / 2);
416                 copy_from_slice!(i, 0, $len / 2, i_source);
417                 if i_carry {
418                         let spurious_carry = add_u64!(i, 1);
419                         debug_assert!(!spurious_carry);
420                 }
421                 if z1_carry {
422                         let spurious_carry = add_u64!(i, 1);
423                         debug_assert!(!spurious_carry);
424                 }
425
426                 let mut res = [0; $len * 2];
427                 copy_from_slice!(res, $len * 2 * 0 / 4, $len * 2 * 1 / 4, i);
428                 copy_from_slice!(res, $len * 2 * 1 / 4, $len * 2 * 2 / 4, j);
429                 copy_from_slice!(res, $len * 2 * 2 / 4, $len * 2 * 3 / 4, k);
430                 copy_from_slice!(res, $len * 2 * 3 / 4, $len * 2 * 4 / 4, l);
431                 res
432         }
433 } }
434
435 define_mul!(mul_4, 4, mul_2, add_4, add_2, sub_4, sub_2);
436 define_mul!(mul_6, 6, mul_3, add_6, add_3, sub_6, sub_3);
437 define_mul!(mul_8, 8, mul_4, add_8, add_4, sub_8, sub_4);
438 define_mul!(mul_16, 16, mul_8, add_16, add_8, sub_16, sub_8);
439 define_mul!(mul_32, 32, mul_16, add_32, add_16, sub_32, sub_16);
440 define_mul!(mul_64, 64, mul_32, add_64, add_32, sub_64, sub_32);
441
442
443 /// Squares a 128-bit integer, returning a new 256-bit integer.
444 ///
445 /// This is the base case for our squaring, taking advantage of Rust's native 128-bit int
446 /// types to do multiplication (potentially) natively.
447 const fn sqr_2(a: &[u64]) -> [u64; 4] {
448         debug_assert!(a.len() == 2);
449
450         let (a0, a1) = (a[0] as u128, a[1] as u128);
451         let z2 = a0 * a0;
452         let mut z1 = a0 * a1;
453         let i_carry = z1 & (1u128 << 127) != 0;
454         z1 <<= 1;
455         let z0 = a1 * a1;
456
457         let z2a = ((z2 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
458         let z1a = ((z1 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
459         let z0a = ((z0 >> 64) & 0xffff_ffff_ffff_ffff) as u64;
460         let z2b = (z2 & 0xffff_ffff_ffff_ffff) as u64;
461         let z1b = (z1 & 0xffff_ffff_ffff_ffff) as u64;
462         let z0b = (z0 & 0xffff_ffff_ffff_ffff) as u64;
463
464         let l = z0b;
465         let (k, j_carry) = z0a.overflowing_add(z1b);
466         let (mut j, mut second_i_carry) = z1a.overflowing_add(z2b);
467
468         let new_i_carry;
469         (j, new_i_carry) = j.overflowing_add(j_carry as u64);
470         debug_assert!(!second_i_carry || !new_i_carry);
471         second_i_carry |= new_i_carry;
472
473         let mut i = z2a;
474         let mut spurious_overflow;
475         (i, spurious_overflow) = i.overflowing_add(i_carry as u64);
476         debug_assert!(!spurious_overflow);
477         (i, spurious_overflow) = i.overflowing_add(second_i_carry as u64);
478         debug_assert!(!spurious_overflow);
479
480         [i, j, k, l]
481 }
482
483 macro_rules! define_sqr { ($name: ident, $len: expr, $submul: ident, $subsqr: ident, $subadd: ident) => {
484         /// Squares a $len-64-bit integers, returning a new $len*2-64-bit integer.
485         const fn $name(a: &[u64]) -> [u64; $len * 2] {
486                 debug_assert!(a.len() == $len);
487
488                 let hi = const_subslice(a, 0, $len / 2);
489                 let lo = const_subslice(a, $len / 2, $len);
490
491                 let v0 = $subsqr(lo);
492                 let mut v1 = $submul(hi, lo);
493                 let i_carry  = double!(v1);
494                 let v2 = $subsqr(hi);
495
496                 let l = const_subslice(&v0, $len / 2, $len);
497                 let (k, j_carry) = $subadd(const_subslice(&v0, 0, $len / 2), const_subslice(&v1, $len / 2, $len));
498                 let (mut j, mut i_carry_2) = $subadd(const_subslice(&v1, 0, $len / 2), const_subslice(&v2, $len / 2, $len));
499
500                 let mut i = [0; $len / 2];
501                 let i_source = const_subslice(&v2, 0, $len / 2);
502                 copy_from_slice!(i, 0, $len / 2, i_source);
503
504                 if j_carry {
505                         let new_i_carry = add_u64!(j, 1);
506                         debug_assert!(!i_carry_2 || !new_i_carry);
507                         i_carry_2 |= new_i_carry;
508                 }
509                 if i_carry {
510                         let spurious_carry = add_u64!(i, 1);
511                         debug_assert!(!spurious_carry);
512                 }
513                 if i_carry_2 {
514                         let spurious_carry = add_u64!(i, 1);
515                         debug_assert!(!spurious_carry);
516                 }
517
518                 let mut res = [0; $len * 2];
519                 copy_from_slice!(res, $len * 2 * 0 / 4, $len * 2 * 1 / 4, i);
520                 copy_from_slice!(res, $len * 2 * 1 / 4, $len * 2 * 2 / 4, j);
521                 copy_from_slice!(res, $len * 2 * 2 / 4, $len * 2 * 3 / 4, k);
522                 copy_from_slice!(res, $len * 2 * 3 / 4, $len * 2 * 4 / 4, l);
523                 res
524         }
525 } }
526
527 // TODO: Write an optimized sqr_3 (though secp384r1 is barely used)
528 const fn sqr_3(a: &[u64]) -> [u64; 6] { mul_3(a, a) }
529
530 define_sqr!(sqr_4, 4, mul_2, sqr_2, add_2);
531 define_sqr!(sqr_6, 6, mul_3, sqr_3, add_3);
532 define_sqr!(sqr_8, 8, mul_4, sqr_4, add_4);
533 define_sqr!(sqr_16, 16, mul_8, sqr_8, add_8);
534 define_sqr!(sqr_32, 32, mul_16, sqr_16, add_16);
535 define_sqr!(sqr_64, 64, mul_32, sqr_32, add_32);
536
537 macro_rules! dummy_pre_push { ($name: ident, $len: expr) => {} }
538 macro_rules! vec_pre_push { ($name: ident, $len: expr) => { $name.push([0; $len]); } }
539
540 macro_rules! define_div_rem { ($name: ident, $len: expr, $sub: ident, $heap_init: expr, $pre_push: ident $(, $const_opt: tt)?) => {
541         /// Divides two $len-64-bit integers, `a` by `b`, returning the quotient and remainder
542         ///
543         /// Fails iff `b` is zero.
544         $($const_opt)? fn $name(a: &[u64; $len], b: &[u64; $len]) -> Result<([u64; $len], [u64; $len]), ()> {
545                 if slice_equal(b, &[0; $len]) { return Err(()); }
546
547                 let mut b_pow = *b;
548                 let mut pow2s = $heap_init;
549                 let mut pow2s_count = 0;
550                 while slice_greater_than(a, &b_pow) {
551                         $pre_push!(pow2s, $len);
552                         pow2s[pow2s_count] = b_pow;
553                         pow2s_count += 1;
554                         let double_overflow = double!(b_pow);
555                         if double_overflow { break; }
556                 }
557                 let mut quot = [0; $len];
558                 let mut rem = *a;
559                 let mut pow2 = pow2s_count as isize - 1;
560                 while pow2 >= 0 {
561                         let b_pow = pow2s[pow2 as usize];
562                         let overflow = double!(quot);
563                         debug_assert!(!overflow);
564                         if slice_greater_than(&rem, &b_pow) {
565                                 let (r, carry) = $sub(&rem, &b_pow);
566                                 debug_assert!(!carry);
567                                 rem = r;
568                                 quot[$len - 1] |= 1;
569                         }
570                         pow2 -= 1;
571                 }
572                 if slice_equal(&rem, b) {
573                         let overflow = add_u64!(quot, 1);
574                         debug_assert!(!overflow);
575                         Ok((quot, [0; $len]))
576                 } else {
577                         Ok((quot, rem))
578                 }
579         }
580 } }
581
582 #[cfg(fuzzing)]
583 define_div_rem!(div_rem_2, 2, sub_2, [[0; 2]; 2 * 64], dummy_pre_push, const);
584 define_div_rem!(div_rem_4, 4, sub_4, [[0; 4]; 4 * 64], dummy_pre_push, const); // Uses 8 KiB of stack
585 define_div_rem!(div_rem_6, 6, sub_6, [[0; 6]; 6 * 64], dummy_pre_push, const); // Uses 18 KiB of stack!
586 #[cfg(debug_assertions)]
587 define_div_rem!(div_rem_8, 8, sub_8, [[0; 8]; 8 * 64], dummy_pre_push, const); // Uses 32 KiB of stack!
588 #[cfg(debug_assertions)]
589 define_div_rem!(div_rem_12, 12, sub_12, [[0; 12]; 12 * 64], dummy_pre_push, const); // Uses 72 KiB of stack!
590 define_div_rem!(div_rem_64, 64, sub_64, Vec::new(), vec_pre_push); // Uses up to 2 MiB of heap
591 #[cfg(debug_assertions)]
592 define_div_rem!(div_rem_128, 128, sub_128, Vec::new(), vec_pre_push); // Uses up to 8 MiB of heap
593
594 macro_rules! define_mod_inv { ($name: ident, $len: expr, $div: ident, $add: ident, $sub_abs: ident, $mul: ident) => {
595         /// Calculates the modular inverse of a $len-64-bit number with respect to the given modulus,
596         /// if one exists.
597         const fn $name(a: &[u64; $len], m: &[u64; $len]) -> Result<[u64; $len], ()> {
598                 if slice_equal(a, &[0; $len]) || slice_equal(m, &[0; $len]) { return Err(()); }
599
600                 let (mut s, mut old_s) = ([0; $len], [0; $len]);
601                 old_s[$len - 1] = 1;
602                 let mut r = *m;
603                 let mut old_r = *a;
604
605                 let (mut old_s_neg, mut s_neg) = (false, false);
606
607                 while !slice_equal(&r, &[0; $len]) {
608                         let (quot, new_r) = debug_unwrap!($div(&old_r, &r));
609
610                         let new_sa = $mul(&quot, &s);
611                         debug_assert!(slice_equal(const_subslice(&new_sa, 0, $len), &[0; $len]), "S overflowed");
612                         let (new_s, new_s_neg) = match (old_s_neg, s_neg) {
613                                 (true, true) => {
614                                         let (new_s, overflow) = $add(&old_s, const_subslice(&new_sa, $len, new_sa.len()));
615                                         debug_assert!(!overflow);
616                                         (new_s, true)
617                                 }
618                                 (false, true) => {
619                                         let (new_s, overflow) = $add(&old_s, const_subslice(&new_sa, $len, new_sa.len()));
620                                         debug_assert!(!overflow);
621                                         (new_s, false)
622                                 },
623                                 (true, false) => {
624                                         let (new_s, overflow) = $add(&old_s, const_subslice(&new_sa, $len, new_sa.len()));
625                                         debug_assert!(!overflow);
626                                         (new_s, true)
627                                 },
628                                 (false, false) => $sub_abs(&old_s, const_subslice(&new_sa, $len, new_sa.len())),
629                         };
630
631                         old_r = r;
632                         r = new_r;
633
634                         old_s = s;
635                         old_s_neg = s_neg;
636                         s = new_s;
637                         s_neg = new_s_neg;
638                 }
639
640                 // At this point old_r contains our GCD and old_s our first Bézout's identity coefficient.
641                 if !slice_equal(const_subslice(&old_r, 0, $len - 1), &[0; $len - 1]) || old_r[$len - 1] != 1 {
642                         Err(())
643                 } else {
644                         debug_assert!(slice_greater_than(m, &old_s));
645                         if old_s_neg {
646                                 let (modinv, underflow) = $sub_abs(m, &old_s);
647                                 debug_assert!(!underflow);
648                                 debug_assert!(slice_greater_than(m, &modinv));
649                                 Ok(modinv)
650                         } else {
651                                 Ok(old_s)
652                         }
653                 }
654         }
655 } }
656 #[cfg(fuzzing)]
657 define_mod_inv!(mod_inv_2, 2, div_rem_2, add_2, sub_abs_2, mul_2);
658 define_mod_inv!(mod_inv_4, 4, div_rem_4, add_4, sub_abs_4, mul_4);
659 define_mod_inv!(mod_inv_6, 6, div_rem_6, add_6, sub_abs_6, mul_6);
660 #[cfg(fuzzing)]
661 define_mod_inv!(mod_inv_8, 8, div_rem_8, add_8, sub_abs_8, mul_8);
662
663 impl U4096 {
664         /// Constructs a new [`U4096`] from a variable number of big-endian bytes.
665         pub(super) fn from_be_bytes(bytes: &[u8]) -> Result<U4096, ()> {
666                 if bytes.len() > 4096/8 { return Err(()); }
667                 let u64s = (bytes.len() + 7) / 8;
668                 let mut res = [0; WORD_COUNT_4096];
669                 for i in 0..u64s {
670                         let mut b = [0; 8];
671                         let pos = (u64s - i) * 8;
672                         let start = bytes.len().saturating_sub(pos);
673                         let end = bytes.len() + 8 - pos;
674                         b[8 + start - end..].copy_from_slice(&bytes[start..end]);
675                         res[i + WORD_COUNT_4096 - u64s] = u64::from_be_bytes(b);
676                 }
677                 Ok(U4096(res))
678         }
679
680         /// Naively multiplies `self` * `b` mod `m`, returning a new [`U4096`].
681         ///
682         /// Fails iff m is 0 or self or b are greater than m.
683         #[cfg(debug_assertions)]
684         fn mulmod_naive(&self, b: &U4096, m: &U4096) -> Result<U4096, ()> {
685                 if m.0 == [0; WORD_COUNT_4096] { return Err(()); }
686                 if self > m || b > m { return Err(()); }
687
688                 let mul = mul_64(&self.0, &b.0);
689
690                 let mut m_zeros = [0; 128];
691                 m_zeros[WORD_COUNT_4096..].copy_from_slice(&m.0);
692                 let (_, rem) = div_rem_128(&mul, &m_zeros)?;
693                 let mut res = [0; WORD_COUNT_4096];
694                 debug_assert_eq!(&rem[..WORD_COUNT_4096], &[0; WORD_COUNT_4096]);
695                 res.copy_from_slice(&rem[WORD_COUNT_4096..]);
696                 Ok(U4096(res))
697         }
698
699         /// Calculates `self` ^ `exp` mod `m`, returning a new [`U4096`].
700         ///
701         /// Fails iff m is 0, even, or self or b are greater than m.
702         pub(super) fn expmod_odd_mod(&self, mut exp: u32, m: &U4096) -> Result<U4096, ()> {
703                 #![allow(non_camel_case_types)]
704
705                 if m.0 == [0; WORD_COUNT_4096] { return Err(()); }
706                 if m.0[WORD_COUNT_4096 - 1] & 1 == 0 { return Err(()); }
707                 if self > m { return Err(()); }
708
709                 let mut t = [0; WORD_COUNT_4096];
710                 if &m.0[..WORD_COUNT_4096 - 1] == &[0; WORD_COUNT_4096 - 1] && m.0[WORD_COUNT_4096 - 1] == 1 {
711                         return Ok(U4096(t));
712                 }
713                 t[WORD_COUNT_4096 - 1] = 1;
714                 if exp == 0 { return Ok(U4096(t)); }
715
716                 // Because m is not even, using 2^4096 as the Montgomery R value is always safe - it is
717                 // guaranteed to be co-prime with any non-even integer.
718
719                 type mul_ty = fn(&[u64], &[u64]) -> [u64; WORD_COUNT_4096 * 2];
720                 type sqr_ty = fn(&[u64]) -> [u64; WORD_COUNT_4096 * 2];
721                 type add_double_ty = fn(&[u64], &[u64]) -> ([u64; WORD_COUNT_4096 * 2], bool);
722                 type sub_ty = fn(&[u64], &[u64]) -> ([u64; WORD_COUNT_4096], bool);
723                 let (word_count, log_bits, mul, sqr, add_double, sub) =
724                         if m.0[..WORD_COUNT_4096 / 2] == [0; WORD_COUNT_4096 / 2] {
725                                 if m.0[..WORD_COUNT_4096 * 3 / 4] == [0; WORD_COUNT_4096 * 3 / 4] {
726                                         fn mul_16_subarr(a: &[u64], b: &[u64]) -> [u64; WORD_COUNT_4096 * 2] {
727                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096);
728                                                 debug_assert_eq!(b.len(), WORD_COUNT_4096);
729                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 * 3 / 4], &[0; WORD_COUNT_4096 * 3 / 4]);
730                                                 debug_assert_eq!(&b[..WORD_COUNT_4096 * 3 / 4], &[0; WORD_COUNT_4096 * 3 / 4]);
731                                                 let mut res = [0; WORD_COUNT_4096 * 2];
732                                                 res[WORD_COUNT_4096 + WORD_COUNT_4096 / 2..].copy_from_slice(
733                                                         &mul_16(&a[WORD_COUNT_4096 * 3 / 4..], &b[WORD_COUNT_4096 * 3 / 4..]));
734                                                 res
735                                         }
736                                         fn sqr_16_subarr(a: &[u64]) -> [u64; WORD_COUNT_4096 * 2] {
737                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096);
738                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 * 3 / 4], &[0; WORD_COUNT_4096 * 3 / 4]);
739                                                 let mut res = [0; WORD_COUNT_4096 * 2];
740                                                 res[WORD_COUNT_4096 + WORD_COUNT_4096 / 2..].copy_from_slice(
741                                                         &sqr_16(&a[WORD_COUNT_4096 * 3 / 4..]));
742                                                 res
743                                         }
744                                         fn add_32_subarr(a: &[u64], b: &[u64]) -> ([u64; WORD_COUNT_4096 * 2], bool) {
745                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096 * 2);
746                                                 debug_assert_eq!(b.len(), WORD_COUNT_4096 * 2);
747                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 * 3 / 2], &[0; WORD_COUNT_4096 * 3 / 2]);
748                                                 debug_assert_eq!(&b[..WORD_COUNT_4096 * 3 / 2], &[0; WORD_COUNT_4096 * 3 / 2]);
749                                                 let (add, overflow) = add_32(&a[WORD_COUNT_4096 * 3 / 2..], &b[WORD_COUNT_4096 * 3 / 2..]);
750                                                 let mut res = [0; WORD_COUNT_4096 * 2];
751                                                 res[WORD_COUNT_4096 * 3 / 2..].copy_from_slice(&add);
752                                                 (res, overflow)
753                                         }
754                                         fn sub_16_subarr(a: &[u64], b: &[u64]) -> ([u64; WORD_COUNT_4096], bool) {
755                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096);
756                                                 debug_assert_eq!(b.len(), WORD_COUNT_4096);
757                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 * 3 / 4], &[0; WORD_COUNT_4096 * 3 / 4]);
758                                                 debug_assert_eq!(&b[..WORD_COUNT_4096 * 3 / 4], &[0; WORD_COUNT_4096 * 3 / 4]);
759                                                 let (sub, underflow) = sub_16(&a[WORD_COUNT_4096 * 3 / 4..], &b[WORD_COUNT_4096 * 3 / 4..]);
760                                                 let mut res = [0; WORD_COUNT_4096];
761                                                 res[WORD_COUNT_4096 * 3 / 4..].copy_from_slice(&sub);
762                                                 (res, underflow)
763                                         }
764                                         (16, 10, mul_16_subarr as mul_ty, sqr_16_subarr as sqr_ty, add_32_subarr as add_double_ty, sub_16_subarr as sub_ty)
765                                 } else {
766                                         fn mul_32_subarr(a: &[u64], b: &[u64]) -> [u64; WORD_COUNT_4096 * 2] {
767                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096);
768                                                 debug_assert_eq!(b.len(), WORD_COUNT_4096);
769                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 / 2], &[0; WORD_COUNT_4096 / 2]);
770                                                 debug_assert_eq!(&b[..WORD_COUNT_4096 / 2], &[0; WORD_COUNT_4096 / 2]);
771                                                 let mut res = [0; WORD_COUNT_4096 * 2];
772                                                 res[WORD_COUNT_4096..].copy_from_slice(
773                                                         &mul_32(&a[WORD_COUNT_4096 / 2..], &b[WORD_COUNT_4096 / 2..]));
774                                                 res
775                                         }
776                                         fn sqr_32_subarr(a: &[u64]) -> [u64; WORD_COUNT_4096 * 2] {
777                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096);
778                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 / 2], &[0; WORD_COUNT_4096 / 2]);
779                                                 let mut res = [0; WORD_COUNT_4096 * 2];
780                                                 res[WORD_COUNT_4096..].copy_from_slice(
781                                                         &sqr_32(&a[WORD_COUNT_4096 / 2..]));
782                                                 res
783                                         }
784                                         fn add_64_subarr(a: &[u64], b: &[u64]) -> ([u64; WORD_COUNT_4096 * 2], bool) {
785                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096 * 2);
786                                                 debug_assert_eq!(b.len(), WORD_COUNT_4096 * 2);
787                                                 debug_assert_eq!(&a[..WORD_COUNT_4096], &[0; WORD_COUNT_4096]);
788                                                 debug_assert_eq!(&b[..WORD_COUNT_4096], &[0; WORD_COUNT_4096]);
789                                                 let (add, overflow) = add_64(&a[WORD_COUNT_4096..], &b[WORD_COUNT_4096..]);
790                                                 let mut res = [0; WORD_COUNT_4096 * 2];
791                                                 res[WORD_COUNT_4096..].copy_from_slice(&add);
792                                                 (res, overflow)
793                                         }
794                                         fn sub_32_subarr(a: &[u64], b: &[u64]) -> ([u64; WORD_COUNT_4096], bool) {
795                                                 debug_assert_eq!(a.len(), WORD_COUNT_4096);
796                                                 debug_assert_eq!(b.len(), WORD_COUNT_4096);
797                                                 debug_assert_eq!(&a[..WORD_COUNT_4096 / 2], &[0; WORD_COUNT_4096 / 2]);
798                                                 debug_assert_eq!(&b[..WORD_COUNT_4096 / 2], &[0; WORD_COUNT_4096 / 2]);
799                                                 let (sub, underflow) = sub_32(&a[WORD_COUNT_4096 / 2..], &b[WORD_COUNT_4096 / 2..]);
800                                                 let mut res = [0; WORD_COUNT_4096];
801                                                 res[WORD_COUNT_4096 / 2..].copy_from_slice(&sub);
802                                                 (res, underflow)
803                                         }
804                                         (32, 11, mul_32_subarr as mul_ty, sqr_32_subarr as sqr_ty, add_64_subarr as add_double_ty, sub_32_subarr as sub_ty)
805                                 }
806                         } else {
807                                 (64, 12, mul_64 as mul_ty, sqr_64 as sqr_ty, add_128 as add_double_ty, sub_64 as sub_ty)
808                         };
809
810                 let mut r = [0; WORD_COUNT_4096 * 2];
811                 r[WORD_COUNT_4096 * 2 - word_count - 1] = 1;
812
813                 let mut m_inv_pos = [0; WORD_COUNT_4096];
814                 m_inv_pos[WORD_COUNT_4096 - 1] = 1;
815                 let mut two = [0; WORD_COUNT_4096];
816                 two[WORD_COUNT_4096 - 1] = 2;
817                 for _ in 0..log_bits {
818                         let mut m_m_inv = mul(&m_inv_pos, &m.0);
819                         m_m_inv[..WORD_COUNT_4096 * 2 - word_count].fill(0);
820                         let m_inv = mul(&sub(&two, &m_m_inv[WORD_COUNT_4096..]).0, &m_inv_pos);
821                         m_inv_pos[WORD_COUNT_4096 - word_count..].copy_from_slice(&m_inv[WORD_COUNT_4096 * 2 - word_count..]);
822                 }
823                 m_inv_pos[..WORD_COUNT_4096 - word_count].fill(0);
824
825                 // We want the negative modular inverse of m mod R, so subtract m_inv from R.
826                 let mut m_inv = m_inv_pos;
827                 negate!(m_inv);
828                 m_inv[..WORD_COUNT_4096 - word_count].fill(0);
829                 debug_assert_eq!(&mul(&m_inv, &m.0)[WORD_COUNT_4096 * 2 - word_count..],
830                         // R - 1 == -1 % R
831                         &[0xffff_ffff_ffff_ffff; WORD_COUNT_4096][WORD_COUNT_4096 - word_count..]);
832
833                 debug_assert_eq!(&m_inv[..WORD_COUNT_4096 - word_count], &[0; WORD_COUNT_4096][..WORD_COUNT_4096 - word_count]);
834
835                 let mont_reduction = |mu: [u64; WORD_COUNT_4096 * 2]| -> [u64; WORD_COUNT_4096] {
836                         debug_assert_eq!(&mu[..WORD_COUNT_4096 * 2 - word_count * 2],
837                                 &[0; WORD_COUNT_4096 * 2][..WORD_COUNT_4096 * 2 - word_count * 2]);
838                         let mut mu_mod_r = [0; WORD_COUNT_4096];
839                         mu_mod_r[WORD_COUNT_4096 - word_count..].copy_from_slice(&mu[WORD_COUNT_4096 * 2 - word_count..]);
840                         let mut v = mul(&mu_mod_r, &m_inv);
841                         v[..WORD_COUNT_4096 * 2 - word_count].fill(0); // mod R
842                         let t0 = mul(&v[WORD_COUNT_4096..], &m.0);
843                         let (t1, t1_extra_bit) = add_double(&t0, &mu);
844                         let mut t1_on_r = [0; WORD_COUNT_4096];
845                         debug_assert_eq!(&t1[WORD_COUNT_4096 * 2 - word_count..], &[0; WORD_COUNT_4096][WORD_COUNT_4096 - word_count..],
846                                 "t1 should be divisible by r");
847                         t1_on_r[WORD_COUNT_4096 - word_count..].copy_from_slice(&t1[WORD_COUNT_4096 * 2 - word_count * 2..WORD_COUNT_4096 * 2 - word_count]);
848                         if t1_extra_bit || t1_on_r >= m.0 {
849                                 let underflow;
850                                 (t1_on_r, underflow) = sub(&t1_on_r, &m.0);
851                                 debug_assert_eq!(t1_extra_bit, underflow);
852                         }
853                         t1_on_r
854                 };
855
856                 // Calculate R^2 mod m as ((2^DOUBLES * R) mod m)^(log_bits - LOG2_DOUBLES) mod R
857                 let mut r_minus_one = [0xffff_ffff_ffff_ffffu64; WORD_COUNT_4096];
858                 r_minus_one[..WORD_COUNT_4096 - word_count].fill(0);
859                 // While we do a full div here, in general R should be less than 2x m (assuming the RSA
860                 // modulus used its full bit range and is 1024, 2048, or 4096 bits), so it should be cheap.
861                 // In cases with a nonstandard RSA modulus we may end up being pretty slow here, but we'll
862                 // survive.
863                 // If we ever find a problem with this we should reduce R to be tigher on m, as we're
864                 // wasting extra bits of calculation if R is too far from m.
865                 let (_, mut r_mod_m) = debug_unwrap!(div_rem_64(&r_minus_one, &m.0));
866                 let r_mod_m_overflow = add_u64!(r_mod_m, 1);
867                 if r_mod_m_overflow || r_mod_m >= m.0 {
868                         (r_mod_m, _) = sub_64(&r_mod_m, &m.0);
869                 }
870
871                 let mut r2_mod_m: [u64; 64] = r_mod_m;
872                 const DOUBLES: usize = 32;
873                 const LOG2_DOUBLES: usize = 5;
874
875                 for _ in 0..DOUBLES {
876                         let overflow = double!(r2_mod_m);
877                         if overflow || r2_mod_m > m.0 {
878                                 (r2_mod_m, _) = sub_64(&r2_mod_m, &m.0);
879                         }
880                 }
881                 for _ in 0..log_bits - LOG2_DOUBLES {
882                         r2_mod_m = mont_reduction(sqr(&r2_mod_m));
883                 }
884                 // Clear excess high bits
885                 for (m_limb, r2_limb) in m.0.iter().zip(r2_mod_m.iter_mut()) {
886                         let clear_bits = m_limb.leading_zeros();
887                         if clear_bits == 0 { break; }
888                         *r2_limb &= !(0xffff_ffff_ffff_ffffu64 << (64 - clear_bits));
889                         if *m_limb != 0 { break; }
890                 }
891                 debug_assert!(r2_mod_m < m.0);
892
893                 // Calculate t * R and a * R as mont multiplications by R^2 mod m
894                 let mut tr = mont_reduction(mul(&r2_mod_m, &t));
895                 let mut ar = mont_reduction(mul(&r2_mod_m, &self.0));
896
897                 #[cfg(debug_assertions)] {
898                         debug_assert_eq!(r2_mod_m, U4096(r_mod_m).mulmod_naive(&U4096(r_mod_m), &m).unwrap().0);
899                         debug_assert_eq!(&tr, &U4096(t).mulmod_naive(&U4096(r_mod_m), &m).unwrap().0);
900                         debug_assert_eq!(&ar, &self.mulmod_naive(&U4096(r_mod_m), &m).unwrap().0);
901                 }
902
903                 while exp != 1 {
904                         if exp % 2 == 1 {
905                                 tr = mont_reduction(mul(&tr, &ar));
906                                 exp -= 1;
907                         }
908                         ar = mont_reduction(sqr(&ar));
909                         exp /= 2;
910                 }
911                 ar = mont_reduction(mul(&ar, &tr));
912                 let mut resr = [0; WORD_COUNT_4096 * 2];
913                 resr[WORD_COUNT_4096..].copy_from_slice(&ar);
914                 Ok(U4096(mont_reduction(resr)))
915         }
916 }
917
918 const fn u64_from_bytes_a_panicking(b: &[u8]) -> u64 {
919         match b {
920                 [a, b, c, d, e, f, g, h, ..] => {
921                         ((*a as u64) << 8*7) |
922                         ((*b as u64) << 8*6) |
923                         ((*c as u64) << 8*5) |
924                         ((*d as u64) << 8*4) |
925                         ((*e as u64) << 8*3) |
926                         ((*f as u64) << 8*2) |
927                         ((*g as u64) << 8*1) |
928                         ((*h as u64) << 8*0)
929                 },
930                 _ => panic!(),
931         }
932 }
933
934 const fn u64_from_bytes_b_panicking(b: &[u8]) -> u64 {
935         match b {
936                 [_, _, _, _, _, _, _, _,
937                  a, b, c, d, e, f, g, h, ..] => {
938                         ((*a as u64) << 8*7) |
939                         ((*b as u64) << 8*6) |
940                         ((*c as u64) << 8*5) |
941                         ((*d as u64) << 8*4) |
942                         ((*e as u64) << 8*3) |
943                         ((*f as u64) << 8*2) |
944                         ((*g as u64) << 8*1) |
945                         ((*h as u64) << 8*0)
946                 },
947                 _ => panic!(),
948         }
949 }
950
951 const fn u64_from_bytes_c_panicking(b: &[u8]) -> u64 {
952         match b {
953                 [_, _, _, _, _, _, _, _,
954                  _, _, _, _, _, _, _, _,
955                  a, b, c, d, e, f, g, h, ..] => {
956                         ((*a as u64) << 8*7) |
957                         ((*b as u64) << 8*6) |
958                         ((*c as u64) << 8*5) |
959                         ((*d as u64) << 8*4) |
960                         ((*e as u64) << 8*3) |
961                         ((*f as u64) << 8*2) |
962                         ((*g as u64) << 8*1) |
963                         ((*h as u64) << 8*0)
964                 },
965                 _ => panic!(),
966         }
967 }
968
969 const fn u64_from_bytes_d_panicking(b: &[u8]) -> u64 {
970         match b {
971                 [_, _, _, _, _, _, _, _,
972                  _, _, _, _, _, _, _, _,
973                  _, _, _, _, _, _, _, _,
974                  a, b, c, d, e, f, g, h, ..] => {
975                         ((*a as u64) << 8*7) |
976                         ((*b as u64) << 8*6) |
977                         ((*c as u64) << 8*5) |
978                         ((*d as u64) << 8*4) |
979                         ((*e as u64) << 8*3) |
980                         ((*f as u64) << 8*2) |
981                         ((*g as u64) << 8*1) |
982                         ((*h as u64) << 8*0)
983                 },
984                 _ => panic!(),
985         }
986 }
987
988 const fn u64_from_bytes_e_panicking(b: &[u8]) -> u64 {
989         match b {
990                 [_, _, _, _, _, _, _, _,
991                  _, _, _, _, _, _, _, _,
992                  _, _, _, _, _, _, _, _,
993                  _, _, _, _, _, _, _, _,
994                  a, b, c, d, e, f, g, h, ..] => {
995                         ((*a as u64) << 8*7) |
996                         ((*b as u64) << 8*6) |
997                         ((*c as u64) << 8*5) |
998                         ((*d as u64) << 8*4) |
999                         ((*e as u64) << 8*3) |
1000                         ((*f as u64) << 8*2) |
1001                         ((*g as u64) << 8*1) |
1002                         ((*h as u64) << 8*0)
1003                 },
1004                 _ => panic!(),
1005         }
1006 }
1007
1008 const fn u64_from_bytes_f_panicking(b: &[u8]) -> u64 {
1009         match b {
1010                 [_, _, _, _, _, _, _, _,
1011                  _, _, _, _, _, _, _, _,
1012                  _, _, _, _, _, _, _, _,
1013                  _, _, _, _, _, _, _, _,
1014                  _, _, _, _, _, _, _, _,
1015                  a, b, c, d, e, f, g, h, ..] => {
1016                         ((*a as u64) << 8*7) |
1017                         ((*b as u64) << 8*6) |
1018                         ((*c as u64) << 8*5) |
1019                         ((*d as u64) << 8*4) |
1020                         ((*e as u64) << 8*3) |
1021                         ((*f as u64) << 8*2) |
1022                         ((*g as u64) << 8*1) |
1023                         ((*h as u64) << 8*0)
1024                 },
1025                 _ => panic!(),
1026         }
1027 }
1028
1029 impl U256 {
1030         /// Constructs a new [`U256`] from a variable number of big-endian bytes.
1031         pub(super) fn from_be_bytes(bytes: &[u8]) -> Result<U256, ()> {
1032                 if bytes.len() > 256/8 { return Err(()); }
1033                 let u64s = (bytes.len() + 7) / 8;
1034                 let mut res = [0; WORD_COUNT_256];
1035                 for i in 0..u64s {
1036                         let mut b = [0; 8];
1037                         let pos = (u64s - i) * 8;
1038                         let start = bytes.len().saturating_sub(pos);
1039                         let end = bytes.len() + 8 - pos;
1040                         b[8 + start - end..].copy_from_slice(&bytes[start..end]);
1041                         res[i + WORD_COUNT_256 - u64s] = u64::from_be_bytes(b);
1042                 }
1043                 Ok(U256(res))
1044         }
1045
1046         /// Constructs a new [`U256`] from a fixed number of big-endian bytes.
1047         pub(super) const fn from_32_be_bytes_panicking(bytes: &[u8; 32]) -> U256 {
1048                 let res = [
1049                         u64_from_bytes_a_panicking(bytes),
1050                         u64_from_bytes_b_panicking(bytes),
1051                         u64_from_bytes_c_panicking(bytes),
1052                         u64_from_bytes_d_panicking(bytes),
1053                 ];
1054                 U256(res)
1055         }
1056
1057         pub(super) const fn zero() -> U256 { U256([0, 0, 0, 0]) }
1058         pub(super) const fn one() -> U256 { U256([0, 0, 0, 1]) }
1059         pub(super) const fn three() -> U256 { U256([0, 0, 0, 3]) }
1060 }
1061
1062 impl<M: PrimeModulus<U256>> U256Mod<M> {
1063         const fn mont_reduction(mu: [u64; 8]) -> Self {
1064                 #[cfg(debug_assertions)] {
1065                         // Check NEGATIVE_PRIME_INV_MOD_R is correct. Since this is all const, the compiler
1066                         // should be able to do it at compile time alone.
1067                         let minus_one_mod_r = mul_4(&M::PRIME.0, &M::NEGATIVE_PRIME_INV_MOD_R.0);
1068                         assert!(slice_equal(const_subslice(&minus_one_mod_r, 4, 8), &[0xffff_ffff_ffff_ffff; 4]));
1069                 }
1070
1071                 #[cfg(debug_assertions)] {
1072                         // Check R_SQUARED_MOD_PRIME is correct. Since this is all const, the compiler
1073                         // should be able to do it at compile time alone.
1074                         let r_minus_one = [0xffff_ffff_ffff_ffff; 4];
1075                         let (mut r_mod_prime, _) = sub_4(&r_minus_one, &M::PRIME.0);
1076                         add_u64!(r_mod_prime, 1);
1077                         let r_squared = sqr_4(&r_mod_prime);
1078                         let mut prime_extended = [0; 8];
1079                         let prime = M::PRIME.0;
1080                         copy_from_slice!(prime_extended, 4, 8, prime);
1081                         let (_, r_squared_mod_prime) = if let Ok(v) = div_rem_8(&r_squared, &prime_extended) { v } else { panic!() };
1082                         assert!(slice_greater_than(&prime_extended, &r_squared_mod_prime));
1083                         assert!(slice_equal(const_subslice(&r_squared_mod_prime, 4, 8), &M::R_SQUARED_MOD_PRIME.0));
1084                 }
1085
1086                 let mu_mod_r = const_subslice(&mu, 4, 8);
1087                 let mut v = mul_4(&mu_mod_r, &M::NEGATIVE_PRIME_INV_MOD_R.0);
1088                 const ZEROS: &[u64; 4] = &[0; 4];
1089                 copy_from_slice!(v, 0, 4, ZEROS); // mod R
1090                 let t0 = mul_4(const_subslice(&v, 4, 8), &M::PRIME.0);
1091                 let (t1, t1_extra_bit) = add_8(&t0, &mu);
1092                 let t1_on_r = const_subslice(&t1, 0, 4);
1093                 let mut res = [0; 4];
1094                 if t1_extra_bit || slice_greater_than(&t1_on_r, &M::PRIME.0) {
1095                         let underflow;
1096                         (res, underflow) = sub_4(&t1_on_r, &M::PRIME.0);
1097                         debug_assert!(t1_extra_bit == underflow);
1098                 } else {
1099                         copy_from_slice!(res, 0, 4, t1_on_r);
1100                 }
1101                 Self(U256(res), PhantomData)
1102         }
1103
1104         pub(super) const fn from_u256_panicking(v: U256) -> Self {
1105                 assert!(v.0[0] <= M::PRIME.0[0]);
1106                 if v.0[0] == M::PRIME.0[0] {
1107                         assert!(v.0[1] <= M::PRIME.0[1]);
1108                         if v.0[1] == M::PRIME.0[1] {
1109                                 assert!(v.0[2] <= M::PRIME.0[2]);
1110                                 if v.0[2] == M::PRIME.0[2] {
1111                                         assert!(v.0[3] < M::PRIME.0[3]);
1112                                 }
1113                         }
1114                 }
1115                 assert!(M::PRIME.0[0] != 0 || M::PRIME.0[1] != 0 || M::PRIME.0[2] != 0 || M::PRIME.0[3] != 0);
1116                 Self::mont_reduction(mul_4(&M::R_SQUARED_MOD_PRIME.0, &v.0))
1117         }
1118
1119         pub(super) fn from_u256(mut v: U256) -> Self {
1120                 debug_assert!(M::PRIME.0 != [0; 4]);
1121                 debug_assert!(M::PRIME.0[0] > (1 << 63), "PRIME should have the top bit set");
1122                 while v >= M::PRIME {
1123                         let (new_v, spurious_underflow) = sub_4(&v.0, &M::PRIME.0);
1124                         debug_assert!(!spurious_underflow);
1125                         v = U256(new_v);
1126                 }
1127                 Self::mont_reduction(mul_4(&M::R_SQUARED_MOD_PRIME.0, &v.0))
1128         }
1129
1130         pub(super) fn from_modinv_of(v: U256) -> Result<Self, ()> {
1131                 Ok(Self::from_u256(U256(mod_inv_4(&v.0, &M::PRIME.0)?)))
1132         }
1133
1134         /// Multiplies `self` * `b` mod `m`.
1135         ///
1136         /// Panics if `self`'s modulus is not equal to `b`'s
1137         pub(super) fn mul(&self, b: &Self) -> Self {
1138                 Self::mont_reduction(mul_4(&self.0.0, &b.0.0))
1139         }
1140
1141         /// Doubles `self` mod `m`.
1142         pub(super) fn double(&self) -> Self {
1143                 let mut res = self.0.0;
1144                 let overflow = double!(res);
1145                 if overflow || !slice_greater_than(&M::PRIME.0, &res) {
1146                         let underflow;
1147                         (res, underflow) = sub_4(&res, &M::PRIME.0);
1148                         debug_assert_eq!(overflow, underflow);
1149                 }
1150                 Self(U256(res), PhantomData)
1151         }
1152
1153         /// Multiplies `self` by 3 mod `m`.
1154         pub(super) fn times_three(&self) -> Self {
1155                 // TODO: Optimize this a lot
1156                 self.mul(&U256Mod::from_u256(U256::three()))
1157         }
1158
1159         /// Multiplies `self` by 4 mod `m`.
1160         pub(super) fn times_four(&self) -> Self {
1161                 // TODO: Optimize this somewhat?
1162                 self.double().double()
1163         }
1164
1165         /// Multiplies `self` by 8 mod `m`.
1166         pub(super) fn times_eight(&self) -> Self {
1167                 // TODO: Optimize this somewhat?
1168                 self.double().double().double()
1169         }
1170
1171         /// Multiplies `self` by 8 mod `m`.
1172         pub(super) fn square(&self) -> Self {
1173                 Self::mont_reduction(sqr_4(&self.0.0))
1174         }
1175
1176         /// Subtracts `b` from `self` % `m`.
1177         pub(super) fn sub(&self, b: &Self) -> Self {
1178                 let (mut val, underflow) = sub_4(&self.0.0, &b.0.0);
1179                 if underflow {
1180                         let overflow;
1181                         (val, overflow) = add_4(&val, &M::PRIME.0);
1182                         debug_assert_eq!(overflow, underflow);
1183                 }
1184                 Self(U256(val), PhantomData)
1185         }
1186
1187         /// Adds `b` to `self` % `m`.
1188         pub(super) fn add(&self, b: &Self) -> Self {
1189                 let (mut val, overflow) = add_4(&self.0.0, &b.0.0);
1190                 if overflow || !slice_greater_than(&M::PRIME.0, &val) {
1191                         let underflow;
1192                         (val, underflow) = sub_4(&val, &M::PRIME.0);
1193                         debug_assert_eq!(overflow, underflow);
1194                 }
1195                 Self(U256(val), PhantomData)
1196         }
1197
1198         /// Returns the underlying [`U256`].
1199         pub(super) fn into_u256(self) -> U256 {
1200                 let mut expanded_self = [0; 8];
1201                 expanded_self[4..].copy_from_slice(&self.0.0);
1202                 Self::mont_reduction(expanded_self).0
1203         }
1204 }
1205
1206 impl U384 {
1207         /// Constructs a new [`U384`] from a variable number of big-endian bytes.
1208         pub(super) fn from_be_bytes(bytes: &[u8]) -> Result<U384, ()> {
1209                 if bytes.len() > 384/8 { return Err(()); }
1210                 let u64s = (bytes.len() + 7) / 8;
1211                 let mut res = [0; WORD_COUNT_384];
1212                 for i in 0..u64s {
1213                         let mut b = [0; 8];
1214                         let pos = (u64s - i) * 8;
1215                         let start = bytes.len().saturating_sub(pos);
1216                         let end = bytes.len() + 8 - pos;
1217                         b[8 + start - end..].copy_from_slice(&bytes[start..end]);
1218                         res[i + WORD_COUNT_384 - u64s] = u64::from_be_bytes(b);
1219                 }
1220                 Ok(U384(res))
1221         }
1222
1223         /// Constructs a new [`U384`] from a fixed number of big-endian bytes.
1224         pub(super) const fn from_48_be_bytes_panicking(bytes: &[u8; 48]) -> U384 {
1225                 let res = [
1226                         u64_from_bytes_a_panicking(bytes),
1227                         u64_from_bytes_b_panicking(bytes),
1228                         u64_from_bytes_c_panicking(bytes),
1229                         u64_from_bytes_d_panicking(bytes),
1230                         u64_from_bytes_e_panicking(bytes),
1231                         u64_from_bytes_f_panicking(bytes),
1232                 ];
1233                 U384(res)
1234         }
1235
1236         pub(super) const fn zero() -> U384 { U384([0, 0, 0, 0, 0, 0]) }
1237         pub(super) const fn one() -> U384 { U384([0, 0, 0, 0, 0, 1]) }
1238         pub(super) const fn three() -> U384 { U384([0, 0, 0, 0, 0, 3]) }
1239 }
1240
1241 impl<M: PrimeModulus<U384>> U384Mod<M> {
1242         const fn mont_reduction(mu: [u64; 12]) -> Self {
1243                 #[cfg(debug_assertions)] {
1244                         // Check NEGATIVE_PRIME_INV_MOD_R is correct. Since this is all const, the compiler
1245                         // should be able to do it at compile time alone.
1246                         let minus_one_mod_r = mul_6(&M::PRIME.0, &M::NEGATIVE_PRIME_INV_MOD_R.0);
1247                         assert!(slice_equal(const_subslice(&minus_one_mod_r, 6, 12), &[0xffff_ffff_ffff_ffff; 6]));
1248                 }
1249
1250                 #[cfg(debug_assertions)] {
1251                         // Check R_SQUARED_MOD_PRIME is correct. Since this is all const, the compiler
1252                         // should be able to do it at compile time alone.
1253                         let r_minus_one = [0xffff_ffff_ffff_ffff; 6];
1254                         let (mut r_mod_prime, _) = sub_6(&r_minus_one, &M::PRIME.0);
1255                         add_u64!(r_mod_prime, 1);
1256                         let r_squared = sqr_6(&r_mod_prime);
1257                         let mut prime_extended = [0; 12];
1258                         let prime = M::PRIME.0;
1259                         copy_from_slice!(prime_extended, 6, 12, prime);
1260                         let (_, r_squared_mod_prime) = if let Ok(v) = div_rem_12(&r_squared, &prime_extended) { v } else { panic!() };
1261                         assert!(slice_greater_than(&prime_extended, &r_squared_mod_prime));
1262                         assert!(slice_equal(const_subslice(&r_squared_mod_prime, 6, 12), &M::R_SQUARED_MOD_PRIME.0));
1263                 }
1264
1265                 let mu_mod_r = const_subslice(&mu, 6, 12);
1266                 let mut v = mul_6(&mu_mod_r, &M::NEGATIVE_PRIME_INV_MOD_R.0);
1267                 const ZEROS: &[u64; 6] = &[0; 6];
1268                 copy_from_slice!(v, 0, 6, ZEROS); // mod R
1269                 let t0 = mul_6(const_subslice(&v, 6, 12), &M::PRIME.0);
1270                 let (t1, t1_extra_bit) = add_12(&t0, &mu);
1271                 let t1_on_r = const_subslice(&t1, 0, 6);
1272                 let mut res = [0; 6];
1273                 if t1_extra_bit || slice_greater_than(&t1_on_r, &M::PRIME.0) {
1274                         let underflow;
1275                         (res, underflow) = sub_6(&t1_on_r, &M::PRIME.0);
1276                         debug_assert!(t1_extra_bit == underflow);
1277                 } else {
1278                         copy_from_slice!(res, 0, 6, t1_on_r);
1279                 }
1280                 Self(U384(res), PhantomData)
1281         }
1282
1283         pub(super) const fn from_u384_panicking(v: U384) -> Self {
1284                 assert!(v.0[0] <= M::PRIME.0[0]);
1285                 if v.0[0] == M::PRIME.0[0] {
1286                         assert!(v.0[1] <= M::PRIME.0[1]);
1287                         if v.0[1] == M::PRIME.0[1] {
1288                                 assert!(v.0[2] <= M::PRIME.0[2]);
1289                                 if v.0[2] == M::PRIME.0[2] {
1290                                         assert!(v.0[3] <= M::PRIME.0[3]);
1291                                         if v.0[3] == M::PRIME.0[3] {
1292                                                 assert!(v.0[4] <= M::PRIME.0[4]);
1293                                                 if v.0[4] == M::PRIME.0[4] {
1294                                                         assert!(v.0[5] < M::PRIME.0[5]);
1295                                                 }
1296                                         }
1297                                 }
1298                         }
1299                 }
1300                 assert!(M::PRIME.0[0] != 0 || M::PRIME.0[1] != 0 || M::PRIME.0[2] != 0
1301                         || M::PRIME.0[3] != 0|| M::PRIME.0[4] != 0|| M::PRIME.0[5] != 0);
1302                 Self::mont_reduction(mul_6(&M::R_SQUARED_MOD_PRIME.0, &v.0))
1303         }
1304
1305         pub(super) fn from_u384(mut v: U384) -> Self {
1306                 debug_assert!(M::PRIME.0 != [0; 6]);
1307                 debug_assert!(M::PRIME.0[0] > (1 << 63), "PRIME should have the top bit set");
1308                 while v >= M::PRIME {
1309                         let (new_v, spurious_underflow) = sub_6(&v.0, &M::PRIME.0);
1310                         debug_assert!(!spurious_underflow);
1311                         v = U384(new_v);
1312                 }
1313                 Self::mont_reduction(mul_6(&M::R_SQUARED_MOD_PRIME.0, &v.0))
1314         }
1315
1316         pub(super) fn from_modinv_of(v: U384) -> Result<Self, ()> {
1317                 Ok(Self::from_u384(U384(mod_inv_6(&v.0, &M::PRIME.0)?)))
1318         }
1319
1320         /// Multiplies `self` * `b` mod `m`.
1321         ///
1322         /// Panics if `self`'s modulus is not equal to `b`'s
1323         pub(super) fn mul(&self, b: &Self) -> Self {
1324                 Self::mont_reduction(mul_6(&self.0.0, &b.0.0))
1325         }
1326
1327         /// Doubles `self` mod `m`.
1328         pub(super) fn double(&self) -> Self {
1329                 let mut res = self.0.0;
1330                 let overflow = double!(res);
1331                 if overflow || !slice_greater_than(&M::PRIME.0, &res) {
1332                         let underflow;
1333                         (res, underflow) = sub_6(&res, &M::PRIME.0);
1334                         debug_assert_eq!(overflow, underflow);
1335                 }
1336                 Self(U384(res), PhantomData)
1337         }
1338
1339         /// Multiplies `self` by 3 mod `m`.
1340         pub(super) fn times_three(&self) -> Self {
1341                 // TODO: Optimize this a lot
1342                 self.mul(&U384Mod::from_u384(U384::three()))
1343         }
1344
1345         /// Multiplies `self` by 4 mod `m`.
1346         pub(super) fn times_four(&self) -> Self {
1347                 // TODO: Optimize this somewhat?
1348                 self.double().double()
1349         }
1350
1351         /// Multiplies `self` by 8 mod `m`.
1352         pub(super) fn times_eight(&self) -> Self {
1353                 // TODO: Optimize this somewhat?
1354                 self.double().double().double()
1355         }
1356
1357         /// Multiplies `self` by 8 mod `m`.
1358         pub(super) fn square(&self) -> Self {
1359                 Self::mont_reduction(sqr_6(&self.0.0))
1360         }
1361
1362         /// Subtracts `b` from `self` % `m`.
1363         pub(super) fn sub(&self, b: &Self) -> Self {
1364                 let (mut val, underflow) = sub_6(&self.0.0, &b.0.0);
1365                 if underflow {
1366                         let overflow;
1367                         (val, overflow) = add_6(&val, &M::PRIME.0);
1368                         debug_assert_eq!(overflow, underflow);
1369                 }
1370                 Self(U384(val), PhantomData)
1371         }
1372
1373         /// Adds `b` to `self` % `m`.
1374         pub(super) fn add(&self, b: &Self) -> Self {
1375                 let (mut val, overflow) = add_6(&self.0.0, &b.0.0);
1376                 if overflow || !slice_greater_than(&M::PRIME.0, &val) {
1377                         let underflow;
1378                         (val, underflow) = sub_6(&val, &M::PRIME.0);
1379                         debug_assert_eq!(overflow, underflow);
1380                 }
1381                 Self(U384(val), PhantomData)
1382         }
1383
1384         /// Returns the underlying [`U384`].
1385         pub(super) fn into_u384(self) -> U384 {
1386                 let mut expanded_self = [0; 12];
1387                 expanded_self[6..].copy_from_slice(&self.0.0);
1388                 Self::mont_reduction(expanded_self).0
1389         }
1390 }
1391
1392 #[cfg(fuzzing)]
1393 mod fuzz_moduli {
1394         use super::*;
1395
1396         pub struct P256();
1397         impl PrimeModulus<U256> for P256 {
1398                 const PRIME: U256 = U256::from_32_be_bytes_panicking(&hex_lit::hex!(
1399                         "ffffffff00000001000000000000000000000000ffffffffffffffffffffffff"));
1400                 const R_SQUARED_MOD_PRIME: U256 = U256::from_32_be_bytes_panicking(&hex_lit::hex!(
1401                         "00000004fffffffdfffffffffffffffefffffffbffffffff0000000000000003"));
1402                 const NEGATIVE_PRIME_INV_MOD_R: U256 = U256::from_32_be_bytes_panicking(&hex_lit::hex!(
1403                         "ffffffff00000002000000000000000000000001000000000000000000000001"));
1404         }
1405
1406         pub struct P384();
1407         impl PrimeModulus<U384> for P384 {
1408                 const PRIME: U384 = U384::from_48_be_bytes_panicking(&hex_lit::hex!(
1409                         "fffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffeffffffff0000000000000000ffffffff"));
1410                 const R_SQUARED_MOD_PRIME: U384 = U384::from_48_be_bytes_panicking(&hex_lit::hex!(
1411                         "000000000000000000000000000000010000000200000000fffffffe000000000000000200000000fffffffe00000001"));
1412                 const NEGATIVE_PRIME_INV_MOD_R: U384 = U384::from_48_be_bytes_panicking(&hex_lit::hex!(
1413                         "00000014000000140000000c00000002fffffffcfffffffafffffffbfffffffe00000000000000010000000100000001"));
1414         }
1415 }
1416
1417 #[cfg(fuzzing)]
1418 extern crate ibig;
1419 #[cfg(fuzzing)]
1420 /// Read some bytes and use them to test bigint math by comparing results against the `ibig` crate.
1421 pub fn fuzz_math(input: &[u8]) {
1422         if input.len() < 32 || input.len() % 16 != 0 { return; }
1423         let split = core::cmp::min(input.len() / 2, 512);
1424         let (a, b) = input.split_at(core::cmp::min(input.len() / 2, 512));
1425         let b = &b[..split];
1426
1427         let ai = ibig::UBig::from_be_bytes(&a);
1428         let bi = ibig::UBig::from_be_bytes(&b);
1429
1430         let mut a_u64s = Vec::with_capacity(split / 8);
1431         for chunk in a.chunks(8) {
1432                 a_u64s.push(u64::from_be_bytes(chunk.try_into().unwrap()));
1433         }
1434         let mut b_u64s = Vec::with_capacity(split / 8);
1435         for chunk in b.chunks(8) {
1436                 b_u64s.push(u64::from_be_bytes(chunk.try_into().unwrap()));
1437         }
1438
1439         macro_rules! test { ($mul: ident, $sqr: ident, $add: ident, $sub: ident, $div_rem: ident, $mod_inv: ident) => {
1440                 let res = $mul(&a_u64s, &b_u64s);
1441                 let mut res_bytes = Vec::with_capacity(input.len() / 2);
1442                 for i in res {
1443                         res_bytes.extend_from_slice(&i.to_be_bytes());
1444                 }
1445                 assert_eq!(ibig::UBig::from_be_bytes(&res_bytes), ai.clone() * bi.clone());
1446
1447                 debug_assert_eq!($mul(&a_u64s, &a_u64s), $sqr(&a_u64s));
1448                 debug_assert_eq!($mul(&b_u64s, &b_u64s), $sqr(&b_u64s));
1449
1450                 let (res, carry) = $add(&a_u64s, &b_u64s);
1451                 let mut res_bytes = Vec::with_capacity(input.len() / 2 + 1);
1452                 if carry { res_bytes.push(1); } else { res_bytes.push(0); }
1453                 for i in res {
1454                         res_bytes.extend_from_slice(&i.to_be_bytes());
1455                 }
1456                 assert_eq!(ibig::UBig::from_be_bytes(&res_bytes), ai.clone() + bi.clone());
1457
1458                 let mut add_u64s = a_u64s.clone();
1459                 let carry = add_u64!(add_u64s, 1);
1460                 let mut res_bytes = Vec::with_capacity(input.len() / 2 + 1);
1461                 if carry { res_bytes.push(1); } else { res_bytes.push(0); }
1462                 for i in &add_u64s {
1463                         res_bytes.extend_from_slice(&i.to_be_bytes());
1464                 }
1465                 assert_eq!(ibig::UBig::from_be_bytes(&res_bytes), ai.clone() + 1);
1466
1467                 let mut double_u64s = b_u64s.clone();
1468                 let carry = double!(double_u64s);
1469                 let mut res_bytes = Vec::with_capacity(input.len() / 2 + 1);
1470                 if carry { res_bytes.push(1); } else { res_bytes.push(0); }
1471                 for i in &double_u64s {
1472                         res_bytes.extend_from_slice(&i.to_be_bytes());
1473                 }
1474                 assert_eq!(ibig::UBig::from_be_bytes(&res_bytes), bi.clone() * 2);
1475
1476                 let (quot, rem) = if let Ok(res) =
1477                         $div_rem(&a_u64s[..].try_into().unwrap(), &b_u64s[..].try_into().unwrap()) {
1478                                 res
1479                         } else { return };
1480                 let mut quot_bytes = Vec::with_capacity(input.len() / 2);
1481                 for i in quot {
1482                         quot_bytes.extend_from_slice(&i.to_be_bytes());
1483                 }
1484                 let mut rem_bytes = Vec::with_capacity(input.len() / 2);
1485                 for i in rem {
1486                         rem_bytes.extend_from_slice(&i.to_be_bytes());
1487                 }
1488                 let (quoti, remi) = ibig::ops::DivRem::div_rem(ai.clone(), &bi);
1489                 assert_eq!(ibig::UBig::from_be_bytes(&quot_bytes), quoti);
1490                 assert_eq!(ibig::UBig::from_be_bytes(&rem_bytes), remi);
1491
1492                 if ai != ibig::UBig::from(0u32) { // ibig provides a spurious modular inverse for 0
1493                         let ring = ibig::modular::ModuloRing::new(&bi);
1494                         let ar = ring.from(ai.clone());
1495                         let invi = ar.inverse().map(|i| i.residue());
1496
1497                         if let Ok(modinv) = $mod_inv(&a_u64s[..].try_into().unwrap(), &b_u64s[..].try_into().unwrap()) {
1498                                 let mut modinv_bytes = Vec::with_capacity(input.len() / 2);
1499                                 for i in modinv {
1500                                         modinv_bytes.extend_from_slice(&i.to_be_bytes());
1501                                 }
1502                                 assert_eq!(invi.unwrap(), ibig::UBig::from_be_bytes(&modinv_bytes));
1503                         } else {
1504                                 assert!(invi.is_none());
1505                         }
1506                 }
1507         } }
1508
1509         macro_rules! test_mod { ($amodp: expr, $bmodp: expr, $PRIME: expr, $len: expr, $into: ident, $div_rem_double: ident, $div_rem: ident, $mul: ident, $add: ident, $sub: ident) => {
1510                 // Test the U256/U384Mod wrapper, which operates in Montgomery representation
1511                 let mut p_extended = [0; $len * 2];
1512                 p_extended[$len..].copy_from_slice(&$PRIME);
1513
1514                 let amodp_squared = $div_rem_double(&$mul(&a_u64s, &a_u64s), &p_extended).unwrap().1;
1515                 assert_eq!(&amodp_squared[..$len], &[0; $len]);
1516                 assert_eq!(&$amodp.square().$into().0, &amodp_squared[$len..]);
1517
1518                 let abmodp = $div_rem_double(&$mul(&a_u64s, &b_u64s), &p_extended).unwrap().1;
1519                 assert_eq!(&abmodp[..$len], &[0; $len]);
1520                 assert_eq!(&$amodp.mul(&$bmodp).$into().0, &abmodp[$len..]);
1521
1522                 let (aplusb, aplusb_overflow) = $add(&a_u64s, &b_u64s);
1523                 let mut aplusb_extended = [0; $len * 2];
1524                 aplusb_extended[$len..].copy_from_slice(&aplusb);
1525                 if aplusb_overflow { aplusb_extended[$len - 1] = 1; }
1526                 let aplusbmodp = $div_rem_double(&aplusb_extended, &p_extended).unwrap().1;
1527                 assert_eq!(&aplusbmodp[..$len], &[0; $len]);
1528                 assert_eq!(&$amodp.add(&$bmodp).$into().0, &aplusbmodp[$len..]);
1529
1530                 let (mut aminusb, aminusb_underflow) = $sub(&a_u64s, &b_u64s);
1531                 if aminusb_underflow {
1532                         let mut overflow;
1533                         (aminusb, overflow) = $add(&aminusb, &$PRIME);
1534                         if !overflow {
1535                                 (aminusb, overflow) = $add(&aminusb, &$PRIME);
1536                         }
1537                         assert!(overflow);
1538                 }
1539                 let aminusbmodp = $div_rem(&aminusb, &$PRIME).unwrap().1;
1540                 assert_eq!(&$amodp.sub(&$bmodp).$into().0, &aminusbmodp);
1541         } }
1542
1543         if a_u64s.len() == 2 {
1544                 test!(mul_2, sqr_2, add_2, sub_2, div_rem_2, mod_inv_2);
1545         } else if a_u64s.len() == 4 {
1546                 test!(mul_4, sqr_4, add_4, sub_4, div_rem_4, mod_inv_4);
1547                 let amodp = U256Mod::<fuzz_moduli::P256>::from_u256(U256(a_u64s[..].try_into().unwrap()));
1548                 let bmodp = U256Mod::<fuzz_moduli::P256>::from_u256(U256(b_u64s[..].try_into().unwrap()));
1549                 test_mod!(amodp, bmodp, fuzz_moduli::P256::PRIME.0, 4, into_u256, div_rem_8, div_rem_4, mul_4, add_4, sub_4);
1550         } else if a_u64s.len() == 6 {
1551                 test!(mul_6, sqr_6, add_6, sub_6, div_rem_6, mod_inv_6);
1552                 let amodp = U384Mod::<fuzz_moduli::P384>::from_u384(U384(a_u64s[..].try_into().unwrap()));
1553                 let bmodp = U384Mod::<fuzz_moduli::P384>::from_u384(U384(b_u64s[..].try_into().unwrap()));
1554                 test_mod!(amodp, bmodp, fuzz_moduli::P384::PRIME.0, 6, into_u384, div_rem_12, div_rem_6, mul_6, add_6, sub_6);
1555         } else if a_u64s.len() == 8 {
1556                 test!(mul_8, sqr_8, add_8, sub_8, div_rem_8, mod_inv_8);
1557         } else if input.len() == 512*2 + 4 {
1558                 let mut e_bytes = [0; 4];
1559                 e_bytes.copy_from_slice(&input[512 * 2..512 * 2 + 4]);
1560                 let e = u32::from_le_bytes(e_bytes);
1561                 let a = U4096::from_be_bytes(&a).unwrap();
1562                 let b = U4096::from_be_bytes(&b).unwrap();
1563
1564                 let res = if let Ok(r) = a.expmod_odd_mod(e, &b) { r } else { return };
1565                 let mut res_bytes = Vec::with_capacity(512);
1566                 for i in res.0 {
1567                         res_bytes.extend_from_slice(&i.to_be_bytes());
1568                 }
1569
1570                 let ring = ibig::modular::ModuloRing::new(&bi);
1571                 let ar = ring.from(ai.clone());
1572                 assert_eq!(ar.pow(&e.into()).residue(), ibig::UBig::from_be_bytes(&res_bytes));
1573         }
1574 }
1575
1576 #[cfg(test)]
1577 mod tests {
1578         use super::*;
1579
1580         #[test]
1581         fn mul_min_simple_tests() {
1582                 let a = [1, 2];
1583                 let b = [3, 4];
1584                 let res = mul_2(&a, &b);
1585                 assert_eq!(res, [0, 3, 10, 8]);
1586
1587                 let a = [0x1bad_cafe_dead_beef, 2424];
1588                 let b = [0x2bad_beef_dead_cafe, 4242];
1589                 let res = mul_2(&a, &b);
1590                 assert_eq!(res, [340296855556511776, 15015369169016130186, 4248480538569992542, 10282608]);
1591
1592                 let a = [0xf6d9_f8eb_8b60_7a6d, 0x4b93_833e_2194_fc2e];
1593                 let b = [0xfdab_0000_6952_8ab4, 0xd302_0000_8282_0000];
1594                 let res = mul_2(&a, &b);
1595                 assert_eq!(res, [17625486516939878681, 18390748118453258282, 2695286104209847530, 1510594524414214144]);
1596
1597                 let a = [0x8b8b_8b8b_8b8b_8b8b, 0x8b8b_8b8b_8b8b_8b8b];
1598                 let b = [0x8b8b_8b8b_8b8b_8b8b, 0x8b8b_8b8b_8b8b_8b8b];
1599                 let res = mul_2(&a, &b);
1600                 assert_eq!(res, [5481115605507762349, 8230042173354675923, 16737530186064798, 15714555036048702841]);
1601
1602                 let a = [0x0000_0000_0000_0020, 0x002d_362c_005b_7753];
1603                 let b = [0x0900_0000_0030_0003, 0xb708_00fe_0000_00cd];
1604                 let res = mul_2(&a, &b);
1605                 assert_eq!(res, [1, 2306290405521702946, 17647397529888728169, 10271802099389861239]);
1606
1607                 let a = [0x0000_0000_7fff_ffff, 0xffff_ffff_0000_0000];
1608                 let b = [0x0000_0800_0000_0000, 0x0000_1000_0000_00e1];
1609                 let res = mul_2(&a, &b);
1610                 assert_eq!(res, [1024, 0, 483183816703, 18446743107341910016]);
1611
1612                 let a = [0xf6d9_f8eb_ebeb_eb6d, 0x4b93_83a0_bb35_0680];
1613                 let b = [0xfd02_b9b9_b9b9_b9b9, 0xb9b9_b9b9_b9b9_b9b9];
1614                 let res = mul_2(&a, &b);
1615                 assert_eq!(res, [17579814114991930107, 15033987447865175985, 488855932380801351, 5453318140933190272]);
1616
1617                 let a = [u64::MAX; 2];
1618                 let b = [u64::MAX; 2];
1619                 let res = mul_2(&a, &b);
1620                 assert_eq!(res, [18446744073709551615, 18446744073709551614, 0, 1]);
1621         }
1622
1623         #[test]
1624         fn add_simple_tests() {
1625                 let a = [u64::MAX; 2];
1626                 let b = [u64::MAX; 2];
1627                 assert_eq!(add_2(&a, &b), ([18446744073709551615, 18446744073709551614], true));
1628
1629                 let a = [0x1bad_cafe_dead_beef, 2424];
1630                 let b = [0x2bad_beef_dead_cafe, 4242];
1631                 assert_eq!(add_2(&a, &b), ([5141855058045667821, 6666], false));
1632         }
1633
1634         #[test]
1635         fn mul_4_simple_tests() {
1636                 let a = [1; 4];
1637                 let b = [2; 4];
1638                 assert_eq!(mul_4(&a, &b),
1639                         [0, 2, 4, 6, 8, 6, 4, 2]);
1640
1641                 let a = [0x1bad_cafe_dead_beef, 2424, 0x1bad_cafe_dead_beef, 2424];
1642                 let b = [0x2bad_beef_dead_cafe, 4242, 0x2bad_beef_dead_cafe, 4242];
1643                 assert_eq!(mul_4(&a, &b),
1644                         [340296855556511776, 15015369169016130186, 4929074249683016095, 11583994264332991364,
1645                          8837257932696496860, 15015369169036695402, 4248480538569992542, 10282608]);
1646
1647                 let a = [u64::MAX; 4];
1648                 let b = [u64::MAX; 4];
1649                 assert_eq!(mul_4(&a, &b),
1650                         [18446744073709551615, 18446744073709551615, 18446744073709551615,
1651                          18446744073709551614, 0, 0, 0, 1]);
1652         }
1653
1654         #[test]
1655         fn double_simple_tests() {
1656                 let mut a = [0xfff5_b32d_01ff_0000, 0x00e7_e7e7_e7e7_e7e7];
1657                 assert!(double!(a));
1658                 assert_eq!(a, [18440945635998695424, 130551405668716494]);
1659
1660                 let mut a = [u64::MAX, u64::MAX];
1661                 assert!(double!(a));
1662                 assert_eq!(a, [18446744073709551615, 18446744073709551614]);
1663         }
1664 }