genirq/affinity: Spread IRQs to all available NUMA nodes
authorLong Li <longli@microsoft.com>
Fri, 2 Nov 2018 18:02:48 +0000 (18:02 +0000)
committerThomas Gleixner <tglx@linutronix.de>
Mon, 5 Nov 2018 11:16:26 +0000 (12:16 +0100)
If the number of NUMA nodes exceeds the number of MSI/MSI-X interrupts
which are allocated for a device, the interrupt affinity spreading code
fails to spread them across all nodes.

The reason is, that the spreading code starts from node 0 and continues up
to the number of interrupts requested for allocation. This leaves the nodes
past the last interrupt unused.

This results in interrupt concentration on the first nodes which violates
the assumption of the block layer that all nodes are covered evenly. As a
consequence the NUMA nodes above the number of interrupts are all assigned
to hardware queue 0 and therefore NUMA node 0, which results in bad
performance and has CPU hotplug implications, because queue 0 gets shut
down when the last CPU of node 0 is offlined.

Go over all NUMA nodes and assign them round-robin to all requested
interrupts to solve this.

[ tglx: Massaged changelog ]

Signed-off-by: Long Li <longli@microsoft.com>
Signed-off-by: Thomas Gleixner <tglx@linutronix.de>
Reviewed-by: Ming Lei <ming.lei@redhat.com>
Cc: Michael Kelley <mikelley@microsoft.com>
Link: https://lkml.kernel.org/r/20181102180248.13583-1-longli@linuxonhyperv.com
kernel/irq/affinity.c

index f4f29b9d90ee75f790d1e8e9ad69abd44a386de2..e12cdf637c71bafaa515564fe83bdd3170ddd3e1 100644 (file)
@@ -117,12 +117,11 @@ static int irq_build_affinity_masks(const struct irq_affinity *affd,
         */
        if (numvecs <= nodes) {
                for_each_node_mask(n, nodemsk) {
-                       cpumask_copy(masks + curvec, node_to_cpumask[n]);
-                       if (++done == numvecs)
-                               break;
+                       cpumask_or(masks + curvec, masks + curvec, node_to_cpumask[n]);
                        if (++curvec == last_affv)
                                curvec = affd->pre_vectors;
                }
+               done = numvecs;
                goto out;
        }