From 5a3c25e67f10dd2c01a81be7058b78acdcc6a478 Mon Sep 17 00:00:00 2001
From: Emmanuel Viennet <emmanuel.viennet@gmail.com>
Date: Fri, 26 Nov 2021 17:26:34 +0100
Subject: [PATCH] Optimize compute_module_moy

---
 app/comp/moy_mod.py            | 59 +++++++++++++++++-----------------
 tests/unit/test_but_modules.py |  6 ++--
 2 files changed, 33 insertions(+), 32 deletions(-)

diff --git a/app/comp/moy_mod.py b/app/comp/moy_mod.py
index 358f9cfd..7f8aed34 100644
--- a/app/comp/moy_mod.py
+++ b/app/comp/moy_mod.py
@@ -121,8 +121,8 @@ def df_load_modimpl_notes(moduleimpl_id: int) -> pd.DataFrame:
 
 
 def compute_module_moy(
-    evals_notes: pd.DataFrame,
-    evals_poids: pd.DataFrame,
+    evals_notes_df: pd.DataFrame,
+    evals_poids_df: pd.DataFrame,
     evaluations: list,
 ) -> pd.DataFrame:
     """Calcule les moyennes des étudiants dans ce module
@@ -140,34 +140,35 @@ def compute_module_moy(
          ou NaN si les évaluations (dans lesquelles l'étudiant à des notes)
          ne donnent pas de coef vers cette UE.
     """
-    nb_etuds = len(evals_notes)
-    nb_ues = evals_poids.shape[1]
-    etud_moy_module_arr = np.zeros((nb_etuds, nb_ues))
-    evals_poids_arr = evals_poids.to_numpy().transpose() * [
-        e.coefficient for e in evaluations
-    ]
-    # -> evals_poids_arr shape : (nb_ues, nb_evals)
+    nb_etuds, nb_evals = evals_notes_df.shape
+    nb_ues = evals_poids_df.shape[1]
+    assert evals_poids_df.shape[0] == nb_evals  # compat notes/poids
+    evals_coefs = np.array([e.coefficient for e in evaluations], dtype=float).reshape(
+        -1, 1
+    )
+    evals_poids = evals_poids_df.values * evals_coefs
+    # -> evals_poids_arr shape : (nb_evals, nb_ues)
+    assert evals_poids.shape == (nb_evals, nb_ues)
     # Remet les notes sur 20 (sauf notes spéciales <= -1000):
-    evals_notes_arr = np.where(evals_notes.values > -1000, evals_notes.values, 0.0) / [
-        e.note_max / 20.0 for e in evaluations
-    ]
-    for i in range(nb_etuds):
-        # note_vect: array [note_ue1, note_ue2, ...] de l'étudiant i
-        note_vect = evals_notes_arr[i]
-        # Les poids des évals pour cet étudiant: là où il a des notes non neutralisées
-        # Attention: les NaN (codant les absents) sont remplacés par des 0 dans
-        # evals_notes_arr mais pas dans evals_poids_etud_arr
-        # (la comparaison est toujours false face à un NaN)
-        evals_poids_etud_arr = np.where(
-            evals_notes.values[i] <= -1000, 0, evals_poids_arr
-        )
-        # Calcule la moyenne pondérée sur les notes disponibles
-        with np.errstate(invalid="ignore"):  # ignore les 0/0 (-> NaN)
-            etud_moy_module_arr[i] = (note_vect * evals_poids_etud_arr).sum(
-                axis=1
-            ) / evals_poids_etud_arr.sum(axis=1)
-
+    evals_notes = np.where(
+        evals_notes_df.values > -1000, evals_notes_df.values, 0.0
+    ) / [e.note_max / 20.0 for e in evaluations]
+    # Les poids des évals pour les étudiant: là où il a des notes non neutralisées
+    # Attention: les NaN (codant les absents) sont remplacés par des 0 dans
+    # evals_notes_arr mais pas dans evals_poids_etuds_arr
+    # (la comparaison est toujours false face à un NaN)
+    # shape: (nb_etuds, nb_evals, nb_ues)
+    poids_stacked = np.stack([evals_poids] * nb_etuds)
+    evals_poids_etuds = np.where(
+        np.stack([evals_notes_df.values] * nb_ues, axis=2) <= -1000.0, 0, poids_stacked
+    )
+    # Calcule la moyenne pondérée sur les notes disponibles
+    evals_notes_stacked = np.stack([evals_notes] * nb_ues, axis=2)
+    with np.errstate(invalid="ignore"):  # ignore les 0/0 (-> NaN)
+        etud_moy_module = np.sum(
+            evals_poids_etuds * evals_notes_stacked, axis=1
+        ) / np.sum(evals_poids_etuds, axis=1)
     etud_moy_module_df = pd.DataFrame(
-        etud_moy_module_arr, index=evals_notes.index, columns=evals_poids.columns
+        etud_moy_module, index=evals_notes_df.index, columns=evals_poids_df.columns
     )
     return etud_moy_module_df
diff --git a/tests/unit/test_but_modules.py b/tests/unit/test_but_modules.py
index db9febcd..7b55f451 100644
--- a/tests/unit/test_but_modules.py
+++ b/tests/unit/test_but_modules.py
@@ -234,7 +234,7 @@ def test_module_moy_elem(test_client):
             "EVAL2": np.NaN,  # et une ABS
         },
     ]
-    evals_notes = pd.DataFrame(
+    evals_notes_df = pd.DataFrame(
         data, index=["etud1", "etud2", "etud3", "etud4", "etud5"]
     )
     # Poids des évaluations (1 ligne / évaluation)
@@ -242,13 +242,13 @@ def test_module_moy_elem(test_client):
         {"UE1": 1, "UE2": 0, "UE3": 0},
         {"UE1": 2, "UE2": 5, "UE3": 0},
     ]
-    evals_poids = pd.DataFrame(data, index=["EVAL1", "EVAL2"], dtype=float)
+    evals_poids_df = pd.DataFrame(data, index=["EVAL1", "EVAL2"], dtype=float)
     evaluations = [
         Evaluation(note_max=20.0, coefficient=1.0),
         Evaluation(note_max=20.0, coefficient=1.0),
     ]
     etud_moy_module_df = moy_mod.compute_module_moy(
-        evals_notes.fillna(0.0), evals_poids, evaluations
+        evals_notes_df.fillna(0.0), evals_poids_df, evaluations
     )
     NAN = 666.0  # pour pouvoir comparer NaN et NaN (car NaN != NaN)
     r = etud_moy_module_df.fillna(NAN)