############################################################################## # # Gestion scolarite IUT # # Copyright (c) 1999 - 2023 Emmanuel Viennet. All rights reserved. # # This program is free software; you can redistribute it and/or modify # it under the terms of the GNU General Public License as published by # the Free Software Foundation; either version 2 of the License, or # (at your option) any later version. # # This program is distributed in the hope that it will be useful, # but WITHOUT ANY WARRANTY; without even the implied warranty of # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the # GNU General Public License for more details. # # You should have received a copy of the GNU General Public License # along with this program; if not, write to the Free Software # Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA # # Emmanuel Viennet emmanuel.viennet@viennet.net # ############################################################################## """Lecture du fichier "maquette" Apogée Le fichier CSV, champs séparés par des tabulations, a la structure suivante:
 XX-APO_TITRES-XX
 apoC_annee	2007/2008
 apoC_cod_dip	VDTCJ
 apoC_Cod_Exp	1
 apoC_cod_vdi	111
 apoC_Fichier_Exp	VDTCJ_V1CJ.txt
 apoC_lib_dip	DUT CJ
 apoC_Titre1	Export Apogée du 13/06/2008 à 14:29
 apoC_Titre2

 XX-APO_TYP_RES-XX
 ...section optionnelle au contenu quelconque...

 XX-APO_COLONNES-XX
 apoL_a01_code	Type Objet	Code	Version	Année	Session	Admission/Admissibilité	Type Rés.			Etudiant	Numéro
 apoL_a02_nom										1	Nom
 apoL_a03_prenom										1	Prénom
 apoL_a04_naissance									Session	Admissibilité	Naissance
 APO_COL_VAL_DEB
 apoL_c0001	VET	V1CJ	111	2007	0	1	N	V1CJ - DUT CJ an1	0	1	Note
 apoL_c0002	VET	V1CJ	111	2007	0	1	B		0	1	Barème
 apoL_c0003	VET	V1CJ	111	2007	0	1	R		0	1	Résultat
 APO_COL_VAL_FIN
 apoL_c0030	APO_COL_VAL_FIN

 XX-APO_VALEURS-XX
 apoL_a01_code	apoL_a02_nom	apoL_a03_prenom	apoL_a04_naissance	apoL_c0001	apoL_c0002	apoL_c0003	apoL_c0004	apoL_c0005	apoL_c0006	apoL_c0007	apoL_c0008	apoL_c0009	apoL_c0010	apoL_c0011	apoL_c0012	apoL_c0013	apoL_c0014	apoL_c0015	apoL_c0016	apoL_c0017	apoL_c0018	apoL_c0019	apoL_c0020	apoL_c0021	apoL_c0022	apoL_c0023	apoL_c0024	apoL_c0025	apoL_c0026	apoL_c0027	apoL_c0028	apoL_c0029
 10601232	AARIF	MALIKA	 22/09/1986	18	20	ADM	18	20	ADM	18	20	ADM	18	20	ADM	18	20	ADM	18	20	18	20	ADM	18	20	ADM	18	20	ADM	18	20	ADM
 
On récupère nos éléments pédagogiques dans la section XX-APO-COLONNES-XX et notre liste d'étudiants dans la section XX-APO_VALEURS-XX. Les champs de la section XX-APO_VALEURS-XX sont décrits par les lignes successives de la section XX-APO_COLONNES-XX. Le fichier CSV correspond à une étape, qui est récupérée sur la ligne
 apoL_c0001	VET	V1CJ ...
 
""" from collections import namedtuple import io import pprint import re # Pour la détection auto de l'encodage des fichiers Apogée: from chardet import detect as chardet_detect from app import log from app.scodoc.sco_exceptions import ScoFormatError APO_PORTAL_ENCODING = ( "utf8" # encodage du fichier CSV Apogée (était 'ISO-8859-1' avant jul. 2016) ) APO_INPUT_ENCODING = "ISO-8859-1" # APO_OUTPUT_ENCODING = APO_INPUT_ENCODING # encodage des fichiers Apogee générés APO_DECIMAL_SEP = "," # separateur décimal: virgule APO_SEP = "\t" APO_NEWLINE = "\r\n" ApoEtudTuple = namedtuple("ApoEtudTuple", ("nip", "nom", "prenom", "naissance", "cols")) class DictCol(dict): "A dict, where we can add attributes" class StringIOWithLineNumber(io.StringIO): "simple wrapper to use a string as a file with line numbers" def __init__(self, data: str): super().__init__(data) self.lineno = 0 def readline(self): self.lineno += 1 return super().readline() class ApoCSVReadWrite: "Gestion lecture/écriture de fichiers csv Apogée" def __init__(self, data: str): if not data: raise ScoFormatError("Fichier Apogée vide !") self.data = data self._file = StringIOWithLineNumber(data) # pour traiter comme un fichier self.apo_elts: dict = None self.cols: dict[str, dict[str, str]] = None self.column_titles: str = None self.col_ids: list[str] = None self.csv_etuds: list[ApoEtudTuple] = [] # section_str: utilisé pour ré-écrire les headers sans aucune altération self.sections_str: dict[str, str] = {} "contenu initial de chaque section" # self.header: str = "" # "début du fichier Apogée jusqu'à XX-APO_TYP_RES-XX non inclu (sera ré-écrit non modifié)" self.header_apo_typ_res: str = "" "section XX-APO_TYP_RES-XX (qui peut en option ne pas être ré-écrite)" self.titles: dict[str, str] = {} "titres Apogée (section XX-APO_TITRES-XX)" self.read_sections() # Check that we have collected all requested infos: if not self.header_apo_typ_res: # on pourrait rendre XX-APO_TYP_RES-XX optionnelle mais mieux vaut vérifier: raise ScoFormatError( "format incorrect: pas de XX-APO_TYP_RES-XX", filename=self.get_filename(), ) if self.cols is None: raise ScoFormatError( "format incorrect: pas de XX-APO_COLONNES-XX", filename=self.get_filename(), ) if self.column_titles is None: raise ScoFormatError( "format incorrect: pas de XX-APO_VALEURS-XX", filename=self.get_filename(), ) def read_sections(self): """Lit une à une les sections du fichier Apogée""" # sanity check: we are at the begining of Apogee CSV start_pos = self._file.tell() section = self._file.readline().strip() if section != "XX-APO_TITRES-XX": raise ScoFormatError("format incorrect: pas de XX-APO_TITRES-XX") while True: self.read_section(section) line, end_pos = _apo_next_non_blank_line(self._file) self.sections_str[section] = self.data[start_pos:end_pos] if not line: break section = line start_pos = end_pos def read_section(self, section_name: str): """Read a section: _file is on the first line after section title""" if section_name == "XX-APO_TITRES-XX": # Titres: # on va y chercher apoC_Fichier_Exp qui donnera le nom du fichier # ainsi que l'année scolaire et le code diplôme. self.titles = self._apo_read_titres(self._file) elif section_name == "XX-APO_TYP_RES-XX": self.header_apo_typ_res = _apo_read_typ_res(self._file) elif section_name == "XX-APO_COLONNES-XX": self.cols = self.apo_read_cols() self.apo_elts = self.group_elt_cols(self.cols) elif section_name == "XX-APO_VALEURS-XX": # les étudiants self.apo_read_section_valeurs() else: raise ScoFormatError( f"format incorrect: section inconnue: {section_name}", filename=self.get_filename(), ) def apo_read_cols(self): """Lecture colonnes apo : Démarre après la balise XX-APO_COLONNES-XX et s'arrête après la ligne suivant la balise APO_COL_VAL_FIN Colonne Apogee: les champs sont données par la ligne apoL_a01_code de la section XX-APO_COLONNES-XX col_id est apoL_c0001, apoL_c0002, ... :return: { col_id : { title : value } } Example: { 'apoL_c0001' : { 'Type Objet' : 'VET', 'Code' : 'V1IN', ... }, ... } """ line = self._file.readline().strip(" " + APO_NEWLINE) fields = line.split(APO_SEP) if fields[0] != "apoL_a01_code": raise ScoFormatError( f"invalid line: {line} (expecting apoL_a01_code)", filename=self.get_filename(), ) col_keys = fields while True: # skip premiere partie (apoL_a02_nom, ...) line = self._file.readline().strip(" " + APO_NEWLINE) if line == "APO_COL_VAL_DEB": break # après APO_COL_VAL_DEB cols = {} i = 0 while True: line = self._file.readline().strip(" " + APO_NEWLINE) if line == "APO_COL_VAL_FIN": break i += 1 fields = line.split(APO_SEP) # sanity check col_id = fields[0] # apoL_c0001, ... if col_id in cols: raise ScoFormatError( f"duplicate column definition: {col_id}", filename=self.get_filename(), ) m = re.match(r"^apoL_c([0-9]{4})$", col_id) if not m: raise ScoFormatError( f"invalid column id: {line} (expecting apoL_c{col_id})", filename=self.get_filename(), ) if int(m.group(1)) != i: raise ScoFormatError( f"invalid column id: {col_id} for index {i}", filename=self.get_filename(), ) cols[col_id] = DictCol(list(zip(col_keys, fields))) cols[col_id].lineno = self._file.lineno # for debuging purpose self._file.readline() # skip next line return cols def group_elt_cols(self, cols) -> dict: """Return (ordered) dict of ApoElt from list of ApoCols. Clé: id apogée, eg 'V1RT', 'V1GE2201', ... Valeur: ApoElt, avec les attributs code, type_objet Si les id Apogée ne sont pas uniques (ce n'est pas garanti), garde le premier """ elts = {} for col_id in sorted(list(cols.keys()), reverse=True): col = cols[col_id] if col["Code"] in elts: elts[col["Code"]].append(col) else: elts[col["Code"]] = ApoElt([col]) return elts # { code apo : ApoElt } def apo_read_section_valeurs(self): "traitement de la section XX-APO_VALEURS-XX" self.column_titles = self._file.readline() self.col_ids = self.column_titles.strip().split() self.csv_etuds = self.apo_read_etuds() def apo_read_etuds(self) -> list[ApoEtudTuple]: """Lecture des étudiants (et résultats) du fichier CSV Apogée. Les lignes "étudiant" commencent toujours par `12345678 NOM PRENOM 15/05/2003` le premier code étant le NIP. """ etud_tuples = [] while True: line = self._file.readline() # cette section est impérativement la dernière du fichier # donc on arrête ici: if not line: break if not line.strip(): continue # silently ignore blank lines line = line.strip(APO_NEWLINE) fields = line.split(APO_SEP) if len(fields) < 4: raise ScoFormatError( """Ligne étudiant invalide (doit commencer par 'NIP NOM PRENOM dd/mm/yyyy')""", filename=self.get_filename(), ) cols = {} # { col_id : value } for i, field in enumerate(fields): cols[self.col_ids[i]] = field etud_tuples.append( ApoEtudTuple( nip=fields[0], # id etudiant nom=fields[1], prenom=fields[2], naissance=fields[3], cols=cols, ) # XXX à remettre dans apogee_csv.py # export_res_etape=self.export_res_etape, # export_res_sem=self.export_res_sem, # export_res_ues=self.export_res_ues, # export_res_modules=self.export_res_modules, # export_res_sdj=self.export_res_sdj, # export_res_rat=self.export_res_rat, # ) ) return etud_tuples def _apo_read_titres(self, f) -> dict: "Lecture section TITRES du fichier Apogée, renvoie dict" d = {} while True: line = f.readline().strip( " " + APO_NEWLINE ) # ne retire pas le \t (pour les clés vides) if not line.strip(): # stoppe sur ligne pleines de \t break fields = line.split(APO_SEP) if len(fields) == 2: k, v = fields else: log(f"Error read CSV: \nline={line}\nfields={fields}") log(dir(f)) raise ScoFormatError( f"Fichier Apogee incorrect (section titres, {len(fields)} champs au lieu de 2)", filename=self.get_filename(), ) d[k] = v # if not d.get("apoC_Fichier_Exp", None): raise ScoFormatError( "Fichier Apogee incorrect: pas de titre apoC_Fichier_Exp", filename=self.get_filename(), ) # keep only basename: may be a windows or unix pathname s = d["apoC_Fichier_Exp"].split("/")[-1] s = s.split("\\")[-1] # for DOS paths, eg C:\TEMP\VL4RT_V3ASR.TXT d["apoC_Fichier_Exp"] = s return d def get_filename(self) -> str: """Le nom du fichier APogée, tel qu'indiqué dans le fichier ou vide.""" if self.titles: return self.titles.get("apoC_Fichier_Exp", "") return "" def write(self, apo_etuds: list["ApoEtud"]) -> bytes: """Renvoie le contenu actualisé du fichier Apogée""" f = io.StringIO() self._write_header(f) self._write_etuds(f, apo_etuds) return f.getvalue().encode(APO_OUTPUT_ENCODING) def _write_etuds(self, f, apo_etuds: list["ApoEtud"]): """write apo CSV etuds on f""" for apo_etud in apo_etuds: fields = [] # e['nip'], e['nom'], e['prenom'], e['naissance'] ] for col_id in self.col_ids: try: fields.append(str(apo_etud.new_cols[col_id])) except KeyError: log( f"""Error: {apo_etud["nip"]} {apo_etud["nom"]} missing column key {col_id} Details:\napo_etud = {pprint.pformat(apo_etud)} col_ids={pprint.pformat(self.col_ids)} étudiant ignoré. """ ) f.write(APO_SEP.join(fields) + APO_NEWLINE) def _write_header(self, f): """write apo CSV header on f (beginning of CSV until columns titles just after XX-APO_VALEURS-XX line) """ for section, data in self.sections_str.items(): if section != "XX-APO_VALEURS-XX": # XXX TODO ici on va filtrer XX-APO_TYP_RES-XX f.write(data) f.write("XX-APO_VALEURS-XX" + APO_NEWLINE) f.write(self.column_titles) class ApoElt: """Définition d'un Element Apogée sur plusieurs colonnes du fichier CSV """ def __init__(self, cols): assert len(cols) > 0 assert len(set([c["Code"] for c in cols])) == 1 # colonnes de meme code assert len(set([c["Type Objet"] for c in cols])) == 1 # colonnes de meme type self.cols = cols self.code = cols[0]["Code"] self.version = cols[0]["Version"] self.type_objet = cols[0]["Type Objet"] def append(self, col): """ajoute une "colonne" à l'élément""" assert col["Code"] == self.code if col["Type Objet"] != self.type_objet: log( f"""Warning: ApoElt: duplicate id { self.code} ({self.type_objet} and {col["Type Objet"]})""" ) self.type_objet = col["Type Objet"] self.cols.append(col) def __repr__(self): return f"ApoElt(code='{self.code}', cols={pprint.pformat(self.cols)})" def guess_data_encoding(text: bytes, threshold=0.6): """Guess string encoding, using chardet heuristics. Returns encoding, or None if detection failed (confidence below threshold) """ r = chardet_detect(text) if r["confidence"] < threshold: return None else: return r["encoding"] def fix_data_encoding( text: bytes, default_source_encoding=APO_INPUT_ENCODING, dest_encoding=APO_INPUT_ENCODING, ) -> tuple[bytes, str]: """Try to ensure that text is using dest_encoding returns converted text, and a message describing the conversion. Raises UnicodeEncodeError en cas de problème, en général liée à une auto-détection errornée. """ message = "" detected_encoding = guess_data_encoding(text) if not detected_encoding: if default_source_encoding != dest_encoding: message = f"converting from {default_source_encoding} to {dest_encoding}" text = text.decode(default_source_encoding).encode(dest_encoding) else: if detected_encoding != dest_encoding: message = ( f"converting from detected {default_source_encoding} to {dest_encoding}" ) text = text.decode(detected_encoding).encode(dest_encoding) return text, message def _apo_read_typ_res(f) -> str: "Lit la section XX-APO_TYP_RES-XX" text = "XX-APO_TYP_RES-XX" + APO_NEWLINE while True: line = f.readline() stripped_line = line.strip() if not stripped_line: break text += line return text def _apo_next_non_blank_line(f: StringIOWithLineNumber) -> tuple[str, int]: "Ramène prochaine ligne non blanche, stripped, et l'indice de son début" while True: pos = f.tell() line = f.readline() if not line: return "", -1 stripped_line = line.strip() if stripped_line: return stripped_line, pos