From 8d1bd4edeadeb225b065f5be1a99cebf11a563aa Mon Sep 17 00:00:00 2001 From: Bastien Le Querrec <blq@laquadrature.net> Date: Tue, 7 Jan 2025 12:43:18 +0100 Subject: [PATCH] =?UTF-8?q?Attrap:=20corrige=20un=20crash=20dans=20le=20ca?= =?UTF-8?q?s=20o=C3=B9=20la=20date=20d'un=20RAA=20est=20d=C3=A9termin?= =?UTF-8?q?=C3=A9e=20=C3=A0=20partir=20de=20ses=20m=C3=A9tadonn=C3=A9es=20?= =?UTF-8?q?et=20qu'elle=20est=20ant=C3=A9rieure=20=C3=A0=20not=5Fbefore?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- Attrap.py | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/Attrap.py b/Attrap.py index 5727738..ba3b5b1 100644 --- a/Attrap.py +++ b/Attrap.py @@ -624,17 +624,17 @@ class Attrap: raa.parse_metadata(self.data_dir) # Lorsque la date du RAA n'est pas connue, on a dû télécharger le PDF pour récupérer la date de ses métadonnées. # Donc on vérifie à nouveau ici si la date correspond à ce qu'on veut analyser - if (raa.date and raa.date >= Attrap.get_aware_datetime(self.not_before, timezone=self.timezone)): + if not raa.date: + os.remove(f'{self.data_dir}/raa/{raa.get_sha256()}.pdf') + logger.error(f'ERREUR: le RAA {raa.name} n\'a pas de date !') + sys.exit(1) + if raa.date >= Attrap.get_aware_datetime(self.not_before, timezone=self.timezone): date_str = raa.date.strftime("%d/%m/%Y") logger.info(f'Nouveau fichier : {raa.name} ({date_str}). URL : {url}') self.flatten_pdf(raa) self.ocr(raa, True) raa.extract_content(self.data_dir) self.search_keywords(raa, keywords) - else: - os.remove(f'{self.data_dir}/raa/{raa.get_sha256()}.pdf') - logger.error(f'ERREUR: le RAA {raa.name} n\'a pas de date !') - sys.exit(1) except PdfStreamError as exc: logger.warning(f'ATTENTION: le RAA à l\'adresse {raa.url} n\'est pas valide ! On l\'ignore...') except EmptyFileError as exc: -- GitLab