diff --git a/Attrap.py b/Attrap.py index 5727738bc024e55e396a5ec5d7a9c22daab17fd2..ba3b5b126e707954429d7189238643a120d522fa 100644 --- a/Attrap.py +++ b/Attrap.py @@ -624,17 +624,17 @@ class Attrap: raa.parse_metadata(self.data_dir) # Lorsque la date du RAA n'est pas connue, on a dû télécharger le PDF pour récupérer la date de ses métadonnées. # Donc on vérifie à nouveau ici si la date correspond à ce qu'on veut analyser - if (raa.date and raa.date >= Attrap.get_aware_datetime(self.not_before, timezone=self.timezone)): + if not raa.date: + os.remove(f'{self.data_dir}/raa/{raa.get_sha256()}.pdf') + logger.error(f'ERREUR: le RAA {raa.name} n\'a pas de date !') + sys.exit(1) + if raa.date >= Attrap.get_aware_datetime(self.not_before, timezone=self.timezone): date_str = raa.date.strftime("%d/%m/%Y") logger.info(f'Nouveau fichier : {raa.name} ({date_str}). URL : {url}') self.flatten_pdf(raa) self.ocr(raa, True) raa.extract_content(self.data_dir) self.search_keywords(raa, keywords) - else: - os.remove(f'{self.data_dir}/raa/{raa.get_sha256()}.pdf') - logger.error(f'ERREUR: le RAA {raa.name} n\'a pas de date !') - sys.exit(1) except PdfStreamError as exc: logger.warning(f'ATTENTION: le RAA à l\'adresse {raa.url} n\'est pas valide ! On l\'ignore...') except EmptyFileError as exc: