From 95835b12f17df722f15d6433d3bf8d0a73e7bdf1 Mon Sep 17 00:00:00 2001 From: Bastien Le Querrec <blq@laquadrature.net> Date: Sun, 14 Apr 2024 00:49:22 +0200 Subject: [PATCH] =?UTF-8?q?RAAspotter:=20affiche=20un=20avertissement=20en?= =?UTF-8?q?=20cas=20d'erreur=20dans=20l'extraction=20du=20texte,=20mais=20?= =?UTF-8?q?n'arr=C3=AAte=20pas=20l'analyse?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- RAAspotter.py | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/RAAspotter.py b/RAAspotter.py index 5d17989..acf2a99 100644 --- a/RAAspotter.py +++ b/RAAspotter.py @@ -80,7 +80,10 @@ class RAAspotter: reader = PdfReader(f'{raa_data_dir}{self.get_sha256()}.ocr.pdf') for page in reader.pages: - text = text + "\n" + page.extract_text() + try: + text = text + "\n" + page.extract_text() + except Exception as exc: + logger.warning(f'ATTENTION: Impossible d\'extraire le texte du fichier {self.get_sha256()}.pdf : {exc}') # Écrit le texte du PDF dans un fichier texte pour une analyse future f = open(f'{raa_data_dir}{self.get_sha256()}.txt', 'w') -- GitLab