From 95835b12f17df722f15d6433d3bf8d0a73e7bdf1 Mon Sep 17 00:00:00 2001
From: Bastien Le Querrec <blq@laquadrature.net>
Date: Sun, 14 Apr 2024 00:49:22 +0200
Subject: [PATCH] =?UTF-8?q?RAAspotter:=20affiche=20un=20avertissement=20en?=
 =?UTF-8?q?=20cas=20d'erreur=20dans=20l'extraction=20du=20texte,=20mais=20?=
 =?UTF-8?q?n'arr=C3=AAte=20pas=20l'analyse?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 RAAspotter.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/RAAspotter.py b/RAAspotter.py
index 5d17989..acf2a99 100644
--- a/RAAspotter.py
+++ b/RAAspotter.py
@@ -80,7 +80,10 @@ class RAAspotter:
 
             reader = PdfReader(f'{raa_data_dir}{self.get_sha256()}.ocr.pdf')
             for page in reader.pages:
-                text = text + "\n" + page.extract_text()
+                try:
+                    text = text + "\n" + page.extract_text()
+                except Exception as exc:
+                    logger.warning(f'ATTENTION: Impossible d\'extraire le texte du fichier {self.get_sha256()}.pdf : {exc}')
 
             # Écrit le texte du PDF dans un fichier texte pour une analyse future
             f = open(f'{raa_data_dir}{self.get_sha256()}.txt', 'w')
-- 
GitLab