From cf71fbd14d941606fc81591ca59ccab475bd2ee4 Mon Sep 17 00:00:00 2001
From: Bastien Le Querrec <blq@laquadrature.net>
Date: Mon, 18 Mar 2024 15:44:23 +0100
Subject: [PATCH] =?UTF-8?q?RAAspotter:=20inclus=20l'URL=20du=20RAA=20trouv?=
 =?UTF-8?q?=C3=A9=20dans=20le=20mail?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 RAAspotter.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/RAAspotter.py b/RAAspotter.py
index 2c45158..e291ddd 100644
--- a/RAAspotter.py
+++ b/RAAspotter.py
@@ -4,6 +4,7 @@ import logging
 import requests
 import time
 import datetime
+from urllib.parse import quote
 
 from selenium import webdriver
 from selenium.webdriver.common.by import By
@@ -205,7 +206,9 @@ class RAAspotter:
       for keyword in keywords:
         if re.search(keyword, text, re.IGNORECASE|re.MULTILINE):
           if not found:
+            url = quote(raa.url, safe='/:')
             self.print_output(f'\033[92m{raa.name}\033[0m ({raa.date})')
+            self.print_output(f'URL : {url}')
             found = True
             self.found = True
           self.print_output(f'    Le terme \033[1m{keyword}\033[0m a été trouvé.')
@@ -236,7 +239,8 @@ class RAAspotter:
       # Si le fichier n'a pas déjà été parsé et qu'il est postérieur à la date maximale d'analyse,
       # on le télécharge et on le parse
       if (raa.date > self.not_before) and (not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.txt')):
-        logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {raa.url}')
+        url = quote(raa.url, safe='/:')
+        logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {url}')
         self.download_file(raa)
         self.ocr(raa, True)
         self.parse_pdf(raa, keywords)
-- 
GitLab