From cf71fbd14d941606fc81591ca59ccab475bd2ee4 Mon Sep 17 00:00:00 2001 From: Bastien Le Querrec <blq@laquadrature.net> Date: Mon, 18 Mar 2024 15:44:23 +0100 Subject: [PATCH] =?UTF-8?q?RAAspotter:=20inclus=20l'URL=20du=20RAA=20trouv?= =?UTF-8?q?=C3=A9=20dans=20le=20mail?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- RAAspotter.py | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/RAAspotter.py b/RAAspotter.py index 2c45158..e291ddd 100644 --- a/RAAspotter.py +++ b/RAAspotter.py @@ -4,6 +4,7 @@ import logging import requests import time import datetime +from urllib.parse import quote from selenium import webdriver from selenium.webdriver.common.by import By @@ -205,7 +206,9 @@ class RAAspotter: for keyword in keywords: if re.search(keyword, text, re.IGNORECASE|re.MULTILINE): if not found: + url = quote(raa.url, safe='/:') self.print_output(f'\033[92m{raa.name}\033[0m ({raa.date})') + self.print_output(f'URL : {url}') found = True self.found = True self.print_output(f' Le terme \033[1m{keyword}\033[0m a été trouvé.') @@ -236,7 +239,8 @@ class RAAspotter: # Si le fichier n'a pas déjà été parsé et qu'il est postérieur à la date maximale d'analyse, # on le télécharge et on le parse if (raa.date > self.not_before) and (not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.txt')): - logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {raa.url}') + url = quote(raa.url, safe='/:') + logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {url}') self.download_file(raa) self.ocr(raa, True) self.parse_pdf(raa, keywords) -- GitLab