diff --git a/RAAspotter.py b/RAAspotter.py index 2c45158d05ac93d73b2d4ced4d9fa9ecb61a0bfa..e291ddd0336024411f1363a5144106f3d3d7a092 100644 --- a/RAAspotter.py +++ b/RAAspotter.py @@ -4,6 +4,7 @@ import logging import requests import time import datetime +from urllib.parse import quote from selenium import webdriver from selenium.webdriver.common.by import By @@ -205,7 +206,9 @@ class RAAspotter: for keyword in keywords: if re.search(keyword, text, re.IGNORECASE|re.MULTILINE): if not found: + url = quote(raa.url, safe='/:') self.print_output(f'\033[92m{raa.name}\033[0m ({raa.date})') + self.print_output(f'URL : {url}') found = True self.found = True self.print_output(f' Le terme \033[1m{keyword}\033[0m a été trouvé.') @@ -236,7 +239,8 @@ class RAAspotter: # Si le fichier n'a pas déjà été parsé et qu'il est postérieur à la date maximale d'analyse, # on le télécharge et on le parse if (raa.date > self.not_before) and (not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.txt')): - logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {raa.url}') + url = quote(raa.url, safe='/:') + logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {url}') self.download_file(raa) self.ocr(raa, True) self.parse_pdf(raa, keywords)