Skip to content
Extraits de code Groupes Projets
Valider cf71fbd1 rédigé par Bastien Le Querrec's avatar Bastien Le Querrec
Parcourir les fichiers

RAAspotter: inclus l'URL du RAA trouvé dans le mail

parent 14f62f32
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
...@@ -4,6 +4,7 @@ import logging ...@@ -4,6 +4,7 @@ import logging
import requests import requests
import time import time
import datetime import datetime
from urllib.parse import quote
from selenium import webdriver from selenium import webdriver
from selenium.webdriver.common.by import By from selenium.webdriver.common.by import By
...@@ -205,7 +206,9 @@ class RAAspotter: ...@@ -205,7 +206,9 @@ class RAAspotter:
for keyword in keywords: for keyword in keywords:
if re.search(keyword, text, re.IGNORECASE|re.MULTILINE): if re.search(keyword, text, re.IGNORECASE|re.MULTILINE):
if not found: if not found:
url = quote(raa.url, safe='/:')
self.print_output(f'\033[92m{raa.name}\033[0m ({raa.date})') self.print_output(f'\033[92m{raa.name}\033[0m ({raa.date})')
self.print_output(f'URL : {url}')
found = True found = True
self.found = True self.found = True
self.print_output(f' Le terme \033[1m{keyword}\033[0m a été trouvé.') self.print_output(f' Le terme \033[1m{keyword}\033[0m a été trouvé.')
...@@ -236,7 +239,8 @@ class RAAspotter: ...@@ -236,7 +239,8 @@ class RAAspotter:
# Si le fichier n'a pas déjà été parsé et qu'il est postérieur à la date maximale d'analyse, # Si le fichier n'a pas déjà été parsé et qu'il est postérieur à la date maximale d'analyse,
# on le télécharge et on le parse # on le télécharge et on le parse
if (raa.date > self.not_before) and (not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.txt')): if (raa.date > self.not_before) and (not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.txt')):
logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {raa.url}') url = quote(raa.url, safe='/:')
logger.info(f'Nouveau fichier : {raa.name} ({raa.date}). URL : {url}')
self.download_file(raa) self.download_file(raa)
self.ocr(raa, True) self.ocr(raa, True)
self.parse_pdf(raa, keywords) self.parse_pdf(raa, keywords)
......
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter