Comparer les révisions

8f39adb9 · 8f39adb9 · 8f39adb9 · 8f39adb9 · 8f39adb9 · 8f39adb9
--- a/RAAspotter.py
+++ b/RAAspotter.py
-import os, re, ssl, sys
-import subprocess
-import logging
-import requests
-import time
-import datetime
-from urllib.parse import quote
-
-from selenium import webdriver
-from selenium.webdriver.common.by import By
-from selenium.webdriver.support.wait import WebDriverWait
-from selenium.webdriver.support import expected_conditions
-
-from bs4 import BeautifulSoup
-from pyvirtualdisplay import Display
-from pdfminer.high_level import extract_text
-
-from stem import Signal
-from stem.control import Controller
-
-import hashlib
-import smtplib
-from email.message import EmailMessage
-
-from mastodon import Mastodon
-
-logger = logging.getLogger(__name__)
-
-class RAAspotter:
-  class RAA:
-    url      = ""
-    date     = datetime.datetime(1970, 1, 1)
-    date_str = ""
-    name     = ""
-    filename = ""
-    sha256   = ""
-
-    def __init__(self, url, date, name, filename):
-      if not url == "":
-        self.url = url
-      if not date == "":
-        self.date = date
-        self.date_str = date.strftime("%d/%m/%Y")
-      if not name == "":
-        self.name = name
-      if not filename == "":
-        self.filename = filename
-
-    def get_sha256(self):
-      if (self.sha256 == ""):
-        self.sha256 = hashlib.sha256(self.filename.encode('utf-8')).hexdigest()
-      return self.sha256
-
-  def __init__(self, data_dir, user_agent=''):
-    logger.debug('Initialisation de RAAspotter')
-
-    self.session          = requests.Session()
-    self.data_dir         = data_dir
-    self.found            = False
-    self.output_file_path = os.path.dirname(os.path.abspath(__file__))+'/output.log'
-    self.sleep_time       = 0
-    self.tor_enabled      = False
-    self.tor_max_requests = 0
-    self.tor_requests     = 0
-    self.not_before       = datetime.datetime(2024, 1, 1)
-    self.smtp_configured  = False
-    self.mastodon         = None
-    self.mastodon_prefix  = ''
-    self.mastodon_suffix  = ''
-
-    self.update_user_agent(user_agent)
-
-    f = open(self.output_file_path,'w')
-    f.write('')
-    f.close()
-
-  def configure_mastodon(self, access_token, instance, mastodon_prefix, mastodon_suffix):
-    if access_token and access_token != "" and instance and instance != "":
-      self.mastodon = Mastodon(
-        access_token=access_token,
-        api_base_url=instance
-      )
-      self.mastodon_prefix = mastodon_prefix
-      self.mastodon_suffix = mastodon_suffix
-
-  def mastodon_toot(self, content):
-    if self.mastodon:
-      toot = content
-      if not self.mastodon_prefix == '':
-        toot = f"{self.mastodon_prefix}\n\n{toot}"
-      if not self.mastodon_suffix == '':
-        toot = f"{toot}\n\n{self.mastodon_suffix}"
-      self.mastodon.toot(toot)
-
-  def enable_tor(self, max_requests=0):
-    proxies = {
-      "http": f"socks5h://127.0.0.1:9050",
-      "https": f"socks5h://127.0.0.1:9050",
-    }
-    self.tor_enabled      = True
-    self.tor_max_requests = max_requests
-    self.tor_requests     = 0
-    self.session.proxies.update(proxies)
-    self.tor_get_new_id()
-
-  def disable_tor(self):
-    proxies = {}
-    self.tor_enabled      = False
-    self.tor_max_requests = 0
-    self.tor_requests     = 0
-    self.session.proxies.update(proxies)
-
-  def tor_get_new_id(self):
-    logger.info('Changement d\'identité Tor')
-    try:
-      controller = Controller.from_port(port = 9051)
-      controller.authenticate()
-      controller.signal(Signal.NEWNYM)
-      time.sleep(5)
-      self.tor_requests = 0
-    except:
-      logger.debug('Impossible de changer d\'identité Tor')
-
-  def get_sub_pages(self, page_content, element, host=""):
-    soup = BeautifulSoup(page_content, 'html.parser')
-    sub_pages = []
-    for a in soup.select(element):
-      if a.get('href'):
-        url = f"{host}{a['href']}"
-        sub_page_content = self.get_page(url, 'get').content
-        if not self.has_pdf(sub_page_content):
-          logger.info(f'{url} ne contient pas de PDF, on récupère ses sous-pages')
-          for sub_sub_page in self.get_sub_pages(sub_page_content, element, host):
-            sub_pages.append(sub_sub_page)
-        else:
-          sub_pages.append(url)
-    return sub_pages
-
-  def get_sub_pages_with_pager(self, page, sub_page_element, pager_element, host=""):
-    pages = []
-    page_content = self.get_page(page, 'get').content
-
-    # On initialise le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-    
-    # On recherche les sous-pages
-    sub_pages = soup.select(sub_page_element)
-    for sub_page in sub_pages:
-      if sub_page.get('href'):
-        pages.append(f"{host}{sub_page['href']}")
-
-    # On recherche un pager, et si on le trouve on le suit
-    pager = soup.select(pager_element)
-    if pager[0] and pager[0].get('href'):
-      for sub_page in self.get_sub_pages_with_pager(f"{host}{pager[0]['href']}", sub_page_element, pager_element, host):
-        pages.append(sub_page)
-
-    return pages
-
-  def get_raa_with_pager(self, pages_list, pager_element, host=""):
-    elements = []
-    # On parse chaque page passée en paramètre
-    for page in pages_list:
-      page_content = self.get_page(page, 'get').content
-
-      # Pour chaque page, on récupère les PDF
-      for raa in self.get_raa_elements(page_content):
-        elements.append(raa)
-
-      # On regarde également s'il n'y aurait pas un pager
-      sub_pages = self.get_sub_pages(page_content, pager_element, host)
-      for sub_raa in self.get_raa_with_pager(sub_pages, pager_element, host):
-        elements.append(sub_raa)
-    return elements
-
-  def set_sleep_time(self, sleep_time):
-    self.sleep_time = sleep_time
-
-  def has_pdf(self, page_content):
-    elements = []
-    soup = BeautifulSoup(page_content, 'html.parser')
-    for a in soup.find_all('a', href=True):
-      if a['href'].endswith('.pdf'):
-        return True
-    return False
-
-  # On démarre le navigateur
-  def get_session(self, url, wait_element=""):
-    webdriver_options = webdriver.ChromeOptions()
-    webdriver_options.add_argument("--no-sandbox")
-    webdriver_options.add_argument("--disable-extensions")
-    webdriver_options.add_argument("--disable-gpu")
-    webdriver_options.add_argument("--disable-dev-shm-usage")
-    webdriver_options.add_argument("--use_subprocess")
-    webdriver_options.add_argument("--disable-blink-features=AutomationControlled")
-
-    if not self.user_agent == "":
-      webdriver_options.add_argument(f"--user-agent={self.user_agent}")
-
-    webdriver_options.add_argument("--headless")
-    webdriver_options.add_argument("--window-size=1024,768")
-    display = Display(visible=False, size=(1024, 768))
-    display.start()
-
-    browser = webdriver.Chrome(options=webdriver_options)
-
-    # Téléchargement de l'URL
-    browser.get(url)
-
-    if not wait_element == "":
-      # On attend que le navigateur ait passé les tests anti-robots et que le contenu s'affiche
-      WebDriverWait(browser, 120).until(expected_conditions.presence_of_element_located((By.ID, wait_element)))
-    page_content = browser.page_source
-
-    # On récupère les cookies du navigateur pour les réutiliser plus tard
-    for cookie in browser.get_cookies():
-      self.session.cookies.set(cookie['name'], cookie['value'])
-
-    # On arrête le navigateur
-    browser.quit()
-    display.stop()
-
-    return page_content
-
-  def print_output(self, data):
-    print(data)
-    data = data.replace('\033[92m', '')
-    data = data.replace('\033[0m', '')
-    data = data.replace('\033[1m', '')
-    f = open(self.output_file_path,'a')
-    f.write(data+"\n")
-    f.close()
-
-  def get_page(self, url, method, data={}):
-    try:
-      logger.debug(f'Chargement de la page {url}')
-      if self.sleep_time > 0:
-        time.sleep(self.sleep_time)
-      
-      page = None
-      if method == 'get':
-        page = self.session.get(url)
-      if method == 'post':
-        page = self.session.post(url, data=data)
-
-      if page.status_code == 429:
-        logger.debug(f'Erreur 429 Too Many Requests reçue, temporisation...')
-        self.tor_get_new_id()
-        time.sleep(55)
-        return self.get_page(url, method, data)
-      
-      if self.tor_enabled:
-        self.tor_requests+=1
-        if self.tor_max_requests>0 and self.tor_requests>self.tor_max_requests:
-          self.tor_get_new_id()
-
-      return page
-    except requests.exceptions.ConnectionError as exc:
-      logger.debug(f'Erreur de connexion, temporisation...')
-      self.tor_get_new_id()
-      time.sleep(55)
-      return self.get_page(url, method, data)
-
-  def update_user_agent(self, user_agent):
-    self.user_agent = user_agent
-    self.session.headers.update({'User-Agent': self.user_agent})
-
-  def download_file(self, raa):
-    try:
-      os.makedirs(os.path.dirname(f'{self.data_dir}{raa.get_sha256()}.pdf'), exist_ok=True)
-      file = self.get_page(raa.url, 'get')
-      f = open(f'{self.data_dir}{raa.get_sha256()}.pdf','wb')
-      f.write(file.content)
-      f.close()
-    except (requests.exceptions.ConnectionError, requests.exceptions.ChunkedEncodingError):
-      logger.warning(f'ATTENTION: la connexion a été interrompue pendant le téléchargement de {raa.url}, nouvelle tentative...')
-      self.download_file(raa)
-    except Exception as exc:
-      logger.warning(f'ATTENTION: Impossible de télécharger le fichier {raa.url}: {exc}')
-
-  def parse_pdf(self, raa, keywords):
-    if not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.pdf'):
-      logger.warning(f'ATTENTION: le fichier {raa.get_sha256()}.pdf n\'existe pas')
-    else:
-      text = extract_text(f'{self.data_dir}{raa.get_sha256()}.pdf')
-      found = False
-      found_keywords = []
-      for keyword in keywords:
-        if re.search(keyword, text, re.IGNORECASE|re.MULTILINE):
-          if not found:
-            url = quote(raa.url, safe='/:')
-            self.print_output(f'\033[92m{raa.name}\033[0m ({raa.date_str})')
-            self.print_output(f'URL : {url}')
-            found = True
-            self.found = True
-          self.print_output(f'    Le terme \033[1m{keyword}\033[0m a été trouvé.')
-          found_keywords.append(keyword)
-
-      # Écrit le texte du PDF dans un fichier texte pour une analyse future, puis supprime le PDF
-      f = open(f'{self.data_dir}{raa.get_sha256()}.txt','w')
-      f.write(text)
-      f.close()
-      os.remove(f'{self.data_dir}{raa.get_sha256()}.pdf')
-      if found:
-        self.print_output('')
-        url = quote(raa.url, safe='/:')
-        found_keywords_str = ', '.join([str(x) for x in found_keywords])
-        self.mastodon_toot(f"{raa.name} ({raa.date_str})\n\nLes termes suivants ont été trouvés : {found_keywords_str}.\n\nURL : {url}")
-
-
-  def ocr(self, raa, retry_on_failure=True):
-    cmd = [
-      'ocrmypdf',
-      '-l', 'eng+fra',
-      '--output-type', 'pdfa',
-      '--redo-ocr',
-      '--skip-big', '500',
-      '--invalidate-digital-signatures',
-      f'{self.data_dir}{raa.get_sha256()}.pdf',
-      f'{self.data_dir}{raa.get_sha256()}.pdf'
-    ]
-    logger.debug(f'Lancement de ocrmypdf: {cmd}')
-    try:
-      output = subprocess.check_output(cmd, stderr=subprocess.STDOUT)
-    except subprocess.CalledProcessError as exc:
-      if exc.returncode == 2 and retry_on_failure:
-        logger.warning('ATTENTION : Le fichier n\'est pas un PDF correct, nouvelle tentative de le télécharger')
-        if self.tor_enabled:
-          self.tor_get_new_id()
-        self.download_file(raa)
-        self.ocr(raa,False)
-      elif (not exc.returncode == 6) and (not exc.returncode == 10):
-        logger.warning('ATTENTION : Impossible d\'OCRiser le document', exc.returncode, exc.output)
-
-  def parse_raa(self, elements, keywords):
-    for raa in elements:
-      # Si le fichier n'a pas déjà été parsé et qu'il est postérieur à la date maximale d'analyse,
-      # on le télécharge et on le parse
-      if (raa.date >= self.not_before) and (not os.path.isfile(f'{self.data_dir}{raa.get_sha256()}.txt')):
-        url = quote(raa.url, safe='/:')
-        logger.info(f'Nouveau fichier : {raa.name} ({raa.date_str}). URL : {url}')
-        self.download_file(raa)
-        self.ocr(raa, True)
-        self.parse_pdf(raa, keywords)
-
-  def get_raa(self, page_content):
-    logger.error('Cette fonction doit être surchargée')
-
-  def configure_mailer(self, smtp_host, smtp_username, smtp_password,
-                       smtp_port, smtp_starttls, smtp_ssl, email_from,
-                       email_to, email_object):
-    self.smtp_host     = smtp_host
-    self.smtp_username = smtp_username
-    self.smtp_password = smtp_password
-    if smtp_port <= 0:
-      self.smtp_port   = 587
-    else:
-      self.smtp_port   = int(smtp_port)
-    self.smtp_starttls = smtp_starttls
-    self.smtp_ssl      = smtp_ssl
-    self.email_from    = email_from
-    self.email_to      = email_to
-    self.email_object  = email_object
-
-    if smtp_host and smtp_username and smtp_password and email_from and email_to and email_object:
-      self.smtp_configured = True
-
-  def mailer(self):
-    if self.smtp_configured and self.found:
-      try:
-        message = EmailMessage()
-        message.set_content(open(self.output_file_path).read())
-
-        message['Subject'] = self.email_object
-        message['From'] = self.email_from
-
-        context = ssl.create_default_context()
-
-        if self.smtp_ssl == True:
-          for address in self.email_to.split(','):
-            del message['To']
-            message['To'] = address
-            smtp = smtplib.SMTP_SSL(self.smtp_host, port, context=context)
-            if self.smtp_username:
-              smtp.login(self.smtp_username, self.smtp_password)
-            smtp.send_message(message)
-            smtp.quit()
-        elif self.smtp_starttls == True:
-          for address in self.email_to.split(','):
-            del message['To']
-            message['To'] = address
-            smtp = smtplib.SMTP(self.smtp_host)
-            smtp.starttls(context=context)
-            if self.smtp_username:
-              smtp.login(self.smtp_username, self.smtp_password)
-            smtp.send_message(message)
-            smtp.quit()
-        else:
-          for address in self.email_to.split(','):
-            del message['To']
-            message['To'] = address
-            smtp = smtplib.SMTP(self.smtp_host)
-            if self.smtp_username:
-              smtp.login(self.smtp_username, self.smtp_password)
-            smtp.send_message(message)
-            smtp.quit()
-      except Exception as exc:
-        logger.warning(f'Impossible d\'envoyer le courrier électronique : {exc}')
--- a/RAAspotter_ppparis.py
+++ b/RAAspotter_ppparis.py
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_ppparis(RAAspotter):
-
-  # Config
-  __RAA_PAGE     = 'https://www.prefecturedepolice.interieur.gouv.fr/actualites-et-presse/arretes/accueil-arretes'
-  __WAIT_ELEMENT = 'block-decree-list-block'
-  __USER_AGENT   = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture de police de Paris'
-  short_code = 'ppparis'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_ppparis')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    page_content = self.get_session()
-    raa_elements = self.get_raa_elements(page_content)
-    self.parse_raa(raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-    for a in soup.find_all('a', href=True):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = 'https://www.prefecturedepolice.interieur.gouv.fr'+a['href']
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').get_text()
-        date     = datetime.datetime.strptime(a.find('div', class_="field--type-datetime").get_text().strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
-
-  def get_session(self):
-    return super().get_session(self.__RAA_PAGE, self.__WAIT_ELEMENT)
--- a/RAAspotter_pref06.py
+++ b/RAAspotter_pref06.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref06(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.alpes-maritimes.gouv.fr'
-  __RAA_PAGE   = {'2024':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2024/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2024/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2024/Recueils-specifiques'],
-                  '2023':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2023/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2023/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2023/Recueils-specifiques'],
-                  '2022':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2022/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2022/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2022/Recueils-specifiques'],
-                  '2021':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2021/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2021/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2021/Recueils-specifiques'],
-                  '2020':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2020/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2020/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2020/Recueils-specifiques'],
-                  '2019':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2019/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2019/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2019/Recueils-specifiques']}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture des Alpes-Maritimes'
-  short_code = 'pref06'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref06')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      for page in self.__RAA_PAGE['2024']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2023:
-      for page in self.__RAA_PAGE['2023']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2022:
-      for page in self.__RAA_PAGE['2022']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2021:
-      for page in self.__RAA_PAGE['2021']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2020:
-      for page in self.__RAA_PAGE['2020']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2019:
-      for page in self.__RAA_PAGE['2019']:
-        pages_to_parse.append(page)
-
-    elements = self.get_raa_with_pager(pages_to_parse, ".fr-pagination__link.fr-pagination__link--next", self.__HOST)
-    self.parse_raa(elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque élément fr-card__content, on cherche sa balise a, et si c'est un PDF on le parse
-    cards = soup.find_all('div', class_='fr-card__content')
-    for card in cards:
-      a = card.find('a')
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.get_text().strip()
-        date     = datetime.datetime.strptime(card.find('p', class_='fr-card__detail').get_text().replace('Publié le ', '').strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
--- a/RAAspotter_pref13.py
+++ b/RAAspotter_pref13.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref13(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.bouches-du-rhone.gouv.fr'
-  __RAA_PAGE   = [f'{__HOST}/Publications/RAA-et-Archives/RAA-2024',
-                  f'{__HOST}/Publications/RAA-et-Archives/RAA-2023',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2022',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2021',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2020',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2019']
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture des Bouches-du-Rhône'
-  short_code = 'pref13'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(10)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref13')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    for raa_page in self.__RAA_PAGE:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-    for a in soup.select('a.fr-link.fr-link--download'):
-      if a.get('href') and a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-        date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
--- a/RAAspotter_pref34.py
+++ b/RAAspotter_pref34.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref34(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.herault.gouv.fr'
-  __RAA_PAGE   = {'2024': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2024',
-                  '2023': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2023',
-                  '2022': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2022',
-                  '2021': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2021',
-                  '2020': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2020',
-                  '2019': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Archives/Recueil-des-actes-administratifs-2019'}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture de l\'Hérault'
-  short_code = 'pref34'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(10)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref34')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      pages_to_parse.append(self.__RAA_PAGE['2024'])
-    if self.not_before.year <= 2023:
-      pages_to_parse.append(self.__RAA_PAGE['2023'])
-    if self.not_before.year <= 2022:
-      pages_to_parse.append(self.__RAA_PAGE['2022'])
-    if self.not_before.year <= 2021:
-      pages_to_parse.append(self.__RAA_PAGE['2021'])
-    if self.not_before.year <= 2020:
-      pages_to_parse.append(self.__RAA_PAGE['2020'])
-    if self.not_before.year <= 2019:
-      pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-    for raa_page in pages_to_parse:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère chaque balise a
-    for a in soup.select('a.fr-link.fr-link--download'):
-      if a.get('href') and a['href'].endswith('.pdf'):
-          if a['href'].startswith('/'):
-            url = f"{self.__HOST}{a['href']}"
-          else:
-            url = a['href']
-
-          url      = unquote(url)
-          name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-          date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-          filename = url.split('/')[-1]
-
-          raa = RAAspotter.RAA(url, date, name, filename)
-          elements.append(raa)
-    return elements
--- a/RAAspotter_pref35.py
+++ b/RAAspotter_pref35.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref35(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.ille-et-vilaine.gouv.fr'
-  __RAA_PAGE   = [f'{__HOST}/Publications/Recueil-des-actes-administratifs/Recueil-des-actes-administratifs-2024',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2023',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2022',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2021',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2020',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2019']
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture d\'Ille-et-Vilaine'
-  short_code = 'pref35'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(10)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref35')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    for raa_page in self.__RAA_PAGE:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-    for a in soup.find_all('a', href=True, class_='fr-link--download'):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-        date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
--- a/RAAspotter_pref38.py
+++ b/RAAspotter_pref38.py
-import os, sys, re
-import datetime
-import dateparser
-import logging
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-logger = logging.getLogger(__name__)
-
-class RAAspotter_pref38(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.isere.gouv.fr'
-  __RAA_PAGE   = {'2024': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2024',
-                  '2023': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2023',
-                  '2022': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2022',
-                  '2021': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-recueils-des-actes-administratifs-de-la-prefecture-de-l-Isere-2021/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2021',
-                  '2020': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-recueils-des-actes-administratifs-de-la-prefecture-de-l-Isere-2020/Recueils-des-Actes-Administratifs-de-la-Prefecture-de-l-Isere-2020',
-                  '2019': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2019/Archives-des-Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2019'}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture de l\'Isère'
-  short_code = 'pref38'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref38')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      pages_to_parse.append(self.__RAA_PAGE['2024'])
-    if self.not_before.year <= 2023:
-      pages_to_parse.append(self.__RAA_PAGE['2023'])
-    if self.not_before.year <= 2022:
-      pages_to_parse.append(self.__RAA_PAGE['2022'])
-    if self.not_before.year <= 2021:
-      pages_to_parse.append(self.__RAA_PAGE['2021'])
-    if self.not_before.year <= 2020:
-      pages_to_parse.append(self.__RAA_PAGE['2020'])
-    if self.not_before.year <= 2019:
-      pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-    for raa_page in pages_to_parse:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content, raa_page)
-      self.parse_raa(raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content, raa_page):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère le select qui contient la liste des RAA
-    select_list = soup.select('select#-liste-docs')[0]
-    # On analyse chaque résultat
-    for option in select_list.find_all('option'):
-      if not option['value'] == "":
-        guessed_date = datetime.datetime(9999, 1, 1)
-        try:
-          # Pour chaque RAA listé, on essaie de deviner sa date à partir de son nom, et si elle correspond à la plage
-          # demandée, on poursuit l'analyse
-          search = re.search('.* n°[ 0-9]* du ([0-9]*(?:er)? [a-zéû]* [0-9]*)', option['title'], re.IGNORECASE)
-          guessed_date = dateparser.parse(search.group(1))
-        except Exception as exc:
-          logger.warning(f"Impossible de deviner la date du RAA {option['title']} : {exc}")
-        
-        # Si la date estimée correspond à la plage d'analyse, on demande au serveur les détails du RAA
-        if guessed_date >= self.not_before:
-          page_content = self.get_page(raa_page, 'post', {'-liste-docs':option['value']}).content
-          # On parse la page de détails pour obtenir les propriétés du RAA
-          soup = BeautifulSoup(page_content, 'html.parser')
-          a = soup.select('div.liste_deroulante a.fr-link.fr-link--download')[0]
-          
-          # Si la page contient une balise a qui renvoie vers un pdf, c'est qu'on a obtenu les détails du RAA demandé, donc on le parse
-          if a.get('href') and a['href'].endswith('.pdf'):
-            if a['href'].startswith('/'):
-              url = f"{self.__HOST}{a['href']}"
-            else:
-              url = a['href']
-
-            url      = unquote(url)
-            name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-            date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-            filename = url.split('/')[-1]
-
-            raa = RAAspotter.RAA(url, date, name, filename)
-            elements.append(raa)
-    return elements
--- a/RAAspotter_pref59.py
+++ b/RAAspotter_pref59.py
-import os, sys, re
-import datetime
-import dateparser
-import logging
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-logger = logging.getLogger(__name__)
-
-class RAAspotter_pref59(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.nord.gouv.fr'
-  __RAA_PAGE   = {'2024': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2024',
-                  '2023': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2023',
-                  '2022': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2022',
-                  '2021': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2021',
-                  '2020': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2020',
-                  '2019': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2019'}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture du Nord'
-  short_code = 'pref59'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref59')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      pages_to_parse.append(self.__RAA_PAGE['2024'])
-    if self.not_before.year <= 2023:
-      pages_to_parse.append(self.__RAA_PAGE['2023'])
-    if self.not_before.year <= 2022:
-      pages_to_parse.append(self.__RAA_PAGE['2022'])
-    if self.not_before.year <= 2021:
-      pages_to_parse.append(self.__RAA_PAGE['2021'])
-    if self.not_before.year <= 2020:
-      pages_to_parse.append(self.__RAA_PAGE['2020'])
-    if self.not_before.year <= 2019:
-      pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-    for raa_page in pages_to_parse:
-      page_content = self.get_page(raa_page, 'get').content
-      sub_pages = self.get_sub_pages(page_content, "div.fr-card__body div.fr-card__content h2.fr-card__title a", self.__HOST)
-      for sub_page in sub_pages[::-1]:
-        sub_page_content = self.get_page(sub_page, 'get').content
-        sub_raa_elements = self.get_raa_elements(sub_page_content)
-        self.parse_raa(sub_raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère chaque balise a
-    for a in soup.select('a.fr-link.fr-link--download'):
-      if a.get('href') and a['href'].endswith('.pdf'):
-          if a['href'].startswith('/'):
-            url = f"{self.__HOST}{a['href']}"
-          else:
-            url = a['href']
-
-          url      = unquote(url)
-          name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-          date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-          filename = url.split('/')[-1]
-
-          raa = RAAspotter.RAA(url, date, name, filename)
-          elements.append(raa)
-    return elements
--- a/RAAspotter_pref62.py
+++ b/RAAspotter_pref62.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref62(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.pas-de-calais.gouv.fr'
-  __RAA_PAGE   = {'2024':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2024-Recueils-des-actes-administratifs'],
-                  '2023':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2023-Recueils-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2023-Recueils-speciaux-des-actes-administratifs'],
-                  '2022':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2022-Recueils-des-Actes-Administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2022-Recueils-Speciaux-des-Actes-Administratifs'],
-                  '2021':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2021-Recueils-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2021-Recueils-speciaux-des-actes-administratifs'],
-                  '2020':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2020-Recueils-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2020-Recueils-speciaux-des-actes-administratifs'],
-                  '2019':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2019-Recueil-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2019-Recueils-speciaux-des-actes-administratifs']}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture du Pas-de-Calais'
-  short_code = 'pref62'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref62')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      for page in self.__RAA_PAGE['2024']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2023:
-      for page in self.__RAA_PAGE['2023']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2022:
-      for page in self.__RAA_PAGE['2022']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2021:
-      for page in self.__RAA_PAGE['2021']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2020:
-      for page in self.__RAA_PAGE['2020']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2019:
-      for page in self.__RAA_PAGE['2019']:
-        pages_to_parse.append(page)
-
-    for raa_page in pages_to_parse:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère le div qui contient la liste des RAA
-    cards = soup.select('div.fr-downloads-group.fr-downloads-group--bordered')[0]
-    # On analyse chaque balise a dans ce div
-    for a in cards.find_all('a', href=True):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-        date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements[::-1]
--- a/RAAspotter_pref69.py
+++ b/RAAspotter_pref69.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref69(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.rhone.gouv.fr'
-  __RAA_PAGE   = {'2024': f'{__HOST}/Publications/Recueil-des-actes-administratifs-du-Rhone-RAA/Recueils-de-2024',
-                  '2023': f'{__HOST}/Publications/Recueil-des-actes-administratifs-du-Rhone-RAA/Recueils-de-2023',
-                  '2022': f'{__HOST}/Publications/Recueil-des-actes-administratifs-du-Rhone-RAA/Recueils-de-2022',
-                  '2021': f'{__HOST}/Publications/Recueil-des-actes-administratifs-du-Rhone-RAA/Recueils-de-2021',
-                  '2020': f'{__HOST}/Publications/Recueil-des-actes-administratifs-du-Rhone-RAA/Recueils-de-2020',
-                  '2019': f'{__HOST}/Publications/Recueil-des-actes-administratifs-du-Rhone-RAA/Recueils-de-2019'}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture du Rhône'
-  short_code = 'pref69'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref69')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      pages_to_parse.append(self.__RAA_PAGE['2024'])
-    if self.not_before.year <= 2023:
-      pages_to_parse.append(self.__RAA_PAGE['2023'])
-    if self.not_before.year <= 2022:
-      pages_to_parse.append(self.__RAA_PAGE['2022'])
-    if self.not_before.year <= 2021:
-      pages_to_parse.append(self.__RAA_PAGE['2021'])
-    if self.not_before.year <= 2020:
-      pages_to_parse.append(self.__RAA_PAGE['2020'])
-    if self.not_before.year <= 2019:
-      pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-    sub_pages_to_parse = []
-    
-    for raa_page in pages_to_parse:
-      sub_pages = self.get_sub_pages_with_pager(raa_page, 
-                                                "div.fr-card__body div.fr-card__content h2.fr-card__title a.fr-card__link",
-                                                "ul.fr-pagination__list li a.fr-pagination__link--next",
-                                                self.__HOST)[::-1]
-      for sub_page in sub_pages:
-        sub_pages_to_parse.append(sub_page)
-    
-    elements = []
-    for sub_page_to_parse in sub_pages_to_parse:
-      page_content = self.get_page(sub_page_to_parse, 'get').content
-      for element in self.get_raa_elements(page_content)[::-1]:
-        elements.append(element)
-
-    self.parse_raa(elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère chaque balise a
-    for a in soup.select('a.fr-link.fr-link--download'):
-      if a.get('href') and a['href'].endswith('.pdf'):
-          if a['href'].startswith('/'):
-            url = f"{self.__HOST}{a['href']}"
-          else:
-            url = a['href']
-
-          url      = unquote(url)
-          name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-          date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-          filename = url.split('/')[-1]
-
-          raa = RAAspotter.RAA(url, date, name, filename)
-          elements.append(raa)
-    return elements
--- a/README.md
+++ b/README.md
--- a/cli.py
+++ b/cli.py
--- a/misc/download-all-from-s3.sh
+++ b/misc/download-all-from-s3.sh
--- a/misc/download-from-s3.sh
+++ b/misc/download-from-s3.sh
+#!/usr/bin/env bash
+
+set -e
+
+pref="${1}"
+s3_key="${2}"
+s3_secret="${3}"
+s3_host="${4}"
+s3_bucket="${5}"
+dest="${6}"
+
+if test -z "$pref" || test -z "$s3_key" || test -z "$s3_secret" || test -z "$s3_host" || test -z "$s3_bucket" || test -z "$dest"; then
+	echo "Usage: ${0} <pref> <s3_key> <s3_secret> <s3_host> <s3_bucket> <dest>"
+	exit 1
+fi
+
+dest=$(realpath "${dest}")
+
+mkdir -p "${dest}/"
+cd "${dest}/"
+
+file="${pref}.zip"
+
+echo "Downloading ${pref}..."
+
+ressource="/${s3_bucket}/${file}"
+content_type="application/octet-stream"
+date=$(date --utc -R)
+
+signature=$(echo -en "GET\n\n${content_type}\n${date}\n${ressource}" | openssl sha1 -hmac "${s3_secret}" -binary | base64)
+
+curl -X GET \
+	 --silent \
+	 -H "Date: ${date}" \
+	 -H "Content-Type: ${content_type}" \
+	 -H "Authorization: AWS ${s3_key}:${signature}" \
+	 "${s3_host}${ressource}" \
+	 -o "${file}"
+
+unzip -o "${file}" > /dev/null
+rm "${file}"
--- a/misc/fix-pref75-prefidf-url.py
+++ b/misc/fix-pref75-prefidf-url.py
--- a/misc/update_metadata_format.py
+++ b/misc/update_metadata_format.py
--- a/misc/upload-all-to-s3.sh
+++ b/misc/upload-all-to-s3.sh
--- a/misc/upload-to-s3.sh
+++ b/misc/upload-to-s3.sh
+#!/usr/bin/env bash
+
+set -e
+
+pref="${1}"
+s3_key="${2}"
+s3_secret="${3}"
+s3_host="${4}"
+s3_bucket="${5}"
+data="${6}"
+
+if test -z "$pref" || test -z "$s3_key" || test -z "$s3_secret" || test -z "$s3_host" || test -z "$s3_bucket" || test -z "$data"; then
+	echo "Usage: ${0} <pref> <s3_key> <s3_secret> <s3_host> <s3_bucket> <data>"
+	exit 1
+fi
+
+data=$(realpath "${data}")
+
+cd "${data}/${pref}/raa"
+cd "../../"
+
+file="${pref}.zip"
+find . -name "${file}" -type f -delete
+zip "${file}" "${pref}/raa/"*.txt "${pref}/raa/"*.json > /dev/null
+
+echo "Uploading ${file}..."
+
+ressource="/${s3_bucket}/${file}"
+content_type=$(file --mime-type "${file}")
+date=$(date --utc -R)
+
+signature=$(echo -en "PUT\n\n${content_type}\n${date}\n${ressource}" | openssl sha1 -hmac "${s3_secret}" -binary | base64)
+
+curl -X PUT \
+	 -T "${file}" \
+	 -H "Date: ${date}" \
+	 -H "Content-Type: ${content_type}" \
+	 -H "Authorization: AWS ${s3_key}:${signature}" \
+	 "${s3_host}${ressource}"
+
+rm "${file}"
--- a/requirements.txt
+++ b/requirements.txt
No results found