Comparer les révisions

c75a2507 · c75a2507 · c75a2507 · c75a2507 · c75a2507 · c75a2507
--- a/RAAspotter_ppparis.py
+++ b/RAAspotter_ppparis.py
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_ppparis(RAAspotter):
-
-  # Config
-  __RAA_PAGE     = 'https://www.prefecturedepolice.interieur.gouv.fr/actualites-et-presse/arretes/accueil-arretes'
-  __WAIT_ELEMENT = 'block-decree-list-block'
-  __USER_AGENT   = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture de police de Paris'
-  short_code = 'ppparis'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_ppparis')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    page_content = self.get_session()
-    raa_elements = self.get_raa_elements(page_content)
-    self.parse_raa(raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-    for a in soup.find_all('a', href=True):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = 'https://www.prefecturedepolice.interieur.gouv.fr'+a['href']
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').get_text()
-        date     = datetime.datetime.strptime(a.find('div', class_="field--type-datetime").get_text().strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
-
-  def get_session(self):
-    return super().get_session(self.__RAA_PAGE, self.__WAIT_ELEMENT)
--- a/RAAspotter_pref06.py
+++ b/RAAspotter_pref06.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref06(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.alpes-maritimes.gouv.fr'
-  __RAA_PAGE   = {'2024':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2024/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2024/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2024/Recueils-specifiques'],
-                  '2023':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2023/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2023/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2023/Recueils-specifiques'],
-                  '2022':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2022/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2022/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2022/Recueils-specifiques'],
-                  '2021':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2021/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2021/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2021/Recueils-specifiques'],
-                  '2020':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2020/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2020/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2020/Recueils-specifiques'],
-                  '2019':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2019/Recueils-mensuels',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2019/Recueils-speciaux',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA/Annee-2019/Recueils-specifiques']}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture des Alpes-Maritimes'
-  short_code = 'pref06'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref06')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      for page in self.__RAA_PAGE['2024']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2023:
-      for page in self.__RAA_PAGE['2023']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2022:
-      for page in self.__RAA_PAGE['2022']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2021:
-      for page in self.__RAA_PAGE['2021']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2020:
-      for page in self.__RAA_PAGE['2020']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2019:
-      for page in self.__RAA_PAGE['2019']:
-        pages_to_parse.append(page)
-
-    elements = self.get_raa_with_pager(pages_to_parse, ".fr-pagination__link.fr-pagination__link--next", self.__HOST)
-    self.tor_get_new_id()
-    self.set_sleep_time(10)
-    self.parse_raa(elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque élément fr-card__content, on cherche sa balise a, et si c'est un PDF on le parse
-    cards = soup.find_all('div', class_='fr-card__content')
-    for card in cards:
-      a = card.find('a')
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.get_text().strip()
-        date     = datetime.datetime.strptime(card.find('p', class_='fr-card__detail').get_text().replace('Publié le ', '').strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
--- a/RAAspotter_pref13.py
+++ b/RAAspotter_pref13.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref13(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.bouches-du-rhone.gouv.fr'
-  __RAA_PAGE   = [f'{__HOST}/Publications/RAA-et-Archives/RAA-2024',
-                  f'{__HOST}/Publications/RAA-et-Archives/RAA-2023',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2022',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2021',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2020',
-                  f'{__HOST}/Publications/RAA-et-Archives/Archives-RAA-des-Bouches-du-Rhone/RAA-2019']
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture des Bouches-du-Rhône'
-  short_code = 'pref13'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(10)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref13')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    for raa_page in self.__RAA_PAGE:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-    for a in soup.find_all('a', href=True, class_='fr-link--download'):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-        date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-        filename = unquote(url.split('/')[-1])
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
--- a/RAAspotter_pref35.py
+++ b/RAAspotter_pref35.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref35(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.ille-et-vilaine.gouv.fr'
-  __RAA_PAGE   = [f'{__HOST}/Publications/Recueil-des-actes-administratifs/Recueil-des-actes-administratifs-2024',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2023',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2022',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2021',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2020',
-                  f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2019']
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-  full_name = 'Préfecture d\'Ille-et-Vilaine'
-  short_code = 'pref35'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(10)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref35')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    for raa_page in self.__RAA_PAGE:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-    for a in soup.find_all('a', href=True, class_='fr-link--download'):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-        date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements
--- a/RAAspotter_pref38.py
+++ b/RAAspotter_pref38.py
-import os, sys, re
-import datetime
-import dateparser
-import logging
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-logger = logging.getLogger(__name__)
-
-class RAAspotter_pref38(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.isere.gouv.fr'
-  __RAA_PAGE   = {'2024': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2024',
-                  '2023': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2023',
-                  '2022': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2022',
-                  '2021': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-recueils-des-actes-administratifs-de-la-prefecture-de-l-Isere-2021/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2021',
-                  '2020': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-recueils-des-actes-administratifs-de-la-prefecture-de-l-Isere-2020/Recueils-des-Actes-Administratifs-de-la-Prefecture-de-l-Isere-2020',
-                  '2019': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2019/Archives-des-Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2019'}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture de l\'Isère'
-  short_code = 'pref38'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref38')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      pages_to_parse.append(self.__RAA_PAGE['2024'])
-    if self.not_before.year <= 2023:
-      pages_to_parse.append(self.__RAA_PAGE['2023'])
-    if self.not_before.year <= 2022:
-      pages_to_parse.append(self.__RAA_PAGE['2022'])
-    if self.not_before.year <= 2021:
-      pages_to_parse.append(self.__RAA_PAGE['2021'])
-    if self.not_before.year <= 2020:
-      pages_to_parse.append(self.__RAA_PAGE['2020'])
-    if self.not_before.year <= 2019:
-      pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-    for raa_page in pages_to_parse:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content, raa_page)
-      self.parse_raa(raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content, raa_page):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère le select qui contient la liste des RAA
-    select_list = soup.select('select#-liste-docs')[0]
-    # On analyse chaque résultat
-    for option in select_list.find_all('option'):
-      if not option['value'] == "":
-        guessed_date = datetime.datetime(9999, 1, 1)
-        try:
-          # Pour chaque RAA listé, on essaie de deviner sa date à partir de son nom, et si elle correspond à la plage
-          # demandée, on poursuit l'analyse
-          search = re.search('.* n°[ 0-9]* du ([0-9]*(?:er)? [a-zéû]* [0-9]*)', option['title'], re.IGNORECASE)
-          guessed_date = dateparser.parse(search.group(1))
-        except Exception as exc:
-          logger.warning(f"Impossible de deviner la date du RAA {option['title']} : {exc}")
-        
-        # Si la date estimée correspond à la plage d'analyse, on demande au serveur les détails du RAA
-        if guessed_date >= self.not_before:
-          page_content = self.get_page(raa_page, 'post', {'-liste-docs':option['value']}).content
-          # On parse la page de détails pour obtenir les propriétés du RAA
-          soup = BeautifulSoup(page_content, 'html.parser')
-          a = soup.select('div.liste_deroulante a.fr-link.fr-link--download')[0]
-          
-          # Si la page contient une balise a qui renvoie vers un pdf, c'est qu'on a obtenu les détails du RAA demandé, donc on le parse
-          if a.get('href') and a['href'].endswith('.pdf'):
-            if a['href'].startswith('/'):
-              url = f"{self.__HOST}{a['href']}"
-            else:
-              url = a['href']
-
-            url      = unquote(url)
-            name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-            date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-            filename = url.split('/')[-1]
-
-            raa = RAAspotter.RAA(url, date, name, filename)
-            elements.append(raa)
-    return elements
--- a/RAAspotter_pref62.py
+++ b/RAAspotter_pref62.py
-import os, sys
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-class RAAspotter_pref62(RAAspotter):
-
-  # Config
-  __HOST       = 'https://www.pas-de-calais.gouv.fr'
-  __RAA_PAGE   = {'2024':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2024-Recueils-des-actes-administratifs'],
-                  '2023':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2023-Recueils-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2023-Recueils-speciaux-des-actes-administratifs'],
-                  '2022':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2022-Recueils-des-Actes-Administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2022-Recueils-Speciaux-des-Actes-Administratifs'],
-                  '2021':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2021-Recueils-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2021-Recueils-speciaux-des-actes-administratifs'],
-                  '2020':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2020-Recueils-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2020-Recueils-speciaux-des-actes-administratifs'],
-                  '2019':
-                    [f'{__HOST}/Publications/Recueil-des-actes-administratifs/2019-Recueil-des-actes-administratifs',
-                    f'{__HOST}/Publications/Recueil-des-actes-administratifs/2019-Recueils-speciaux-des-actes-administratifs']}
-  __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-  full_name = 'Préfecture du Pas-de-Calais'
-  short_code = 'pref62'
-
-  def __init__(self, data_dir):
-    super().__init__(data_dir, self.__USER_AGENT)
-    self.enable_tor(20)
-
-  def get_raa(self, keywords):
-    self.print_output('RAAspotter_pref62')
-    self.print_output(f'Termes recherchés: {keywords}')
-    self.print_output('')
-
-    pages_to_parse = []
-    if self.not_before.year <= 2024:
-      for page in self.__RAA_PAGE['2024']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2023:
-      for page in self.__RAA_PAGE['2023']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2022:
-      for page in self.__RAA_PAGE['2022']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2021:
-      for page in self.__RAA_PAGE['2021']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2020:
-      for page in self.__RAA_PAGE['2020']:
-        pages_to_parse.append(page)
-    if self.not_before.year <= 2019:
-      for page in self.__RAA_PAGE['2019']:
-        pages_to_parse.append(page)
-
-    for raa_page in pages_to_parse:
-      page_content = self.get_page(raa_page, 'get').content
-      raa_elements = self.get_raa_elements(page_content)
-      self.parse_raa(raa_elements, keywords.split(','))
-    self.mailer()
-
-  def get_raa_elements(self, page_content):
-    elements = []
-    # On charge le parser
-    soup = BeautifulSoup(page_content, 'html.parser')
-
-    # On récupère le div qui contient la liste des RAA
-    cards = soup.select('div.fr-downloads-group.fr-downloads-group--bordered')[0]
-    # On analyse chaque balise a dans ce div
-    for a in cards.find_all('a', href=True):
-      if a['href'].endswith('.pdf'):
-        if a['href'].startswith('/'):
-          url = f"{self.__HOST}{a['href']}"
-        else:
-          url = a['href']
-
-        url      = unquote(url)
-        name     = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-        date     = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-        filename = url.split('/')[-1]
-
-        raa = RAAspotter.RAA(url, date, name, filename)
-        elements.append(raa)
-    return elements[::-1]
--- a/README.md
+++ b/README.md
-# RAAspotter
+# Attrap

-Une série de scripts en Python qui récupère les derniers recueils des actes administratifs (RAA) pour y rechercher certains mots-clés prédéfinis.
+Un logiciel qui récupère les derniers recueils des actes administratifs (RAA) pour y rechercher certains mots-clés prédéfinis.

 Conçu pour être utilisé dans une CI.

-Peut envoyer par email et sur Mastodon les résultats.
+Peut envoyer par email et sur Mastodon  les résultats, par exemple avec <a rel="me" href="https://mamot.fr/@AttrapSurveillance">@AttrapSurveillance\@mamot.fr</a>.

 ## Installation

@@ -16,7 +16,7 @@ source bin/activate
 pip3 install -r requirements.txt
 ```

-Vous devez avoir installé OCRmyPDF, les données `eng` et `fra` de Tesseract, et le démon Tor.
+Vous devez avoir installé les données `eng` et `fra` de Tesseract et le démon Tor.

 ## Utilisation

@@ -28,15 +28,108 @@ make

 Attention, le premier lancement prendra plusieurs jours ! Si vous utilisez une CI, vous devez mettre en cache le dossier `data/` afin que les fichiers déjà analysés ne soient pas téléchargés à chaque lancement.

-Il est possible de ne lancer l'analyse que pour une seule administration, avec la commande : `./cli.py --pref identifiant`
+Il est possible de ne lancer l'analyse que pour une seule administration, avec la commande : `./cli.py identifiant`
+
+## Options
+
+Les options suivantes peuvent être précisées, par un paramètre si l'utilitaire `cli.py` est utilisé, ou par une variable d'environnement :
+
+| CLI | Variable d'environnement | Signification | Valeur par défaut |
+|---|---|---|---|
+| `--keywords`, `-k` | `KEYWORDS` | Liste des mots-clés recherchés, séparés par une virgule. | Aucune |
+| `--not-before` | `NOT_BEFORE` | Date (format relatif `1 week` ou `YYYY-MM-DD`) avant laquelle les RAA ne sont pas analysés. | `2024-01-01` |
+| `--smtp-hostname` | `SMTP_HOSTNAME` | Nom d'hôte SMTP. | `localhost` |
+| `--smtp-username` | `SMTP_USERNAME` | Nom d'utilisateur SMTP. | Aucun |
+| `--smtp-password` | `SMTP_PASSWORD` | Mot de passe SMTP. | Aucun |
+| `--smtp-port` | `SMTP_PORT` | Port SMTP. | `587` |
+| `--smtp-starttls` | `SMTP_STARTTLS` | Si spécifié, la connexion SMTP se fait avec STARTTLS. | Non-spécifié |
+| `--smtp-ssl` | `SMTP_SSL` | Si spécifié, la connexion SMTP se fait avec SSL. | Non-spécifié |
+| `--email-from`, `-f` | `EMAIL_FROM` | Adresse de courrier électronique expéditrice des notifications. | Aucune (désactive l'envoi) |
+| `--email-to`, `-t` | `EMAIL_TO` | Adresses de courriers électroniques destinataires des notifications, séparées par une virgule. | Aucune (désactive l'envoi) |
+| `--**-email-to` | `--**-EMAIL-TO` | Pour chaque administration dont l'identifiant est **, adresses de courriers électroniques destinataires des notifications, séparées par une virgule, uniquement si l'analyse concerne cette administration en particulier. La liste s'ajoute à celle précisée dans `--email-to`. | Aucune |
+| `--mastodon-access-token` | `MASTODON_ACCESS_TOKEN` | Jeton d'accès pour publier sur Mastodon. | Aucun (désactive la publication sur Mastodon) |
+| `--mastodon-instance` | `MASTODON_INSTANCE` | URL de l'instance Mastodon de publication (doit inclure "http://" ou "https://"). | Aucune (désactive la publication sur Mastodon) |
+| `-v` | `VERBOSE` | Si spécifié, relève le niveau de verbosité à INFO. | Non-spécifié |
+| `-vv` | `VVERBOSE` | Si spécifié, relève le niveau de verbosité à DEBUG. | Non-spécifié |
+
+Vous pouvez également activer le safe mode en spécifiant la variable d'environnement `SAFE_MODE`. Cela désactive Tor et limite les requêtes à une toutes les 30 secondes. Cette option ne doit être utilisée qu'en cas de blocage généralisé de Tor. Attention : avec le safe mode, la CI se connecte directement au serveur, et son IP risque d'être bloquée si trop de requêtes sont lancées. Pensez donc à limiter le nombre de jobs qui s'exécutent en parallèle si vous devez activer ce mode. Les requêtes via Selenium ne sont pas impactées par le safe mode.

 ## Administrations supportées

- Préfecture des Alpes-Maritimes  (identifiant : `pref06`)
+- Préfecture de police de Paris (identifiant : `ppparis`)
+- Préfecture de l'Ain (identifiant : `pref01`)
+- Préfecture de l'Aisne (identifiant : `pref02`)
+- Préfecture de l'Allier (identifiant : `pref03`)
+- Préfecture des Alpes-de-Haute-Provence (identifiant : `pref04`)
+- Préfecture des Hautes-Alpes (identifiant : `pref05`)
+- Préfecture des Alpes-Maritimes (identifiant : `pref06`)
+- Préfecture de l'Ariège (identifiant : `pref09`)
+- Préfecture de l'Aube (identifiant : `pref10`)
+- Préfecture de l'Aude (identifiant : `pref11`)
 - Préfecture des Bouches-du-Rhône (identifiant : `pref13`)
+- Préfecture de la Corse-du-Sud (identifiant : `pref2a`)
+- Préfecture de Haute-Corse (identifiant : `pref2b`)
+- Préfecture du Doubs (identifiant : `pref25`)
+- Préfecture du Finistère (identifiant : `pref29`)
+- Prefecture du Gard (identifiant : `pref30`)
+- Préfecture de la Haute-Garonne (identifiant : `pref31`)
+- Préfecture de la Gironde (identifiant : `pref33`)
+- Préfecture de l'Hérault (identifiant : `pref34`)
 - Préfecture d'Ille-et-Vilaine (identifiant : `pref35`)
+- Préfecture de l'Isère (identifiant : `pref38`)
+- Préfecture du Jura (identifiant : `pref39`)
+- Préfecture de la Loire (identifiant : `pref42`)
+- Préfecture de la Loire-Atlantique (identifiant : `pref44`)
+- Préfecture de Maine-et-Loire (identifiant : `pref49`)
+- Préfecture de la Manche (identifiant : `pref50`)
+- Préfecture de la Haute-Marne (identifiant : `pref52`)
+- Préfecture de Meurthe-et-Moselle (identifiant : `pref54`)
+- Préfecture de la Meuse (identifiant : `pref55`)
+- Préfecture du Nord (identifiant : `pref59`)
+- Préfecture de l'Orne (identifiant : `pref61`)
 - Préfecture du Pas-de-Calais (identifiant : `pref62`)
- Préfecture de police de Paris (identifiant : `ppparis`)
+- Préfecture du Puy-de-Dôme (identifiant : `pref63`)
+- Préfecture des Pyrénées-Atlantiques (identifiant : `pref64`)
+- Préfecture des Hautes-Pyrénées (identifiant : `pref65`)
+- Préfecture des Pyrénées-Orientales (identifiant : `pref66`)
+- Préfecture du Rhône (identifiant : `pref69`)
+- Préfecture de la Savoie (identifiant : `pref73`)
+- Préfecture de Paris (identifiant : `pref75`)
+- Préfecture de la Seine-Maritime (identifiant : `pref76`)
+- Préfecture de Seine-et-Marne (identifiant : `pref77`)
+- Préfecture de la Somme (identifiant : `pref80`)
+- Préfecture du Tarn (identifiant : `pref81`)
+- Préfecture du Var (identifiant : `pref83`)
+- Préfecture de la Haute-Vienne (identifiant : `pref87`)
+- Préfecture de l'Essonne (identifiant : `pref91`)
+- Préfecture des Hauts-de-Seine (identifiant : `pref92`)
+- Préfecture de Seine-Saint-Denis (identifiant : `pref93`)
+- Préfecture du Val-de-Marne (identifiant : `pref94`)
+- Préfecture de Mayotte (identifiant : `pref976`)
+- Préfecture de la région Bretagne (identifiant : `prefbretagne`)
+- Préfecture de la région Île-de-France (identifiant : `prefidf`)
+- Préfecture de la région Provence-Alpes-Côte-d'Azur (identifiant : `prefpaca`)
+
+## Contributions
+
+Les contributions à ce projet sont les bienvenues !
+
+Chaque administration est gérée par un fichier dont le nom correspond à son identifiant (`Attrap_XXX.py`). Commencez par copier un de ces fichiers puis adaptez son code à l'administration que vous voulez ajouter. Il est impératif de lancer le moins de requêtes possibles vers le site de l'administration : lorsqu'une administration a une page par année ou par mois, ne lancez une requête que vers les pages qui correspondent à la plage temporelle demandée dans la valeur de configuration `NOT_BEFORE`.
+
+Vous pouvez lancer la commande suivante pour connaître fonctions disponibles pour récupérer les RAA sur le site d'une administration :
+
+```
+bin/python -m pydoc Attrap
+```
+
+Avant d'ouvrir une merge request, assurez-vous que :
+- l'administration est activée dans `cli.py` et dans `Makefile` ;
+- il existe un job dans la CI (`.gitlab-ci.yml`) pour l'administration ;
+- le fichier de README indique que la nouvelle administration est supportée ;
+- vous n'avez qu'un seul commit par nouvelle préfecture (sinon, il faut faire un squash), de la forme `identifiant_de_l'administration: ajout de nom_complet_de_l'administration` ;
+- `make lint` ne renvoie pas d'erreur.
+
+Vous pouvez rejoindre le salon de discussion Matrix du projet : `#Attrap:laquadrature.net`.

 ## Licence


--- a/cli.py
+++ b/cli.py
+#!/usr/bin/env python3
+
 import os
 import argparse
 import logging
 import datetime
+import dateparser
 import importlib

-from RAAspotter import RAAspotter
+from Attrap import Attrap

 # Config
-__KEYWORDS = os.getenv('KEYWORDS') or 'vidéoprotection,caméras,captation,aéronef'
-__DATA_DIR_ROOT = os.path.dirname(os.path.abspath(__file__))+'/data/'
+__KEYWORDS = os.getenv('KEYWORDS') or ''
+__DATA_DIR_ROOT = os.path.dirname(os.path.abspath(__file__)) + '/data/'
 __SMTP_HOSTNAME = os.getenv('SMTP_HOSTNAME') or 'localhost'
 __SMTP_USERNAME = os.getenv('SMTP_USERNAME') or ''
 __SMTP_PASSWORD = os.getenv('SMTP_PASSWORD') or ''
 __EMAIL_FROM = os.getenv('EMAIL_FROM')
 __EMAIL_TO = os.getenv('EMAIL_TO')
 if os.getenv('SMTP_PORT'):
-  __SMTP_PORT = int(os.getenv('SMTP_PORT'))
+    __SMTP_PORT = int(os.getenv('SMTP_PORT'))
 else:
-  __SMTP_PORT = 587
+    __SMTP_PORT = 587
 if os.getenv('SMTP_STARTTLS'):
-  __SMTP_STARTTLS = True
+    __SMTP_STARTTLS = True
 else:
-  __SMTP_STARTTLS = False
+    __SMTP_STARTTLS = False
 if os.getenv('SMTP_SSL'):
-  __SMTP_SSL = True
+    __SMTP_SSL = True
 else:
-  __SMTP_SSL = False
+    __SMTP_SSL = False
 if os.getenv('NOT_BEFORE'):
-  __NOT_BEFORE = datetime.datetime.strptime(os.getenv('NOT_BEFORE'), '%Y-%m-%d')
+    try:
+        relative_date = dateparser.parse(os.getenv('NOT_BEFORE'))
+        __NOT_BEFORE = datetime.datetime(year=relative_date.year, month=relative_date.month, day=relative_date.day)
+    except Exception as exc:
+        __NOT_BEFORE = datetime.datetime.strptime(
+            os.getenv('NOT_BEFORE'), '%Y-%m-%d'
+        )
 else:
-  __NOT_BEFORE = datetime.datetime(2024, 1, 1)
+    __NOT_BEFORE = datetime.datetime(2024, 1, 1)
 __MASTODON_ACCESS_TOKEN = os.getenv('MASTODON_ACCESS_TOKEN')
 __MASTODON_INSTANCE = os.getenv('MASTODON_INSTANCE')

-# Liste des préfectures supportées
-available_prefs = [
-  'pref06',
-  'pref13',
-  'pref35',
-  'pref38',
-  'pref62',
-  'ppparis'
+# Liste des administrations supportées
+available_administrations = [
+    'ppparis',
+    'pref01',
+    'pref02',
+    'pref03',
+    'pref04',
+    'pref05',
+    'pref06',
+    'pref09',
+    'pref10',
+    'pref11',
+    'pref13',
+    'pref2a',
+    'pref2b',
+    'pref25',
+    'pref29',
+    'pref30',
+    'pref31',
+    'pref33',
+    'pref34',
+    'pref35',
+    'pref38',
+    'pref39',
+    'pref42',
+    'pref44',
+    'pref49',
+    'pref50',
+    'pref52',
+    'pref54',
+    'pref55',
+    'pref59',
+    'pref61',
+    'pref62',
+    'pref63',
+    'pref64',
+    'pref65',
+    'pref66',
+    'pref69',
+    'pref73',
+    'pref75',
+    'pref76',
+    'pref77',
+    'pref80',
+    'pref81',
+    'pref83',
+    'pref87',
+    'pref91',
+    'pref92',
+    'pref93',
+    'pref94',
+    'pref976',
+    'prefbretagne',
+    'prefidf',
+    'prefpaca'
 ]

 # Début du script
-parser = argparse.ArgumentParser(prog='cli.py', description='Télécharge les RAA d\'une préfecture donnée et recherche des mots-clés')
-parser.add_argument('-p', '--pref', action='store', help='identifiant de la préfecture', required=True, choices=available_prefs)
-parser.add_argument('-k', '--keywords', action='store', help='liste des termes recherchés, séparés par une virgule (par défaut : vidéoprotection,caméras,captation,aéronef)')
-parser.add_argument('--not-before', action='store', help='n\'analyse pas les RAA datant d\'avant la date indiquée, au format YYYY-MM-DD (par défaut : 2024-01-01)')
-parser.add_argument('--smtp-hostname', action='store', help='nom d\'hôte SMTP (par défaut : localhost)')
-parser.add_argument('--smtp-username', action='store', help='nom d\'utilisateur SMTP (par défaut : vide)')
-parser.add_argument('--smtp-password', action='store', help='mot de passe SMTP (par défaut : vide)')
-parser.add_argument('--smtp-port', action='store', help='port SMTP (par défaut : 587)')
-parser.add_argument('--smtp-starttls', action='store_true', help='connexion SMTP avec STARTTLS')
-parser.add_argument('--smtp-ssl', action='store_true', help='connexion SMTP avec SSL')
-parser.add_argument('-f', '--email-from', action='store', help='adresse de courrier électronique expéditrice des notifications')
-parser.add_argument('-t', '--email-to', action='store', help='adresses de courrier électronique destinataires des notifications (séparées par une virgule)')
-parser.add_argument('--mastodon-access-token', action='store', help='jeton d\'accès pour publier sur Mastodon (par défaut : vide)')
-parser.add_argument('--mastodon-instance', action='store', help='URL de l\'instance (doit inclure "http://" ou "https://" ; par défaut : vide)')
-parser.add_argument('-v', action='store_true', help='relève le niveau de verbosité à INFO')
-parser.add_argument('-vv', action='store_true', help='relève le niveau de verbosité à DEBUG')
+parser = argparse.ArgumentParser(
+    prog='cli.py',
+    description='Télécharge les RAA d\'une administration donnée et recherche des mots-clés'
+)
+parser.add_argument(
+    'administration',
+    action='store',
+    help='identifiant de l\'administration',
+    choices=available_administrations
+)
+parser.add_argument(
+    '-k',
+    '--keywords',
+    action='store',
+    help='liste des termes recherchés, séparés par une virgule (aucun par défaut)'
+)
+parser.add_argument(
+    '--not-before',
+    action='store',
+    help='n\'analyse pas les RAA datant d\'avant la date indiquée, au format YYYY-MM-DD (par défaut : 2024-01-01)'
+)
+parser.add_argument(
+    '--smtp-hostname',
+    action='store',
+    help='nom d\'hôte SMTP (par défaut : localhost)'
+)
+parser.add_argument(
+    '--smtp-username',
+    action='store',
+    help='nom d\'utilisateur SMTP (par défaut : vide)'
+)
+parser.add_argument(
+    '--smtp-password',
+    action='store',
+    help='mot de passe SMTP (par défaut : vide)'
+)
+parser.add_argument(
+    '--smtp-port',
+    action='store',
+    help='port SMTP (par défaut : 587)'
+)
+parser.add_argument(
+    '--smtp-starttls',
+    action='store_true',
+    help='connexion SMTP avec STARTTLS'
+)
+parser.add_argument(
+    '--smtp-ssl',
+    action='store_true',
+    help='connexion SMTP avec SSL'
+)
+parser.add_argument(
+    '-f',
+    '--email-from',
+    action='store',
+    help='adresse de courrier électronique expéditrice des notifications'
+)
+parser.add_argument(
+    '-t',
+    '--email-to',
+    action='store',
+    help='adresses de courriers électroniques destinataires des notifications (séparées par une virgule)'
+)
+
+for administration in available_administrations:
+    parser.add_argument(
+        f'--{administration}-email-to',
+        action='store',
+        help=f'adresses de courrier électronique destinataires des notifications (séparées par une virgule) uniquement si l\'analyse concerne {administration} (s\'ajoute à celles précisées dans --email-to)'
+    )
+
+parser.add_argument(
+    '--mastodon-access-token',
+    action='store',
+    help='jeton d\'accès pour publier sur Mastodon (par défaut : vide)'
+)
+parser.add_argument(
+    '--mastodon-instance',
+    action='store',
+    help='URL de l\'instance (doit inclure "http://" ou "https://" ; par défaut : vide)'
+)
+parser.add_argument(
+    '-v',
+    action='store_true',
+    help='relève le niveau de verbosité à INFO'
+)
+parser.add_argument(
+    '-vv',
+    action='store_true',
+    help='relève le niveau de verbosité à DEBUG'
+)
 args = parser.parse_args()

-if args.v or os.getenv('VERBOSE'):
-  logging.basicConfig(level=logging.INFO)
+if (args.v or os.getenv('VERBOSE')) and not args.vv and not os.getenv('VVERBOSE'):
+    logging.basicConfig(level=logging.INFO)
+    logging.getLogger("stem").setLevel(logging.WARNING)

 if args.vv or os.getenv('VVERBOSE'):
-  logging.basicConfig(level=logging.DEBUG)
+    logging.basicConfig(level=logging.DEBUG)
+    logging.getLogger("stem").setLevel(logging.WARNING)

 if args.keywords:
-  __KEYWORDS = args.keywords
+    __KEYWORDS = args.keywords

 if args.not_before:
-  __NOT_BEFORE = datetime.datetime.strptime(args.not_before, '%Y-%m-%d')
+    try:
+        relative_date = dateparser.parse(args.not_before)
+        __NOT_BEFORE = datetime.datetime(year=relative_date.year, month=relative_date.month, day=relative_date.day)
+    except Exception as exc:
+        __NOT_BEFORE = datetime.datetime.strptime(args.not_before, '%Y-%m-%d')

 if args.smtp_hostname:
-  __SMTP_HOSTNAME = args.smtp_hostname
+    __SMTP_HOSTNAME = args.smtp_hostname

 if args.smtp_username:
-  __SMTP_USERNAME = args.smtp_username
+    __SMTP_USERNAME = args.smtp_username

 if args.smtp_password:
-  __SMTP_PASSWORD = args.smtp_password
+    __SMTP_PASSWORD = args.smtp_password

 if args.smtp_port:
-  __SMTP_PORT = int(args.smtp_port)
+    __SMTP_PORT = int(args.smtp_port)

 if args.smtp_starttls:
-  __SMTP_STARTTLS = True
+    __SMTP_STARTTLS = True

 if args.smtp_ssl:
-  __SMTP_SSL = True
+    __SMTP_SSL = True

 if args.email_from:
-  __EMAIL_FROM = args.email_from
+    __EMAIL_FROM = args.email_from

 if args.email_to:
-  __EMAIL_TO = args.email_to
+    __EMAIL_TO = args.email_to

 if args.mastodon_access_token:
-  __MASTODON_ACCESS_TOKEN = args.mastodon_access_token
+    __MASTODON_ACCESS_TOKEN = args.mastodon_access_token

 if args.mastodon_instance:
-  __MASTODON_INSTANCE = args.mastodon_instance
+    __MASTODON_INSTANCE = args.mastodon_instance

-__DATA_DIR = f'{__DATA_DIR_ROOT}{args.pref}/'
+__DATA_DIR = f'{__DATA_DIR_ROOT}{args.administration}/'
+
+# On calcule la liste des mails à notifier (liste générale EMAIL_TO + liste
+# administration EMAIL_TO_ADMINISTRATION**)
+__ADMINISTRATION_EMAIL_TO = ''
+administration_var_name = f'{args.administration}_EMAIL_TO'.upper()
+if os.getenv(administration_var_name):
+    __ADMINISTRATION_EMAIL_TO = os.getenv(administration_var_name)
+else:
+    for arg in vars(args).items():
+        if arg[0] == f'{args.administration}_email_to':
+            __ADMINISTRATION_EMAIL_TO = arg[1]

-# On crée le dossier de téléchargement
-os.makedirs(__DATA_DIR, exist_ok=True)
+if __ADMINISTRATION_EMAIL_TO and not __ADMINISTRATION_EMAIL_TO == '':
+    if __EMAIL_TO:
+        __EMAIL_TO = f'{__EMAIL_TO},{__ADMINISTRATION_EMAIL_TO}'
+    else:
+        __EMAIL_TO = __ADMINISTRATION_EMAIL_TO

-module = importlib.import_module(f'RAAspotter_{args.pref}')
-raa_spotter = getattr(module, f'RAAspotter_{args.pref}')(__DATA_DIR)
+module = importlib.import_module(f'Attrap_{args.administration}')
+attrap = getattr(module, f'Attrap_{args.administration}')(__DATA_DIR)

-raa_spotter.not_before = __NOT_BEFORE
-raa_spotter.configure_mailer(__SMTP_HOSTNAME, __SMTP_USERNAME, __SMTP_PASSWORD, __SMTP_PORT,
-                             __SMTP_STARTTLS, __SMTP_SSL, __EMAIL_FROM, __EMAIL_TO,
-                             f'[RAAspotter] [{raa_spotter.full_name}] Nouveaux éléments trouvés')
-raa_spotter.configure_mastodon(__MASTODON_ACCESS_TOKEN, __MASTODON_INSTANCE, f'[{raa_spotter.full_name}]', f'#{raa_spotter.short_code}')
-raa_spotter.get_raa(__KEYWORDS)
+attrap.not_before = __NOT_BEFORE
+attrap.configure_mailer(__SMTP_HOSTNAME, __SMTP_USERNAME, __SMTP_PASSWORD, __SMTP_PORT, __SMTP_STARTTLS, __SMTP_SSL,
+                        __EMAIL_FROM, __EMAIL_TO, f'[Attrap] [{attrap.full_name}] Nouveaux éléments trouvés')
+attrap.configure_mastodon(__MASTODON_ACCESS_TOKEN, __MASTODON_INSTANCE, f'[{attrap.full_name}]', f'#{attrap.short_code}')
+attrap.get_raa(__KEYWORDS)
--- a/misc/download-all-from-s3.sh
+++ b/misc/download-all-from-s3.sh
--- a/misc/download-from-s3.sh
+++ b/misc/download-from-s3.sh
--- a/misc/fix-pref75-prefidf-url.py
+++ b/misc/fix-pref75-prefidf-url.py
--- a/misc/update_metadata_format.py
+++ b/misc/update_metadata_format.py
--- a/misc/upload-all-to-s3.sh
+++ b/misc/upload-all-to-s3.sh
--- a/misc/upload-to-s3.sh
+++ b/misc/upload-to-s3.sh
--- a/requirements.txt
+++ b/requirements.txt
-beautifulsoup4
-selenium
-pyvirtualdisplay
-pdfminer.six
-requests
-stem
-Mastodon.py
-dateparser
+beautifulsoup4>=4.12.3
+dateparser>=1.2.0
+ftfy>=6.2.0
+Mastodon.py>=1.8.1
+ocrmypdf<16.4.0
+pycodestyle>=2.11.1
+pypdf>=4.2.0
+pytz>=2024.2
+PyVirtualDisplay>=3.0
+requests>=2.31.0
+selenium>=4.19.0
No results found