Comparer les révisions

77185458 · 77185458 · 77185458 · 77185458 · 77185458 · 77185458
--- a/RAAspotter_pref09.py
+++ b/RAAspotter_pref09.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref09(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.ariege.gouv.fr'
-    __RAA_PAGE = f'{__HOST}/Publications/Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-l-Ariege-a-partir-du-28-avril-2015'
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture de l\'Ariège'
-    short_code = 'pref09'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref09')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-
-        # Les RAA de l'Ariège sont éparpillés sur des sous-pages par mois.
-        # Donc on parse la page principale à la recherche des sous-pages.
-        sub_pages = self.get_sub_pages_with_pager(
-            self.__RAA_PAGE,
-            'div.fr-card__body div.fr-card__content h2.fr-card__title a.fr-card__link',
-            'ul.fr-pagination__list li a.fr-pagination__link.fr-pagination__link--next',
-            'div.fr-card__body div.fr-card__content div.fr-card__end p.fr-card__detail',
-            self.__HOST
-        )[::-1]
-
-        # On filtre par date les sous-pages pour limiter les requêtes
-        for sub_page in sub_pages:
-            guessed_date = datetime.datetime.strptime(sub_page['details'].replace('Publié le ', '').strip(), '%d/%m/%Y')
-            guessed_date.replace(day=1)
-            if guessed_date >= self.not_before:
-                pages_to_parse.append(sub_page['url'])
-
-        # On parse les pages contenant des RAA
-        for page in pages_to_parse:
-            page_content = self.get_page(page, 'get').content
-            raa_elements = self.get_raa_elements(page_content)
-            self.parse_raa(raa_elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère chaque balise a
-        for a in soup.select('div.fr-downloads-group.fr-downloads-group--bordered ul li a'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref34.py
+++ b/RAAspotter_pref34.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref34(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.herault.gouv.fr'
-    __RAA_PAGE = {
-        '2024': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2024',
-        '2023': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2023',
-        '2022': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2022',
-        '2021': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2021',
-        '2020': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2020',
-        '2019': f'{__HOST}/Publications/Recueils-des-actes-administratifs/Archives/Recueil-des-actes-administratifs-2019'
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-    full_name = 'Préfecture de l\'Hérault'
-    short_code = 'pref34'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref34')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-        if self.not_before.year <= 2024:
-            pages_to_parse.append(self.__RAA_PAGE['2024'])
-        if self.not_before.year <= 2023:
-            pages_to_parse.append(self.__RAA_PAGE['2023'])
-        if self.not_before.year <= 2022:
-            pages_to_parse.append(self.__RAA_PAGE['2022'])
-        if self.not_before.year <= 2021:
-            pages_to_parse.append(self.__RAA_PAGE['2021'])
-        if self.not_before.year <= 2020:
-            pages_to_parse.append(self.__RAA_PAGE['2020'])
-        if self.not_before.year <= 2019:
-            pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-        for raa_page in pages_to_parse:
-            page_content = self.get_page(raa_page, 'get').content
-            raa_elements = self.get_raa_elements(page_content)
-            self.parse_raa(raa_elements, keywords.split(','))
-
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère chaque balise a
-        for a in soup.select('a.fr-link.fr-link--download'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref35.py
+++ b/RAAspotter_pref35.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref35(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.ille-et-vilaine.gouv.fr'
-    __RAA_PAGE = [
-        f'{__HOST}/Publications/Recueil-des-actes-administratifs/Recueil-des-actes-administratifs-2024',
-        f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2023',
-        f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2022',
-        f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2021',
-        f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2020',
-        f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/Recueil-des-actes-administratifs-2019'
-    ]
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
-    full_name = 'Préfecture d\'Ille-et-Vilaine'
-    short_code = 'pref35'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref35')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        for raa_page in self.__RAA_PAGE:
-            page_content = self.get_page(raa_page, 'get').content
-            raa_elements = self.get_raa_elements(page_content)
-            self.parse_raa(raa_elements, keywords.split(','))
-
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le
-        # parse
-        for a in soup.find_all('a', href=True, class_='fr-link--download'):
-            if a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref38.py
+++ b/RAAspotter_pref38.py
-import os
-import datetime
-import logging
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-logger = logging.getLogger(__name__)
-
-
-class RAAspotter_pref38(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.isere.gouv.fr'
-    __RAA_PAGE = {
-        '2024': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2024',
-        '2023': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2023',
-        '2022': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2022',
-        '2021': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-recueils-des-actes-administratifs-de-la-prefecture-de-l-Isere-2021/Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2021',
-        '2020': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-recueils-des-actes-administratifs-de-la-prefecture-de-l-Isere-2020/Recueils-des-Actes-Administratifs-de-la-Prefecture-de-l-Isere-2020',
-        '2019': f'{__HOST}/Publications/RAA-Recueil-des-actes-administratifs/Archives/Archives-des-Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2019/Archives-des-Recueils-des-Actes-Administratifs-de-la-prefecture-de-l-Isere-2019'
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture de l\'Isère'
-    short_code = 'pref38'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(20)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref38')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-        if self.not_before.year <= 2024:
-            pages_to_parse.append(self.__RAA_PAGE['2024'])
-        if self.not_before.year <= 2023:
-            pages_to_parse.append(self.__RAA_PAGE['2023'])
-        if self.not_before.year <= 2022:
-            pages_to_parse.append(self.__RAA_PAGE['2022'])
-        if self.not_before.year <= 2021:
-            pages_to_parse.append(self.__RAA_PAGE['2021'])
-        if self.not_before.year <= 2020:
-            pages_to_parse.append(self.__RAA_PAGE['2020'])
-        if self.not_before.year <= 2019:
-            pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-        for raa_page in pages_to_parse:
-            page_content = self.get_page(raa_page, 'get').content
-            raa_elements = self.get_raa_elements(page_content, raa_page)
-            self.parse_raa(raa_elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content, raa_page):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère le select qui contient la liste des RAA
-        select_list = soup.select('select#-liste-docs')[0]
-        # On analyse chaque résultat
-        for option in select_list.find_all('option'):
-            if not option['value'] == "":
-                # On estime la date à partir du nom de fichier
-                guessed_date = RAAspotter.guess_date(option['title'], '.* n°[ 0-9]* du ([0-9]*(?:er)? [a-zéû]* [0-9]*)')
-
-                # Si la date estimée correspond à la plage d'analyse, on
-                # demande au serveur les détails du RAA
-                if guessed_date >= self.not_before:
-                    page_content = self.get_page(
-                        raa_page,
-                        'post',
-                        {
-                            '-liste-docs': option['value']
-                        }
-                    ).content
-
-                    # On parse la page de détails pour obtenir les propriétés
-                    # du RAA
-                    soup = BeautifulSoup(page_content, 'html.parser')
-                    a = soup.select('div.liste_deroulante a.fr-link.fr-link--download')[0]
-
-                    # Si la page contient une balise a qui renvoie vers un pdf,
-                    # c'est qu'on a obtenu les détails du RAA demandé, donc
-                    # on le parse
-                    if a.get('href') and a['href'].endswith('.pdf'):
-                        if a['href'].startswith('/'):
-                            url = f"{self.__HOST}{a['href']}"
-                        else:
-                            url = a['href']
-
-                        url = unquote(url)
-                        name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                        date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                        raa = RAAspotter.RAA(url, date, name)
-                        elements.append(raa)
-        return elements
--- a/RAAspotter_pref44.py
+++ b/RAAspotter_pref44.py
-import os
-import datetime
-import logging
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-logger = logging.getLogger(__name__)
-
-
-class RAAspotter_pref44(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.loire-atlantique.gouv.fr'
-    __RAA_PAGE = f'{__HOST}/Publications/Recueil-des-actes-administratifs-RAA-en-Loire-Atlantique'
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture de la Loire-Atlantique'
-    short_code = 'pref44'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref44')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-
-        # Parfois un RAA est mal catégorisé et se retrouve sur la page racine, donc on la parse
-        pages_to_parse.append(self.__RAA_PAGE)
-
-        # On détermine quelles pages d'année parser
-        year_pages_to_parse = []
-        page_content = self.get_page(self.__RAA_PAGE, 'get').content
-        year_pages = self.get_sub_pages(
-            page_content,
-            '.fr-card.fr-card--sm.fr-card--grey.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a',
-            self.__HOST,
-            False
-        )
-        for year_page in year_pages:
-            year = 9999
-            try:
-                year = int(year_page['name'].strip())
-                if year is None:
-                    year = 9999
-            except Exception as exc:
-                logger.warning(f"Impossible de deviner l\'année de la page {year_page['name']}")
-                year = 9999
-
-            if year >= self.not_before.year:
-                year_pages_to_parse.append(year_page['url'])
-
-                # Parfois un RAA est mal catégorisé et se retrouve sur la page de l'année, donc on la parse
-                pages_to_parse.append(year_page['url'])
-
-        # Pour chaque année, on cherche les sous-pages de mois
-        month_pages_to_parse = []
-        for year_page in year_pages_to_parse:
-            page_content = self.get_page(year_page, 'get').content
-            month_pages = self.get_sub_pages(
-                page_content,
-                '.fr-card.fr-card--sm.fr-card--grey.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a',
-                self.__HOST,
-                False
-            )[::-1]
-
-            for month_page in month_pages:
-                pages_to_parse.append(month_page['url'])
-
-        # On parse les pages sélectionnées
-        elements = self.get_raa_with_pager(
-            pages_to_parse,
-            "ul.fr-pagination__list li a.fr-pagination__link.fr-pagination__link--next.fr-pagination__link--lg-label",
-            self.__HOST
-        )[::-1]
-
-        self.parse_raa(elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-
-        # On récupère chaque carte avec un RAA
-        for card in BeautifulSoup(page_content, 'html.parser').select('div.fr-card.fr-card--horizontal div.fr-card__body div.fr-card__content'):
-            # On récupère le lien
-            links = card.select('h2.fr-card__title a.fr-card__link.menu-item-link')
-            # On récupère la date
-            dates_raw = card.select('div.fr-card__end p.fr-card__detail')
-
-            # Si on a toutes les infos, on continue
-            if links and links[0] and dates_raw and dates_raw[0]:
-                a = links[0]
-                date_raw = dates_raw[0]
-
-                if a.get('href') and a['href'].endswith('.pdf'):
-                    if a['href'].startswith('/'):
-                        url = f"{self.__HOST}{a['href']}"
-                    else:
-                        url = a['href']
-
-                    url = unquote(url)
-                    name = a.get_text().strip()
-                    date = datetime.datetime.strptime(date_raw.get_text().replace('Publié le', '').strip(), '%d/%m/%Y')
-
-                    raa = RAAspotter.RAA(url, date, name)
-                    elements.append(raa)
-        return elements
--- a/RAAspotter_pref59.py
+++ b/RAAspotter_pref59.py
-import os
-import datetime
-import dateparser
-import logging
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-logger = logging.getLogger(__name__)
-
-
-class RAAspotter_pref59(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.nord.gouv.fr'
-    __RAA_PAGE = {
-        '2024': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2024',
-        '2023': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2023',
-        '2022': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2022',
-        '2021': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2021',
-        '2020': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2020',
-        '2019': f'{__HOST}/Publications/Recueils-des-actes-administratifs/RAA-du-departement-du-Nord/2019'
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture du Nord'
-    short_code = 'pref59'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(20)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref59')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-        if self.not_before.year <= 2024:
-            pages_to_parse.append(self.__RAA_PAGE['2024'])
-        if self.not_before.year <= 2023:
-            pages_to_parse.append(self.__RAA_PAGE['2023'])
-        if self.not_before.year <= 2022:
-            pages_to_parse.append(self.__RAA_PAGE['2022'])
-        if self.not_before.year <= 2021:
-            pages_to_parse.append(self.__RAA_PAGE['2021'])
-        if self.not_before.year <= 2020:
-            pages_to_parse.append(self.__RAA_PAGE['2020'])
-        if self.not_before.year <= 2019:
-            pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-        for raa_page in pages_to_parse:
-            page_content = self.get_page(raa_page, 'get').content
-            sub_pages = self.get_sub_pages(
-                page_content,
-                'div.fr-card__body div.fr-card__content h2.fr-card__title a',
-                self.__HOST,
-                True
-            )
-            for sub_page in sub_pages[::-1]:
-                sub_page_content = self.get_page(sub_page['url'], 'get').content
-                sub_raa_elements = self.get_raa_elements(sub_page_content)
-                self.parse_raa(sub_raa_elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère chaque balise a
-        for a in soup.select('a.fr-link.fr-link--download'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref62.py
+++ b/RAAspotter_pref62.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref62(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.pas-de-calais.gouv.fr'
-    __RAA_PAGE = {
-        '2024': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2024-Recueils-des-actes-administratifs'
-        ],
-        '2023': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2023-Recueils-des-actes-administratifs',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2023-Recueils-speciaux-des-actes-administratifs'
-        ],
-        '2022': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2022-Recueils-des-Actes-Administratifs',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2022-Recueils-Speciaux-des-Actes-Administratifs'
-        ],
-        '2021': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2021-Recueils-des-actes-administratifs',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2021-Recueils-speciaux-des-actes-administratifs'
-        ],
-        '2020': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2020-Recueils-des-actes-administratifs',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2020-Recueils-speciaux-des-actes-administratifs'
-        ],
-        '2019': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2019-Recueil-des-actes-administratifs',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/2019-Recueils-speciaux-des-actes-administratifs'
-        ]
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture du Pas-de-Calais'
-    short_code = 'pref62'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(20)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref62')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-        if self.not_before.year <= 2024:
-            for page in self.__RAA_PAGE['2024']:
-                pages_to_parse.append(page)
-        if self.not_before.year <= 2023:
-            for page in self.__RAA_PAGE['2023']:
-                pages_to_parse.append(page)
-        if self.not_before.year <= 2022:
-            for page in self.__RAA_PAGE['2022']:
-                pages_to_parse.append(page)
-        if self.not_before.year <= 2021:
-            for page in self.__RAA_PAGE['2021']:
-                pages_to_parse.append(page)
-        if self.not_before.year <= 2020:
-            for page in self.__RAA_PAGE['2020']:
-                pages_to_parse.append(page)
-        if self.not_before.year <= 2019:
-            for page in self.__RAA_PAGE['2019']:
-                pages_to_parse.append(page)
-
-        for raa_page in pages_to_parse:
-            page_content = self.get_page(raa_page, 'get').content
-            raa_elements = self.get_raa_elements(page_content)
-            self.parse_raa(raa_elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère le div qui contient la liste des RAA
-        cards = soup.select('div.fr-downloads-group.fr-downloads-group--bordered')[0]
-        # On analyse chaque balise a dans ce div
-        for a in cards.find_all('a', href=True):
-            if a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements[::-1]
--- a/RAAspotter_pref64.py
+++ b/RAAspotter_pref64.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref64(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.pyrenees-atlantiques.gouv.fr'
-    __RAA_PAGE = {
-        '2024': f'{__HOST}/Publications/Recueil-des-actes-administratifs/Annee-2024',
-        '2023': f'{__HOST}/Publications/Recueil-des-actes-administratifs/Annee-2023',
-        '2022': f'{__HOST}/Publications/Recueil-des-actes-administratifs/Annee-2022',
-        '2021': f'{__HOST}/Publications/Recueil-des-actes-administratifs/Annee-2021',
-        '2020': f'{__HOST}/Publications/Recueil-des-actes-administratifs/Annee-2020',
-        '2019': f'{__HOST}/Publications/Recueil-des-actes-administratifs/Annee-2019'
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture des Pyrénées-Atlantiques'
-    short_code = 'pref64'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref64')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        year_pages_to_parse = []
-        if self.not_before.year <= 2024:
-            year_pages_to_parse.append(self.__RAA_PAGE['2024'])
-        if self.not_before.year <= 2023:
-            year_pages_to_parse.append(self.__RAA_PAGE['2023'])
-        if self.not_before.year <= 2022:
-            year_pages_to_parse.append(self.__RAA_PAGE['2022'])
-        if self.not_before.year <= 2021:
-            year_pages_to_parse.append(self.__RAA_PAGE['2021'])
-        if self.not_before.year <= 2020:
-            year_pages_to_parse.append(self.__RAA_PAGE['2020'])
-        if self.not_before.year <= 2019:
-            year_pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-        pages_to_parse = []
-        # Pour chaque année, on cherche les sous-pages de mois
-        for year_page in year_pages_to_parse:
-            page_content = self.get_page(year_page, 'get').content
-            month_pages = self.get_sub_pages(
-                page_content,
-                '.fr-card.fr-card--sm.fr-card--grey.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a',
-                self.__HOST,
-                False
-            )[::-1]
-
-            # Pour chaque page de mois, on récupère les liens vers des pages de RAA
-            for month_page in month_pages:
-                raa_links = self.get_sub_pages_with_pager(
-                    month_page['url'],
-                    'div.content-view-line div.class-file h2 a',
-                    'ul.fr-pagination__list li a.fr-pagination__link.fr-pagination__link--next',
-                    None,
-                    self.__HOST
-                )[::-1]
-
-                # Pour chaque lien vers un RAA, on filtre ceux ne correspondant pas à la période analysée
-                for raa_link in raa_links:
-                    guessed_date = RAAspotter.guess_date(raa_link['name'], 'n°[ 0-9-]* du ([0-9]*(?:er)? [a-zéû]* [0-9]*)')
-                    if guessed_date >= self.not_before:
-                        pages_to_parse.append(raa_link['url'])
-
-        # On parse les pages contenant des RAA
-        elements = []
-        for page in pages_to_parse:
-            page_content = self.get_page(page, 'get').content
-            for raa in self.get_raa_elements(page_content):
-                elements.append(raa)
-
-        self.parse_raa(elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère chaque balise a
-        for a in soup.select('a.fr-link.fr-link--download'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref65.py
+++ b/RAAspotter_pref65.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref65(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.hautes-pyrenees.gouv.fr'
-    __RAA_PAGE = {
-        '2024': f'{__HOST}/Publications/Recueil-d-actes-administratifs/RAA-2024',
-        '2023': f'{__HOST}/Publications/Recueil-d-actes-administratifs/RAA-2023',
-        '2022': f'{__HOST}/Publications/Recueil-d-actes-administratifs/RAA-2022',
-        '2021': f'{__HOST}/Publications/Recueil-d-actes-administratifs/RAA-2021',
-        '2020': f'{__HOST}/Publications/Recueil-d-actes-administratifs/RAA-2020',
-        '2019': f'{__HOST}/Publications/Recueil-d-actes-administratifs/RAA-2019'
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture des Hautes-Pyrénées'
-    short_code = 'pref65'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref65')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-        if self.not_before.year <= 2024:
-            pages_to_parse.append(self.__RAA_PAGE['2024'])
-        if self.not_before.year <= 2023:
-            pages_to_parse.append(self.__RAA_PAGE['2023'])
-        if self.not_before.year <= 2022:
-            pages_to_parse.append(self.__RAA_PAGE['2022'])
-        if self.not_before.year <= 2021:
-            pages_to_parse.append(self.__RAA_PAGE['2021'])
-        if self.not_before.year <= 2020:
-            pages_to_parse.append(self.__RAA_PAGE['2020'])
-        if self.not_before.year <= 2019:
-            pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-        for raa_page in pages_to_parse:
-            page_content = self.get_page(raa_page, 'get').content
-            raa_elements = self.get_raa_elements(page_content)
-            self.parse_raa(raa_elements, keywords.split(','))
-
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # Pour chaque balise a, on regarde si c'est un PDF, et si oui on le parse
-        for a in soup.select('a.fr-link.fr-link--download'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref81.py
+++ b/RAAspotter_pref81.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref81(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.tarn.gouv.fr'
-    __RAA_PAGE = {
-        'default': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA',
-        '2024': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA/2024',
-        '2023': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA/2023',
-        '2022': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA/2022',
-        '2021': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA/2021',
-        '2020': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA/2020',
-        '2019': f'{__HOST}/Publications/RAA-Recueil-des-Actes-Administratifs/RAA/2019',
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture du Tarn'
-    short_code = 'pref81'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref81')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        pages_to_parse = []
-        if self.not_before.year <= 2024:
-            pages_to_parse.append(self.__RAA_PAGE['2024'])
-        if self.not_before.year <= 2023:
-            pages_to_parse.append(self.__RAA_PAGE['2023'])
-        if self.not_before.year <= 2022:
-            pages_to_parse.append(self.__RAA_PAGE['2022'])
-        if self.not_before.year <= 2021:
-            pages_to_parse.append(self.__RAA_PAGE['2021'])
-        if self.not_before.year <= 2020:
-            pages_to_parse.append(self.__RAA_PAGE['2020'])
-        if self.not_before.year <= 2019:
-            pages_to_parse.append(self.__RAA_PAGE['2019'])
-
-        sub_pages_to_parse = [self.__RAA_PAGE['default']]
-
-        # Pour chaque année, on cherche les sous-pages de mois
-        for raa_page in pages_to_parse:
-            page_content = self.get_page(raa_page, 'get').content
-            month_pages = self.get_sub_pages(
-                page_content,
-                '.fr-card.fr-card--sm.fr-card--grey.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a',
-                self.__HOST,
-                False
-            )[::-1]
-
-            # On regarde aussi si sur la page de l'année il n'y aurait pas un
-            # RAA mal catégorisé
-            for page_to_parse in self.find_raa_card(raa_page):
-                sub_pages_to_parse.append(page_to_parse)
-
-            # Pour chaque mois, on cherche les pages des RAA
-            for month_page in month_pages:
-                year = RAAspotter.guess_date(month_page['name'], '(.*)').year
-                for page_to_parse in self.find_raa_card(month_page['url'], year):
-                    sub_pages_to_parse.append(page_to_parse)
-                # On ajoute aussi la page des mois à parser au cas où il y ait
-                # eu une redirection vers un RAA
-                sub_pages_to_parse.append(month_page['url'])
-
-        # On parse les pages contenant des RAA
-        for page in sub_pages_to_parse:
-            page_content = self.get_page(page, 'get').content
-            raa_elements = self.get_raa_elements(page_content)
-            self.parse_raa(raa_elements, keywords.split(','))
-
-        self.mailer()
-
-    def find_raa_card(self, page, year=None):
-        pages = []
-        card_pages = self.get_sub_pages_with_pager(
-            page,
-            'div.fr-card__body div.fr-card__content h2.fr-card__title a.fr-card__link',
-            'ul.fr-pagination__list li a.fr-pagination__link.fr-pagination__link--next',
-            'div.fr-card__body div.fr-card__content div.fr-card__end p.fr-card__detail',
-            self.__HOST
-        )[::-1]
-        for card_page in card_pages:
-            # On filtre les pages de RAA ne correspondant pas à la période analysée
-            guessed_date = datetime.datetime.strptime(card_page['details'].replace('Publié le ', '').strip(), '%d/%m/%Y')
-            if guessed_date >= self.not_before:
-                pages.append(card_page['url'])
-        return pages
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère chaque balise a
-        for a in soup.select('div.fr-downloads-group.fr-downloads-group--bordered ul li a'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/RAAspotter_pref87.py
+++ b/RAAspotter_pref87.py
-import os
-import datetime
-
-from bs4 import BeautifulSoup
-from urllib.parse import unquote
-
-from RAAspotter import RAAspotter
-
-
-class RAAspotter_pref87(RAAspotter):
-
-    # Config
-    __HOST = 'https://www.haute-vienne.gouv.fr'
-    __RAA_PAGE = {
-        '2024': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/JANVIER-JUIN-2024/JANVIER-JUIN-2024',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/JUILLET-DECEMBRE-2024'
-        ],
-        '2023': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/JANVIER-JUIN-2023',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/JUILLET-DECEMBRE-2023/JUILLET-DECEMBRE-2023'
-        ],
-        '2022': [
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/JANVIER-JUIN-2022',
-            f'{__HOST}/Publications/Recueil-des-actes-administratifs/JUILLET-DECEMBRE-2022/Recueil-des-actes-administratifs-2022',
-        ],
-        '2021': [f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/2021'],
-        '2020': [f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/2020'],
-        '2019': [f'{__HOST}/Publications/Recueil-des-actes-administratifs/Archives-des-recueils-des-actes-administratifs/2019']
-    }
-    __USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0'
-    full_name = 'Préfecture de la Haute-Vienne'
-    short_code = 'pref87'
-
-    def __init__(self, data_dir):
-        super().__init__(data_dir, self.__USER_AGENT)
-        self.enable_tor(10)
-
-    def get_raa(self, keywords):
-        self.print_output('RAAspotter_pref87')
-        self.print_output(f'Termes recherchés: {keywords}')
-        self.print_output('')
-
-        year_pages_to_parse = []
-        if self.not_before.year <= 2024:
-            for year_page in self.__RAA_PAGE['2024']:
-                year_pages_to_parse.append(year_page)
-        if self.not_before.year <= 2023:
-            for year_page in self.__RAA_PAGE['2023']:
-                year_pages_to_parse.append(year_page)
-        if self.not_before.year <= 2022:
-            for year_page in self.__RAA_PAGE['2022']:
-                year_pages_to_parse.append(year_page)
-        if self.not_before.year <= 2021:
-            for year_page in self.__RAA_PAGE['2021']:
-                year_pages_to_parse.append(year_page)
-        if self.not_before.year <= 2020:
-            for year_page in self.__RAA_PAGE['2020']:
-                year_pages_to_parse.append(year_page)
-        if self.not_before.year <= 2019:
-            for year_page in self.__RAA_PAGE['2019']:
-                year_pages_to_parse.append(year_page)
-
-        pages_to_parse = year_pages_to_parse
-        # Pour chaque année, on cherche les éventuelles sous-pages de mois
-        for year_page in year_pages_to_parse:
-            page_content = self.get_page(year_page, 'get').content
-            month_pages = self.get_sub_pages(
-                page_content,
-                '.fr-card.fr-card--sm.fr-card--grey.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a',
-                self.__HOST,
-                False
-            )[::-1]
-
-            # On filtre les pages de mois ne correspondant pas à la période analysée
-            for month_page in month_pages:
-                guessed_date = RAAspotter.guess_date(month_page['name'], '([a-zéû]* [0-9]{4})').replace(day=1)
-                if guessed_date >= self.not_before.replace(day=1):
-                    pages_to_parse.append(month_page['url'])
-
-        # On parse les pages contenant des RAA
-        elements = []
-        for page in pages_to_parse:
-            page_content = self.get_page(page, 'get').content
-            for raa in self.get_raa_elements(page_content):
-                elements.append(raa)
-
-        self.parse_raa(elements, keywords.split(','))
-        self.mailer()
-
-    def get_raa_elements(self, page_content):
-        elements = []
-        # On charge le parser
-        soup = BeautifulSoup(page_content, 'html.parser')
-
-        # On récupère chaque balise a
-        for a in soup.select('a.fr-link.fr-link--download'):
-            if a.get('href') and a['href'].endswith('.pdf'):
-                if a['href'].startswith('/'):
-                    url = f"{self.__HOST}{a['href']}"
-                else:
-                    url = a['href']
-
-                url = unquote(url)
-                name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
-                date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
-
-                raa = RAAspotter.RAA(url, date, name)
-                elements.append(raa)
-        return elements
--- a/README.md
+++ b/README.md
-# RAAspotter
+# Attrap

-Une série de scripts en Python qui récupère les derniers recueils des actes administratifs (RAA) pour y rechercher certains mots-clés prédéfinis.
+Un logiciel qui récupère les derniers recueils des actes administratifs (RAA) pour y rechercher certains mots-clés prédéfinis.

 Conçu pour être utilisé dans une CI.

-Peut envoyer par email et sur Mastodon les résultats.
+Peut envoyer par email et sur Mastodon  les résultats, par exemple avec <a rel="me" href="https://mamot.fr/@AttrapSurveillance">@AttrapSurveillance\@mamot.fr</a>.

 ## Installation

@@ -16,7 +16,7 @@ source bin/activate
 pip3 install -r requirements.txt
 ```

-Vous devez avoir installé OCRmyPDF, les données `eng` et `fra` de Tesseract, et le démon Tor.
+Vous devez avoir installé les données `eng` et `fra` de Tesseract et le démon Tor.

 ## Utilisation

@@ -28,34 +28,108 @@ make

 Attention, le premier lancement prendra plusieurs jours ! Si vous utilisez une CI, vous devez mettre en cache le dossier `data/` afin que les fichiers déjà analysés ne soient pas téléchargés à chaque lancement.

-Il est possible de ne lancer l'analyse que pour une seule administration, avec la commande : `./cli.py --pref identifiant`
+Il est possible de ne lancer l'analyse que pour une seule administration, avec la commande : `./cli.py identifiant`
+
+## Options
+
+Les options suivantes peuvent être précisées, par un paramètre si l'utilitaire `cli.py` est utilisé, ou par une variable d'environnement :
+
+| CLI | Variable d'environnement | Signification | Valeur par défaut |
+|---|---|---|---|
+| `--keywords`, `-k` | `KEYWORDS` | Liste des mots-clés recherchés, séparés par une virgule. | Aucune |
+| `--not-before` | `NOT_BEFORE` | Date (format relatif `1 week` ou `YYYY-MM-DD`) avant laquelle les RAA ne sont pas analysés. | `2024-01-01` |
+| `--smtp-hostname` | `SMTP_HOSTNAME` | Nom d'hôte SMTP. | `localhost` |
+| `--smtp-username` | `SMTP_USERNAME` | Nom d'utilisateur SMTP. | Aucun |
+| `--smtp-password` | `SMTP_PASSWORD` | Mot de passe SMTP. | Aucun |
+| `--smtp-port` | `SMTP_PORT` | Port SMTP. | `587` |
+| `--smtp-starttls` | `SMTP_STARTTLS` | Si spécifié, la connexion SMTP se fait avec STARTTLS. | Non-spécifié |
+| `--smtp-ssl` | `SMTP_SSL` | Si spécifié, la connexion SMTP se fait avec SSL. | Non-spécifié |
+| `--email-from`, `-f` | `EMAIL_FROM` | Adresse de courrier électronique expéditrice des notifications. | Aucune (désactive l'envoi) |
+| `--email-to`, `-t` | `EMAIL_TO` | Adresses de courriers électroniques destinataires des notifications, séparées par une virgule. | Aucune (désactive l'envoi) |
+| `--**-email-to` | `--**-EMAIL-TO` | Pour chaque administration dont l'identifiant est **, adresses de courriers électroniques destinataires des notifications, séparées par une virgule, uniquement si l'analyse concerne cette administration en particulier. La liste s'ajoute à celle précisée dans `--email-to`. | Aucune |
+| `--mastodon-access-token` | `MASTODON_ACCESS_TOKEN` | Jeton d'accès pour publier sur Mastodon. | Aucun (désactive la publication sur Mastodon) |
+| `--mastodon-instance` | `MASTODON_INSTANCE` | URL de l'instance Mastodon de publication (doit inclure "http://" ou "https://"). | Aucune (désactive la publication sur Mastodon) |
+| `-v` | `VERBOSE` | Si spécifié, relève le niveau de verbosité à INFO. | Non-spécifié |
+| `-vv` | `VVERBOSE` | Si spécifié, relève le niveau de verbosité à DEBUG. | Non-spécifié |
+
+Vous pouvez également activer le safe mode en spécifiant la variable d'environnement `SAFE_MODE`. Cela désactive Tor et limite les requêtes à une toutes les 30 secondes. Cette option ne doit être utilisée qu'en cas de blocage généralisé de Tor. Attention : avec le safe mode, la CI se connecte directement au serveur, et son IP risque d'être bloquée si trop de requêtes sont lancées. Pensez donc à limiter le nombre de jobs qui s'exécutent en parallèle si vous devez activer ce mode. Les requêtes via Selenium ne sont pas impactées par le safe mode.

 ## Administrations supportées

 - Préfecture de police de Paris (identifiant : `ppparis`)
+- Préfecture de l'Ain (identifiant : `pref01`)
+- Préfecture de l'Aisne (identifiant : `pref02`)
+- Préfecture de l'Allier (identifiant : `pref03`)
 - Préfecture des Alpes-de-Haute-Provence (identifiant : `pref04`)
 - Préfecture des Hautes-Alpes (identifiant : `pref05`)
 - Préfecture des Alpes-Maritimes (identifiant : `pref06`)
 - Préfecture de l'Ariège (identifiant : `pref09`)
+- Préfecture de l'Aube (identifiant : `pref10`)
+- Préfecture de l'Aude (identifiant : `pref11`)
 - Préfecture des Bouches-du-Rhône (identifiant : `pref13`)
+- Préfecture de la Corse-du-Sud (identifiant : `pref2a`)
+- Préfecture de Haute-Corse (identifiant : `pref2b`)
+- Préfecture du Doubs (identifiant : `pref25`)
+- Préfecture du Finistère (identifiant : `pref29`)
+- Prefecture du Gard (identifiant : `pref30`)
 - Préfecture de la Haute-Garonne (identifiant : `pref31`)
 - Préfecture de la Gironde (identifiant : `pref33`)
 - Préfecture de l'Hérault (identifiant : `pref34`)
 - Préfecture d'Ille-et-Vilaine (identifiant : `pref35`)
 - Préfecture de l'Isère (identifiant : `pref38`)
+- Préfecture du Jura (identifiant : `pref39`)
 - Préfecture de la Loire (identifiant : `pref42`)
 - Préfecture de la Loire-Atlantique (identifiant : `pref44`)
+- Préfecture de Maine-et-Loire (identifiant : `pref49`)
+- Préfecture de la Manche (identifiant : `pref50`)
+- Préfecture de la Haute-Marne (identifiant : `pref52`)
+- Préfecture de Meurthe-et-Moselle (identifiant : `pref54`)
+- Préfecture de la Meuse (identifiant : `pref55`)
 - Préfecture du Nord (identifiant : `pref59`)
+- Préfecture de l'Orne (identifiant : `pref61`)
 - Préfecture du Pas-de-Calais (identifiant : `pref62`)
+- Préfecture du Puy-de-Dôme (identifiant : `pref63`)
 - Préfecture des Pyrénées-Atlantiques (identifiant : `pref64`)
 - Préfecture des Hautes-Pyrénées (identifiant : `pref65`)
 - Préfecture des Pyrénées-Orientales (identifiant : `pref66`)
 - Préfecture du Rhône (identifiant : `pref69`)
+- Préfecture de la Savoie (identifiant : `pref73`)
+- Préfecture de Paris (identifiant : `pref75`)
+- Préfecture de la Seine-Maritime (identifiant : `pref76`)
+- Préfecture de Seine-et-Marne (identifiant : `pref77`)
 - Préfecture de la Somme (identifiant : `pref80`)
 - Préfecture du Tarn (identifiant : `pref81`)
 - Préfecture du Var (identifiant : `pref83`)
 - Préfecture de la Haute-Vienne (identifiant : `pref87`)
+- Préfecture de l'Essonne (identifiant : `pref91`)
+- Préfecture des Hauts-de-Seine (identifiant : `pref92`)
+- Préfecture de Seine-Saint-Denis (identifiant : `pref93`)
+- Préfecture du Val-de-Marne (identifiant : `pref94`)
 - Préfecture de Mayotte (identifiant : `pref976`)
+- Préfecture de la région Bretagne (identifiant : `prefbretagne`)
+- Préfecture de la région Île-de-France (identifiant : `prefidf`)
+- Préfecture de la région Provence-Alpes-Côte-d'Azur (identifiant : `prefpaca`)
+
+## Contributions
+
+Les contributions à ce projet sont les bienvenues !
+
+Chaque administration est gérée par un fichier dont le nom correspond à son identifiant (`Attrap_XXX.py`). Commencez par copier un de ces fichiers puis adaptez son code à l'administration que vous voulez ajouter. Il est impératif de lancer le moins de requêtes possibles vers le site de l'administration : lorsqu'une administration a une page par année ou par mois, ne lancez une requête que vers les pages qui correspondent à la plage temporelle demandée dans la valeur de configuration `NOT_BEFORE`.
+
+Vous pouvez lancer la commande suivante pour connaître fonctions disponibles pour récupérer les RAA sur le site d'une administration :
+
+```
+bin/python -m pydoc Attrap
+```
+
+Avant d'ouvrir une merge request, assurez-vous que :
+- l'administration est activée dans `cli.py` et dans `Makefile` ;
+- il existe un job dans la CI (`.gitlab-ci.yml`) pour l'administration ;
+- le fichier de README indique que la nouvelle administration est supportée ;
+- vous n'avez qu'un seul commit par nouvelle préfecture (sinon, il faut faire un squash), de la forme `identifiant_de_l'administration: ajout de nom_complet_de_l'administration` ;
+- `make lint` ne renvoie pas d'erreur.
+
+Vous pouvez rejoindre le salon de discussion Matrix du projet : `#Attrap:laquadrature.net`.

 ## Licence


--- a/cli.py
+++ b/cli.py
--- a/misc/download-all-from-s3.sh
+++ b/misc/download-all-from-s3.sh
--- a/misc/download-from-s3.sh
+++ b/misc/download-from-s3.sh
+#!/usr/bin/env bash
+
+set -e
+
+pref="${1}"
+s3_key="${2}"
+s3_secret="${3}"
+s3_host="${4}"
+s3_bucket="${5}"
+dest="${6}"
+
+if test -z "$pref" || test -z "$s3_key" || test -z "$s3_secret" || test -z "$s3_host" || test -z "$s3_bucket" || test -z "$dest"; then
+	echo "Usage: ${0} <pref> <s3_key> <s3_secret> <s3_host> <s3_bucket> <dest>"
+	exit 1
+fi
+
+dest=$(realpath "${dest}")
+
+mkdir -p "${dest}/"
+cd "${dest}/"
+
+file="${pref}.zip"
+
+echo "Downloading ${pref}..."
+
+ressource="/${s3_bucket}/${file}"
+content_type="application/octet-stream"
+date=$(date --utc -R)
+
+signature=$(echo -en "GET\n\n${content_type}\n${date}\n${ressource}" | openssl sha1 -hmac "${s3_secret}" -binary | base64)
+
+curl -X GET \
+	 --silent \
+	 -H "Date: ${date}" \
+	 -H "Content-Type: ${content_type}" \
+	 -H "Authorization: AWS ${s3_key}:${signature}" \
+	 "${s3_host}${ressource}" \
+	 -o "${file}"
+
+unzip -o "${file}" > /dev/null
+rm "${file}"
--- a/misc/fix-pref75-prefidf-url.py
+++ b/misc/fix-pref75-prefidf-url.py
--- a/misc/update_metadata_format.py
+++ b/misc/update_metadata_format.py
--- a/misc/upload-all-to-s3.sh
+++ b/misc/upload-all-to-s3.sh
--- a/misc/upload-to-s3.sh
+++ b/misc/upload-to-s3.sh
--- a/requirements.txt
+++ b/requirements.txt
 beautifulsoup4>=4.12.3
 dateparser>=1.2.0
+ftfy>=6.2.0
 Mastodon.py>=1.8.1
+ocrmypdf<16.4.0
 pycodestyle>=2.11.1
 pypdf>=4.2.0
+pytz>=2024.2
 PyVirtualDisplay>=3.0
 requests>=2.31.0
 selenium>=4.19.0
-stem>=1.8.2
No results found