Skip to content
Extraits de code Groupes Projets
Valider fc486c27 rédigé par Bastien Le Querrec's avatar Bastien Le Querrec
Parcourir les fichiers

pref50: ajout de la préfecture de la Manche

parent 08897538
Branches
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
......@@ -189,6 +189,11 @@ test_pref44:
PREF: "pref44"
extends: .default_pref
test_pref50:
variables:
PREF: "pref50"
extends: .default_pref
test_pref59:
variables:
PREF: "pref59"
......
import os
import re
import datetime
from bs4 import BeautifulSoup
from urllib.parse import unquote
from Attrap import Attrap
class Attrap_pref50(Attrap):
# Config
hostname = 'https://www.manche.gouv.fr'
raa_page = f'{hostname}/Publications/Recueil-des-actes-administratifs'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; rv:109.0) Gecko/20100101 Firefox/115.0'
full_name = 'Ain'
short_code = 'pref50'
timezone = 'Europe/Paris'
def __init__(self, data_dir):
super().__init__(data_dir, self.user_agent)
self.set_sleep_time(30)
self.page_urls_to_parse = [self.raa_page]
self.elements = []
def get_raa(self, keywords):
while not self.page_urls_to_parse == []:
page_url = self.page_urls_to_parse[-1]
page_content = self.get_page(page_url, 'get').content # On récupère le HTML de la page
self.get_year_pages(page_content) # On cherche les cartes d'années
self.get_elements_pages(page_url) # On cherche les cartes d'éléments
for element in self.get_raa_elements(page_content): # On cherche les éléments
self.elements.append(element)
self.page_urls_to_parse.remove(page_url) # On supprime la page de la liste de celles à parser
self.parse_raa(self.elements[::-1], keywords)
self.mailer()
def get_year_pages(self, page_content):
for card in self.get_sub_pages(
page_content,
'div.fr-card.fr-card--sm.fr-card--grey.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a', # Pages d'années
self.hostname,
False
):
date = Attrap.guess_date(card['name'].strip(), '([0-9]{4})').replace(day=1, month=1)
if date.year >= self.not_before.year:
self.page_urls_to_parse.append(card['url'])
def get_elements_pages(self, page_url):
print(page_url)
for card in self.get_sub_pages_with_pager(
page_url,
'div.fr-card.fr-card--horizontal.fr-card--sm.fr-enlarge-link div.fr-card__body div.fr-card__content h2.fr-card__title a.fr-card__link', # Carte avec un élément (mois ou arrêté seul)
'ul.fr-pagination__list li a.fr-pagination__link.fr-pagination__link--next.fr-pagination__link--lg-label', # Pager
'div.fr-card.fr-card--horizontal.fr-card--sm.fr-enlarge-link div.fr-card__body div.fr-card__content div.fr-card__end p.fr-card__detail', # Détails (avec la date de publication)
self.hostname
):
date = datetime.datetime.strptime(card['details'].replace('Publié le ', '').strip(), '%d/%m/%Y')
if date >= self.not_before:
self.page_urls_to_parse.append(card['url'])
def get_raa_elements(self, page_content):
elements = []
# On charge le parser
soup = BeautifulSoup(page_content, 'html.parser')
# On récupère chaque balise a
for a in soup.select('div.fr-downloads-group.fr-downloads-group--bordered ul li a,div a.fr-link.fr-link--download'):
if a.get('href') and a['href'].endswith('.pdf'):
if a['href'].startswith('/'):
url = f"{self.hostname}{a['href']}"
else:
url = a['href']
url = unquote(url)
name = a.find('span').previous_sibling.replace('Télécharger ', '').strip()
date = datetime.datetime.strptime(a.find('span').get_text().split(' - ')[-1].strip(), '%d/%m/%Y')
raa = Attrap.RAA(url, date, name, timezone=self.timezone)
elements.append(raa)
return elements
make: ppparis pref01 pref2b pref03 pref04 pref05 pref06 pref09 pref10 pref13 pref25 pref31 pref33 pref34 pref35 pref38 pref39 pref42 pref44 pref59 pref62 pref63 pref64 pref65 pref66 pref69 pref73 pref75 pref80 pref81 pref83 pref87 pref91 pref92 pref93 pref94 pref976 prefidf prefpaca
make: ppparis pref01 pref2b pref03 pref04 pref05 pref06 pref09 pref10 pref13 pref25 pref31 pref33 pref34 pref35 pref38 pref39 pref42 pref44 pref50 pref59 pref62 pref63 pref64 pref65 pref66 pref69 pref73 pref75 pref80 pref81 pref83 pref87 pref91 pref92 pref93 pref94 pref976 prefidf prefpaca
ppparis:
bin/python3 cli.py ppparis
pref01:
......@@ -37,6 +37,8 @@ pref42:
bin/python3 cli.py pref42
pref44:
bin/python3 cli.py pref44
pref50:
bin/python3 cli.py pref50
pref59:
bin/python3 cli.py pref59
pref62:
......
......@@ -75,6 +75,7 @@ Vous pouvez également activer le safe mode en spécifiant la variable d'environ
- Préfecture du Jura (identifiant : `pref39`)
- Préfecture de la Loire (identifiant : `pref42`)
- Préfecture de la Loire-Atlantique (identifiant : `pref44`)
- Préfecture de la Manche (identifiant : `pref50`)
- Préfecture du Nord (identifiant : `pref59`)
- Préfecture du Pas-de-Calais (identifiant : `pref62`)
- Préfecture du Puy-de-Dôme (identifiant : `pref63`)
......
......@@ -63,6 +63,7 @@ available_administrations = [
'pref39',
'pref42',
'pref44',
'pref50',
'pref59',
'pref62',
'pref63',
......
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Veuillez vous inscrire ou vous pour commenter