From 94716a93b7b1dbe711d0663f03ebe9ed324856e0 Mon Sep 17 00:00:00 2001 From: Bastien Le Querrec <blq@laquadrature.net> Date: Sat, 11 Jan 2025 19:13:02 +0100 Subject: [PATCH] =?UTF-8?q?prefdpt:=20ajoute=20la=20possibilit=C3=A9=20de?= =?UTF-8?q?=20parser=20les=20mois=20en=20ajoutant=20l'ann=C3=A9e=20de=20la?= =?UTF-8?q?=20page=20parente?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- Attrap_prefdpt.py | 57 ++++++++++++++++++++++++++++++++++------------- 1 file changed, 41 insertions(+), 16 deletions(-) diff --git a/Attrap_prefdpt.py b/Attrap_prefdpt.py index 109eeea..d23b81f 100644 --- a/Attrap_prefdpt.py +++ b/Attrap_prefdpt.py @@ -22,7 +22,8 @@ class Attrap_prefdpt(Attrap): 'link_to_raa': False, 'autodetect_links_to_raa': True, 'follow_link_on_unrecognised_date': True, - 'exclude': [] + 'exclude': [], + 'add_year_to_months': False } white_card = { 'regex': { @@ -37,7 +38,8 @@ class Attrap_prefdpt(Attrap): 'link_to_raa': False, 'autodetect_links_to_raa': True, 'follow_link_on_unrecognised_date': True, - 'exclude': [] + 'exclude': [], + 'add_year_to_months': False } # Liste des widgets à analyser (sera remplie au moment de l'initialisation, mais peut être surchargée par la classe de préfecture de département) @@ -57,7 +59,7 @@ class Attrap_prefdpt(Attrap): class DptWidget: """Une classe représentant un widget sur le site d'une préfecture de département.""" - def __init__(self, name, regex=None, css_path=None, link_to_raa=False, autodetect_links_to_raa=True, follow_link_on_unrecognised_date=True, exclude=[]): + def __init__(self, name, regex=None, css_path=None, link_to_raa=False, autodetect_links_to_raa=True, follow_link_on_unrecognised_date=True, exclude=[], add_year_to_months=False): self.name = name self.regex = regex self.css_path = css_path @@ -65,6 +67,7 @@ class Attrap_prefdpt(Attrap): self.autodetect_links_to_raa = autodetect_links_to_raa self.follow_link_on_unrecognised_date = follow_link_on_unrecognised_date self.exclude = exclude + self.add_year_to_months = add_year_to_months def has_css_path(self, key): return self.css_path and self.css_path.get(key, None) is not None @@ -94,15 +97,30 @@ class Attrap_prefdpt(Attrap): self.follow_link_on_unrecognised_date = follow_link_on_unrecognised_date self.exclude = exclude + def add_url(self, url, date=None): + if date and date.year == 9999: + date = None + self.page_urls_to_parse.append([url, date]) + + def get_urls_to_parse(self): + urls = [] + for url in self.page_urls_to_parse: + urls.append(url[0]) + return urls + def __init__(self, data_dir): """Une classe générique permettant d'analyser les préfectures de département en fonction de certains paramètres.""" super().__init__(data_dir, self.user_agent) self.set_sleep_time(self.pref_sleep_time) + self.page_urls_to_parse = [] + if isinstance(self.raa_page, str): - self.raa_page = [self.raa_page] - self.page_urls_to_parse = self.raa_page + self.add_url(self.raa_page) + else: + for url in self.raa_page: + self.add_url(url) self.elements = [] # On ajoute les cartes grises et blanches à la liste des widgets à parser @@ -115,7 +133,8 @@ class Attrap_prefdpt(Attrap): link_to_raa=self.grey_card['link_to_raa'], autodetect_links_to_raa=self.grey_card['autodetect_links_to_raa'], follow_link_on_unrecognised_date=self.grey_card['follow_link_on_unrecognised_date'], - exclude=self.grey_card['exclude'] + exclude=self.grey_card['exclude'], + add_year_to_months=self.grey_card['add_year_to_months'] ) ) @@ -128,15 +147,16 @@ class Attrap_prefdpt(Attrap): link_to_raa=self.white_card['link_to_raa'], autodetect_links_to_raa=self.white_card['autodetect_links_to_raa'], follow_link_on_unrecognised_date=self.white_card['follow_link_on_unrecognised_date'], - exclude=self.white_card['exclude'] + exclude=self.white_card['exclude'], + add_year_to_months=self.white_card['add_year_to_months'] ) ) def get_raa(self, keywords): while not self.page_urls_to_parse == []: page_url = self.page_urls_to_parse[-1] - page_content = self.get_page(page_url, 'get').content # On récupère le HTML de la page - self.parse_widgets(page_content) # On parse les cartes + page_content = self.get_page(page_url[0], 'get').content # On récupère le HTML de la page + self.parse_widgets(page_url, page_content) # On parse les cartes self.parse_select_widgets(page_url, page_content) # On parse les menus déroulants for element in self.get_raa_elements(page_content): # On cherche les RAA self.elements.append(element) @@ -145,7 +165,7 @@ class Attrap_prefdpt(Attrap): self.parse_raa(self.elements[::-1], keywords) self.mailer() - def parse_widgets(self, page_content): + def parse_widgets(self, page_url, page_content): # Pour chaque widget paramétré qui n'est pas de type select, on le cherche sur la page for widget in self.widgets: cards = [] @@ -166,7 +186,7 @@ class Attrap_prefdpt(Attrap): False ) for card in cards: - if card['url'] not in self.page_urls_to_parse and card['name'].strip() not in widget.exclude: + if card['url'] not in self.get_urls_to_parse() and card['name'].strip() not in widget.exclude: date = None date_is_correct = False @@ -178,13 +198,18 @@ class Attrap_prefdpt(Attrap): date_is_correct = True # Si un regex de mois est spécifié et qu'aucune date correcte n'a été trouvée, on teste avec le regex de mois sur le titre - if widget.has_regex('month') and not date_is_correct: - date = Attrap.guess_date(card['name'].strip(), widget.get_regex('month')).replace(day=1) + if widget.has_regex('month') and (not date or date.year == 9999): + # On ajoute l'année au nom du mois à tester si configuré dans le widget + if widget.add_year_to_months and page_url[1]: + month = card['name'].strip()+' '+str(page_url[1].year) + else: + month = card['name'].strip() + date = Attrap.guess_date(month, widget.get_regex('month')).replace(day=1) if date >= self.not_before.replace(day=1) and date.year < 9999: date_is_correct = True # Si un chemin CSS vers les détails du widget est spécifié et qu'aucune date correcte n'a été trouvée, on tente de parser la date présente dans les détails - if widget.has_css_path('details') and not date_is_correct: + if widget.has_css_path('details') and (not date or date.year == 9999): try: date = datetime.datetime.strptime(card['details'].replace('Publié le ', '').strip(), '%d/%m/%Y') if date >= self.not_before: @@ -201,7 +226,7 @@ class Attrap_prefdpt(Attrap): else: # Si une date a été trouvée, on regarde s'il faut ajouter l'URL à la liste des pages à parser if date_is_correct or ((date is None or date.year == 9999) and widget.follow_link_on_unrecognised_date): - self.page_urls_to_parse.append(card['url']) + self.add_url(card['url'], date) def parse_select_widgets(self, page_url, page_content): for select_widget in self.select_widgets: @@ -223,7 +248,7 @@ class Attrap_prefdpt(Attrap): # on demande au serveur les détails du RAA if (date.year < 9999 and date >= self.not_before) or (date.year == 9999 and select_widget.follow_link_on_unrecognised_date): page_content = self.get_page( - page_url, + page_url[0], 'post', { select['id']: option['value'] -- GitLab