Skip to content
Extraits de code Groupes Projets
Valider 3c0e2c77 rédigé par Bastien Le Querrec's avatar Bastien Le Querrec
Parcourir les fichiers

prefdpt: améliore la gestion du cas où une même carte a deux regex

parent 21f898ee
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
......@@ -54,11 +54,17 @@ class Attrap_prefdpt(Attrap):
self.hostname,
False
):
date = None
if self.grey_card['year']:
date = Attrap.guess_date(card['name'].strip(), self.grey_card['year']).replace(day=1, month=1)
if date >= self.not_before.replace(day=1, month=1) and card['url'] not in self.page_urls_to_parse:
self.page_urls_to_parse.append(card['url'])
if self.grey_card['month']:
# Si aucune date n'a été détectée, l'année est à 9999. Mais on n'inclut l'URL que s'il n'y a pas de regex de mois à tester après.
if not self.grey_card['month'] or (self.grey_card['month'] and date.year < 9999):
self.page_urls_to_parse.append(card['url'])
# On cherche avec le regex de mois si aucun regex d'année n'est configuré ou si ce dernier n'a pas permis de trouver une date
if self.grey_card['month'] and (not date or date.year == 9999):
date = Attrap.guess_date(card['name'].strip(), self.grey_card['month']).replace(day=1)
if date >= self.not_before.replace(day=1) and card['url'] not in self.page_urls_to_parse:
self.page_urls_to_parse.append(card['url'])
......@@ -71,20 +77,27 @@ class Attrap_prefdpt(Attrap):
self.white_card_details_css_path, # Détails (avec la date de publication)
self.hostname
):
date = None
# Pour les cartes blanches, on parse le titre si un regex a été spécifié
if self.white_card['year']:
date = Attrap.guess_date(card['name'].strip(), self.white_card['year']).replace(day=1, month=1)
if date >= self.not_before.replace(day=1, month=1) and card['url'] not in self.page_urls_to_parse:
self.page_urls_to_parse.append(card['url'])
if self.white_card['month']:
# Si aucune date n'a été détectée, l'année est à 9999. Mais on n'inclut l'URL que s'il n'y a pas de regex de mois à tester après.
if not self.white_card['month'] or (self.white_card['month'] and date.year < 9999):
self.page_urls_to_parse.append(card['url'])
# On cherche avec le regex de mois si aucun regex d'année n'est configuré ou si ce dernier n'a pas permis de trouver une date
if self.white_card['month'] and (not date or date.year == 9999):
date = Attrap.guess_date(card['name'].strip(), self.white_card['month']).replace(day=1)
if date >= self.not_before.replace(day=1) and card['url'] not in self.page_urls_to_parse:
self.page_urls_to_parse.append(card['url'])
# On regarde aussi la date dans les détails de la carte
date = datetime.datetime.strptime(card['details'].replace('Publié le ', '').strip(), '%d/%m/%Y')
if date >= self.not_before and card['url'] not in self.page_urls_to_parse:
self.page_urls_to_parse.append(card['url'])
if not date or date.year == 9999:
date = datetime.datetime.strptime(card['details'].replace('Publié le ', '').strip(), '%d/%m/%Y')
if date >= self.not_before and card['url'] not in self.page_urls_to_parse:
self.page_urls_to_parse.append(card['url'])
def get_raa_elements(self, page_content):
elements = []
......
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter