Skip to content
Extraits de code Groupes Projets
Valider b2e0a18b rédigé par Bastien Le Querrec's avatar Bastien Le Querrec
Parcourir les fichiers

RAAspotter: s'assure de la présence d'un lien avant de chercher une sous-page

parent ddfa365b
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
...@@ -124,14 +124,15 @@ class RAAspotter: ...@@ -124,14 +124,15 @@ class RAAspotter:
soup = BeautifulSoup(page_content, 'html.parser') soup = BeautifulSoup(page_content, 'html.parser')
sub_pages = [] sub_pages = []
for a in soup.select(element): for a in soup.select(element):
url = f"{host}{a['href']}" if a.get('href'):
sub_page_content = self.get_page(url).content url = f"{host}{a['href']}"
if not self.has_pdf(sub_page_content): sub_page_content = self.get_page(url).content
logger.info(f'{url} ne contient pas de PDF, on récupère ses sous-pages') if not self.has_pdf(sub_page_content):
for sub_sub_page in self.get_sub_pages(sub_page_content, element, host): logger.info(f'{url} ne contient pas de PDF, on récupère ses sous-pages')
sub_pages.append(sub_sub_page) for sub_sub_page in self.get_sub_pages(sub_page_content, element, host):
else: sub_pages.append(sub_sub_page)
sub_pages.append(url) else:
sub_pages.append(url)
return sub_pages return sub_pages
def get_raa_with_pager(self, pages_list, pager_element, host=""): def get_raa_with_pager(self, pages_list, pager_element, host=""):
......
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter