Skip to content
Extraits de code Groupes Projets
Valider 52f23478 rédigé par Bastien Le Querrec's avatar Bastien Le Querrec
Parcourir les fichiers

ppparis: saute l'OCRisation des pages avec des trop grandes images

parent 9fb443b4
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
......@@ -158,7 +158,7 @@ for a in soup.find_all('a', href=True):
logging.info(f'Nouveau fichier : {name} ({date}). URL : {url}')
download_file(url, __DATA_DIR+filename)
cmd = ['ocrmypdf', '-l', 'eng+fra', '--output-type', 'pdfa', '--redo-ocr', __DATA_DIR+filename, __DATA_DIR+filename]
cmd = ['ocrmypdf', '-l', 'eng+fra', '--output-type', 'pdfa', '--redo-ocr', '--skip-big', '500' , __DATA_DIR+filename, __DATA_DIR+filename]
logging.debug(f'Lancement de ocrmypdf: {cmd}')
try:
output = subprocess.check_output(cmd, stderr=subprocess.STDOUT)
......
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter