Skip to content
Extraits de code Groupes Projets
Valider 4356e394 rédigé par Bastien Le Querrec's avatar Bastien Le Querrec
Parcourir les fichiers

Attrap: nettoie les textes extraits des PDF avant sauvegarde

parent da57a5ab
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
......@@ -34,6 +34,8 @@ import email
from mastodon import Mastodon
import ftfy
logger = logging.getLogger(__name__)
......@@ -79,9 +81,10 @@ class Attrap:
text = ""
reader = PdfReader(f'{raa_data_dir}{self.get_sha256()}.ocr.pdf')
ftfy_config = ftfy.TextFixerConfig(unescape_html=False, explain=False)
for page in reader.pages:
try:
text = text + "\n" + page.extract_text()
text = text + "\n" + ftfy.fix_text(page.extract_text(), config=ftfy_config)
except Exception as exc:
logger.warning(f'ATTENTION: Impossible d\'extraire le texte du fichier {self.get_sha256()}.pdf : {exc}')
......
beautifulsoup4>=4.12.3
dateparser>=1.2.0
ftfy>=6.2.0
Mastodon.py>=1.8.1
pycodestyle>=2.11.1
pypdf>=4.2.0
......
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter