Skip to content
Extraits de code Groupes Projets
Bifurcation depuis La Quadrature du Net / Attrap
353 validations de retard le dépôt en amont.
Avatar de Bastien Le Querrec
Bastien Le Querrec rédigé
Les PDF sont téléchargés à partir de la session obtenue par le
navigateur. Cela permet de pouvoir éteindre le navigateur une fois la
session obtenue, et d'aller plus vite (car avec moins de ressources)
dans le téléchargement des documents.
62a20a43
Historique
Nom Dernière validation Dernière mise à jour
.gitignore
.gitlab-ci.yml
LICENSE
Makefile
README.md
ppparis.py
requirements.txt

RAA-spotter

Une série de scripts en Python qui récupèrent les derniers recueils des actes administratifs (RAA) pour y rechercher certains mots-clés prédéfinis.

Conçu pour être utilisé dans une CI.

Installation

Il est recommandé d'utiliser virtualenv :

virtualenv --python=/usr/bin/python3 .
source bin/activate
pip3 install -r requirements.txt

Par ailleurs, vous devez avoir installé OCRmyPDF ainsi que les données eng et fra de Tesseract.

Utilisation

Pour lancer la récupération de toutes les administrations supportées :

make

Attention, le premier lancement prendra plusieurs jours ! Si vous utilisez une CI, vous devez mettre en cache le dossier data/ afin que les fichiers déjà analysés ne soient pas téléchargés à chaque lancement.

Il est possible de ne lancer l'analyse que pour une seule administration, en lançant le fichier correspondant à l'administration.

Administrations supportées

  • Préfecture de police de Paris (ppparis.py)

Licence

CeCILL_V2.1-fr (voir le fichier LICENSE)