Publication d’un template n8n pour manipuler des PDF avec l’API d’Adobe .
Template n8n manipuler des PDF avec l’API d’Adobe¶
Saviez-vous qu’Adobe fournit une API pour effectuer toutes sortes de manipulations sur les fichiers PDF :
- Diviser des PDF, Combiner des PDF
- OCR
- Insérer une page, supprimer une page, remplacer une page, réorganiser les pages
- Extraction de contenu (texte, tableaux, images)
- …
Le plan gratuit permet d’effectuer jusqu’à 500 opérations PDF par mois. Ce service natif d’Adobe fonctionne souvent mieux que les alternatives que j’ai pu tester.
Documentation Adobe :
- https://developer.adobe.com/document-services/docs/overview/pdf-services-api/howtos/
- https://developer.adobe.com/document-services/docs/overview/pdf-extract-api/gettingstarted/
Template n8n¶
L’API d’Adobe est un peu pénible à utiliser. Pour effectuer une transformation sur un PDF, il faut :
- S’authentifier et obtenir un jeton temporaire
- Enregistrer un nouvel asset (fichier)
- Uploader un PDF vers l’asset enregistré
- Demander une transformation (requête API avec l’identifiant de l’asset)
- Attendre que la requête soit traitée par le backend d’Adobe
- Télécharger le résultat.
Ce template est un wrapper générique pour effectuer toutes ces étapes pour n’importe quelle transformation documentée dans l’API. Je l’utilise généralement à partir d’autres workflows avec un nœud Execute Workflow
.
Des exemples sont donnés dans le template. Le template est disponible dans la section template de n8n ici.
Exemple de cas d’utilisation¶
Ce template est utile par exemple pour nettoyer les données PDF pour un système d’IA / RAG (voir mon article sur les RAG).
Mon astuce préférée est d’extraire des tableaux sous forme d’images pour les faire interpréter par une IA vision (type GPT Vision), ce qui donne un contenu plus digeste pour les LLM par comparaison au tableau en mode texte.