--- language: fr license: mit tags: - t5 - invoice - receipt - document-information-extraction - ocr pipeline_tag: text2text-generation --- # 🧾 Scanner Tickets – Extraction automatique de données Ce modèle T5 a été entraîné pour **extraire automatiquement des informations clés depuis du texte OCR issu de factures ou tickets de caisse**. ## 📌 Données extraites : - 🧾 **Type** : facture ou ticket - 💸 **Montant total** - 📅 **Date** - 🏢 **Fournisseur** - 🔢 **SIRET** - 🔢 **Numéro de TVA** - #️⃣ **Numéro de facture ou ticket** ## 🔍 Exemple d'utilisation ```python from transformers import T5Tokenizer, T5ForConditionalGeneration tokenizer = T5Tokenizer.from_pretrained("cedricgaudron/scanner-tickets") model = T5ForConditionalGeneration.from_pretrained("cedricgaudron/scanner-tickets") texte = """CARREFOUR TOTAL TTC : 24,75€ Date : 12/06/2024 SIRET : 123 456 789 00012 TVA : FR 12 345678912""" input_ids = tokenizer("Extrais les données suivantes en format JSON :\n" + texte, return_tensors="pt").input_ids output = model.generate(input_ids, max_length=128) print(tokenizer.decode(output[0], skip_special_tokens=True))