Makedo AgenteAI
Documenti PDF/DOCX che lo Scanner ha scartato perché il contenuto non era elaborabile pulito (solo immagini, testo corrotto, OCR rotto, ecc.). I file sono stati spostati fisicamente nella cartella Documents/Scartati/ e vanno richiesti al cliente in formato leggibile.
Cosa significano i motivi:
extraction_failed — libreria ha lanciato eccezione, PDF rotto o protetto.
likely_image_pdf — PDF di sole immagini (scansione), estratti <100 char totali. Serve OCR o sorgente digitale.
encoding_corrupt — più del 40% di caratteri non-testo. Encoding rotto o font non-embedded.
layout_broken — righe medie <8 caratteri, tipico OCR su tabelle verticali.
boilerplate_only — dopo la pulizia, >50% del testo è ripetuto (solo header/footer/boilerplate).
too_short_after_clean — dopo la pulizia sono rimasti <200 caratteri utili.