Sono finiti i giorni in cui la documentazione tecnica veniva scritta in editor come Word o WordPerfect: la documentazione tecnica moderna viene redatta in piccoli frammenti di testo (topic) e gestita in Sistemi di Gestione dei Contenuti Componenti (CCMS).
Convertire file vecchi e non strutturati in un formato compatibile con un CCMS non è semplice. Posso aiutarti a pianificare ed eseguire tale conversione.
I formati non strutturati come PDF o immagini raster si concentrano principalmente sull’aspetto visivo di un documento, e su poco altro.
I formati strutturati come XML o JSON supportano molte più funzionalità, ad esempio:
I documenti non strutturati non dispongono di nessuna di queste funzionalità. Inoltre, sono poco adatti alle applicazioni di Intelligenza Artificiale (AI) e aumentano il rischio di allucinazioni.
Convertire documenti non strutturati in un formato strutturato non è semplice: da nessuna parte troverai informazioni dirette, ad esempio, sulla gerarchia delle sezioni o sui metadati. Queste informazioni possono tuttavia essere ricostruite grazie a modelli di AI.
Non mi riferisco qui a modelli popolari e generici come ChatGPT, Claude o Gemini, ma a software più specializzato come Mineru o Docling.
Questi programmi possono trasformare documenti acquisiti tramite OCR o PDF in Markdown o XML. Dopo un’ulteriore pulizia, questi formati possono a loro volta essere importati in un CCMS.