Da documenti tradizionali a contenuti strutturati

Sono finiti i giorni in cui la documentazione tecnica veniva scritta in editor come Word o WordPerfect: la documentazione tecnica moderna viene redatta in piccoli frammenti di testo (topic) e gestita in Sistemi di Gestione dei Contenuti Componenti (CCMS).

Convertire file vecchi e non strutturati in un formato compatibile con un CCMS non è semplice. Posso aiutarti a pianificare ed eseguire tale conversione.

Formati non strutturati vs. formati strutturati

I formati non strutturati come PDF o immagini raster si concentrano principalmente sull’aspetto visivo di un documento, e su poco altro.

I formati strutturati come XML o JSON supportano molte più funzionalità, ad esempio:

  • tagging semantico: una descrizione del significato del contenuto, invece del suo aspetto visivo.
  • gestione dei metadati: dati relativi al tuo contenuto, inclusi autore, pubblico di riferimento, applicabilità a prodotti, modelli, ordini o clienti specifici.
  • gerarchia delle sezioni: una struttura dei capitoli, delle sezioni o delle sottosezioni del documento a diversi livelli.
  • filtraggio ed elaborazione condizionale: meccanismi per includere o escludere frammenti di contenuto durante la pubblicazione.
  • riutilizzo dei contenuti: la possibilità di riutilizzare contenuti in documenti diversi.
  • gestione delle relazioni: una panoramica di come i topic sono correlati o collegati tra loro e ad altri documenti.
  • Pubblicazione single-source: la possibilità di pubblicare lo stesso contenuto di origine in diversi formati di output (PDF, HTML, JSON, ePUB, ecc.).

I documenti non strutturati non dispongono di nessuna di queste funzionalità. Inoltre, sono poco adatti alle applicazioni di Intelligenza Artificiale (AI) e aumentano il rischio di allucinazioni.

Conversione di contenuti non strutturati

Convertire documenti non strutturati in un formato strutturato non è semplice: da nessuna parte troverai informazioni dirette, ad esempio, sulla gerarchia delle sezioni o sui metadati. Queste informazioni possono tuttavia essere ricostruite grazie a modelli di AI.

Non mi riferisco qui a modelli popolari e generici come ChatGPT, Claude o Gemini, ma a software più specializzato come Mineru o Docling.

Questi programmi possono trasformare documenti acquisiti tramite OCR o PDF in Markdown o XML. Dopo un’ulteriore pulizia, questi formati possono a loro volta essere importati in un CCMS.