Van oude documenten naar gestructureerde inhoud

De tijd dat technische documentatie werd geschreven in editors zoals Word of WordPerfect, ligt achter ons: moderne technische documentatie wordt opgebouwd uit kleine tekstfragmenten (onderwerpen/topics) en beheerd in Component Content Management Systemen (CCMS’en).

Het omzetten van oude, ongestructureerde bestanden naar een formaat dat compatibel is met een CCMS is niet eenvoudig. Ik kan u helpen bij het plannen en uitvoeren van een dergelijke conversie.

Ongestructureerde vs. gestructureerde formaten

Ongestructureerde formaten zoals PDF of rasterafbeeldingen richten zich voornamelijk op de visuele weergave van een document, en verder op weinig anders.

Gestructureerde formaten zoals XML of JSON ondersteunen veel meer functionaliteiten, bijvoorbeeld:

  • semantic tagging: een beschrijving van de betekenis van inhoud, in plaats van de opmaak.

  • metadata management: gegevens over uw inhoud, zoals auteur, doelgroep en toepasbaarheid op specifieke producten, modellen, bestellingen of klanten.

  • sectiehiërarchie: een structuur van de hoofdstukken, secties of subsecties van het document op verschillende niveaus.

  • filteren en conditionele verwerking: mechanismen om inhoudsfragmenten wel of niet op te nemen bij het publiceren.

  • contenthergebruik: de mogelijkheid om inhoud te hergebruiken in verschillende documenten.

  • relationship management: een overzicht van hoe onderwerpen met elkaar en met andere documenten zijn gerelateerd of gekoppeld.

  • Publiceren vanuit één bron (single-source publishing): de mogelijkheid om dezelfde broninhoud naar verschillende outputformaten te publiceren (PDF, HTML, JSON, ePUB, ezv.).

Ongestructureerde documenten beschikken over geen van deze functionaliteiten. Bovendien zijn ze minder geschikt voor toepassingen met kunstmatige intelligentie (AI) en vergroten ze de kans op hallucinaties.

Het omzetten van ongestructureerde inhoud

Het converteren van ongestructureerde documenten naar een gestructureerd formaat is niet eenvoudig: nergens is direct informatie te vinden over bijvoorbeeld de sectiehiërarchie of de metagegevens. Deze informatie kan echter worden gereconstrueerd met behulp van AI-modellen.

Ik heb het hier niet over populaire, algemene modellen zoals ChatGPT, Claude of Gemini, maar over gespecialiseerde software zoals Mineru of Docling.

Deze programma’s kunnen OCR-gescande documenten of PDF’s omzetten naar Markdown of XML. Na wat extra opschoning kunnen deze formaten vervolgens in een CCMS worden ingeladen.