5.9.22.4.2.  Ricerca full-text: indicizzazione di PDF e altri documenti

I documenti disponibili nei cataloghi possono essere indicizzati e inclusi nell'indice di ricerca full-text.

A questo scopo, le colonne corrispondenti contenenti PDF e altri documenti devono essere specificate nella chiave VARSEARCHINDEXDOCUMENT (nella dir.prj del catalogo o nei singoli file prj).

VARSEARCHINDEXDOCUMENTVARIABLES=<List of columns to index>

Per indicizzare un progetto di documento, la chiave VARSEARCHINDEXDOCUMENT deve essere impostata su "YES".

VARSEARCHINDEXDOCUMENT=YES

Per leggere il contenuto delle immagini nei documenti PDF, è necessario installare il software di riconoscimento del testo "Tesseract" e specificare il percorso di installazione nel file di configurazione.

$CADENAS_SETUP/partsol.cfg

[INDEX:OCR]
TesseractPath=
TesseractDataPath=

Ci sono anche due impostazioni opzionali:

DPI=600
ImageFormat=