| ArchivistaBox 2008/IX: primeira aplicación para o recoñecemento de texto en SwL con procura en pdf |
|
|
|
| escrito por Irene Touriño o Luns, 22 de Setembro do 2008 | |
|
ArchivistaBox é un sistema de xestión de documentos (DMS) web, que pode instalarse en cada equipo dispoñible comercialmente. Segundo o hardware utilizado, o volume de páxinas procesado pode variar entre varios miles a varios millóns de páxinas ao día. O lanzamento de 2008/IX marca o lanzamento do primeiro sistema de recoñecemento de texto de código aberto que é capaz de xerar arquivos PDF procedentes de páxinas escaneadas con opción de procura. Máis de 20 idiomas están dispoñibles e a calidade de recoñecemento é comparable coa dos sistemas comerciais (>99 por cento)... Os arquivos PDF xerados con ArchivistaBox almacénanse nunha base de datos de Archivista e se indexan automaticamente, permitindo a consulta de todo o documento completo. Os documentos escaneados poden recuperarse cun navegador web en calquera momento. Os datos sensibles poden encriptarse antes de estar dispoñibles. Se é necesario, ArchivistaBox pode crear publicacións en DVD completas. O 100 % do código fonte utilizado en ArchivistaBox vén baixo licenza GPLv2. Os motores OCR de Tesseract (incluíndo recoñecemento de fractura/letra negra) e o porto Linux de Cuneiform (licenza BSD) utilízanse para o recoñecemento de texto. O módulo hocr2pdf utilízase para xerar arquivos PDF con opcións de procura. ArchivistaBox 2008/IX CD (700 MByte) pode descargarse desde https://sourceforge.net/projects/archivista/ ou http://www.archivista.ch. Fonte: Sourceforge.net Artigos relacionados |







Archivista








