Herramienta de caracterización para preservación digital — Archivo Nacional de Chile
📋 Historial de Sesión
Aún no se han analizado archivos.
Iniciando análisis...0%
📁
Arrastra un archivo aquí
PDFDOCXXLSXPPTXJPG/PNG/TIFFMP4/WEBMMP3/WAV/FLAC
📦 Resultados del Análisis por Lotes
👁️ Vista Visual del Documento
¿Qué estamos viendo? La representación visual del PDF tal como lo vería un usuario final.
El documento se mostrará aquí
🛡️ Evaluación de Riesgo de Preservación
¿Qué es el riesgo de preservación?
Una evaluación integral que mide qué tan preservable es este archivo a largo plazo, considerando formato, estructura, metadatos, dependencias externas y conformidad con estándares internacionales. Basado en criterios de NARA Digital Preservation Framework y la política de formatos del Archivo Nacional de Chile (REX 419).
🛠️ Herramientas de Preservación Digital
🔍
DROID - Identificación de Formato
Digital Record Object Identification (The National Archives UK)
¿Qué hace DROID? Identifica formatos de archivo usando firmas binarias (magic numbers) y los clasifica según el registro PRONOM.
📋
JHOVE - Validación y Caracterización
JSTOR/Harvard Object Validation Environment
¿Qué hace JHOVE? Valida si un archivo está bien formado (well-formed) y es válido según su especificación.
✅
veraPDF - Validación PDF/A
Validador de conformidad ISO 19005 (PDF/A)
¿Qué hace veraPDF? Valida si un PDF cumple con el estándar PDF/A para preservación a largo plazo.
🏷️
ExifTool - Extracción de Metadatos
Herramienta de lectura/escritura de metadatos
¿Qué hace ExifTool? Extrae todos los metadatos embebidos en el archivo.
📄
Apache Tika - Extracción de Contenido
Detector de tipos y extractor de texto/metadatos
¿Qué hace Apache Tika? Detecta automáticamente el tipo de archivo, extrae texto legible y metadatos.
🔒 Verificación de Integridad
¿Qué son los checksums? Son "huellas digitales" únicas del archivo. Si cambia un solo bit, el checksum cambia completamente.
Calculando checksums...
📋
TeraCopy - Verificación de Copia
Simulación de verificación de integridad post-copia
🔄
Comparador de Checksums
Verifica si un checksum conocido coincide con el archivo
📝 Código Fuente del PDF
¿Qué estamos viendo? El contenido "real" del archivo PDF — un archivo de texto estructurado con instrucciones y datos binarios.
📜 Vista completa
Cargando...
🏷️ Metadatos del Documento
¿Qué son los metadatos? "Datos sobre los datos". Información como: quién creó el documento, cuándo, con qué programa.
🔤 Metadatos en Bruto
¿Qué estamos viendo? Los metadatos tal como están almacenados en el archivo, sin procesar.
🔏 Análisis de Firmas Electrónicas Avanzadas
¿Qué es una firma electrónica avanzada (FEA)?
Conforme a la Ley 19.799 de Chile, un mecanismo criptográfico que garantiza: Autenticidad (identifica al firmante mediante certificado digital emitido por PSC acreditado), Integridad (detecta cualquier modificación posterior), No repudio (el firmante no puede negar la firma) y Vinculación exclusiva (la firma está ligada únicamente al firmante). En el ámbito internacional, se alinea con los estándares PAdES (ETSI EN 319 142), CAdES (ETSI EN 319 122) y XAdES (ETSI EN 319 132).
⚠️ Importante: Esta herramienta detecta, identifica y clasifica las firmas encontradas en el documento, pero no puede validar criptográficamente la autenticidad de la firma ni verificar la cadena de confianza del certificado. Para validación oficial, use el verificador del Ministerio Secretaría General de la Presidencia o herramientas como DSS (Digital Signature Services) de la Unión Europea.
🌳 Estructura Jerárquica del PDF
¿Cómo se organiza un PDF? Estructura jerárquica: Catálogo → Páginas → Recursos (fuentes, imágenes) y Contenido.
📐 Los 4 componentes fundamentales
Header: %PDF-X.X
Body: Objetos
Xref: Índice
Trailer: %%EOF
📖 Glosario de Términos
🔢 Vista Hexadecimal Interactiva
¿Qué es la vista hexadecimal? Muestra los bytes raw del archivo en formato hexadecimal + ASCII. Permite inspeccionar la estructura binaria real del documento, identificar magic numbers, buscar patrones y detectar anomalías. Herramienta fundamental en análisis forense digital.
🛡️ Análisis de Indicadores de Seguridad
¿Por qué es importante? Antes de ingestar documentos en un repositorio de preservación, es necesario verificar que no contengan elementos potencialmente maliciosos: JavaScript ejecutable, acciones automáticas, URIs externas, archivos embebidos o acciones de sistema (/Launch). Estos elementos representan riesgos de seguridad y también problemas de preservabilidad a largo plazo.
🔤 Detección OCR / Texto vs Imagen
¿Por qué importa? Un PDF puede contener texto buscable (nativo o OCR) o ser solo una imagen escaneada sin capa de texto. Para preservación y acceso, los PDFs deben tener texto extraíble. Si un PDF es solo imagen, necesita procesamiento OCR antes o después de la ingesta.
⚖️ Conformidad con Decreto N° 4/2021 (SEGPRES)
Decreto N° 4/2021 — Reglamento de la Ley 21.180 de Transformación Digital del Estado Regula la forma en que los procedimientos administrativos deben expresarse por medios electrónicos. Establece requisitos para documentos y expedientes electrónicos, plataformas de gestión, conservación, y remite a Normas Técnicas (Art. 57) los estándares de formato, metadatos y preservación. Se complementa con la Ley 19.799 sobre firma electrónica.
📦 Ficha Técnica PREMIS
PREMIS (Preservation Metadata Implementation Strategies) Estándar de metadatos de preservación (versión 3.0). Genera un evento de caracterización (eventType = "format identification") que documenta el análisis realizado por esta herramienta, conforme al diccionario de datos PREMIS y alineado con las entidades del modelo OAIS.
📋 Mapeo de Metadatos SGD (54 campos)
Esquema de transferencia del Archivo Nacional Mapeo del archivo analizado contra el esquema unificado de metadatos de transferencia (54 campos para expedientes, 44 para documentos), integrando la guía técnica SGD, ISAD(G), ISAAR-CPF y PREMIS/Archivematica. Los campos marcados en verde son los que el archivo puede poblar automáticamente.
🎒 Generador de Manifiesto BagIt
BagIt (RFC 8493) Formato de empaquetado para transferencia de objetos digitales. Genera automáticamente los archivos de manifiesto (manifest-sha256.txt) e información del bag (bag-info.txt) listos para usar con herramientas como Bagger, bagit-python o Archivematica.
📝 Validación de Nombre de Archivo
¿Por qué validar nombres? Nombres de archivo con caracteres especiales, espacios, acentos, excesivo largo o convenciones inconsistentes causan problemas en transferencias, sistemas de preservación (Archivematica, AtoM), y almacenamiento en diferentes SO. Se evalúan las mejores prácticas de la Federal Agencies Digital Guidelines Initiative (FADGI) y las convenciones del Archivo Nacional.
🔄 Comparación de Archivos
Comparación lado a lado Suba un segundo archivo para comparar checksums, metadatos y estructura. Útil para verificar migraciones de formato, copias de respaldo, o detectar diferencias entre versiones.