Cada muestra del corpus incluye una imagen escaneada del documento original, acompañada de su transcripción. En aquellos casos en que la ortografía se aparta de la norma actual, se proporciona también una transcripción modernizada, elaborada conforme a las normas generales vigentes de escritura del español, así como una edición crítica, que consiste en la comparación entre la transcripción original y la modernizada.
A cada muestra del corpus se le ha asignado un código único que permite identificarla según diversos criterios:
- el idioma (
ES
= español); - el tipo de texto (
CHIS
= chiste;ANEC
= anécdota;EPIG
= epigrama;ENTR
= entremés;RELA
= relato;CUEN
= cuento;NARR
= narración breve;CRON
= crónica;NOTI
= noticia;OBIT
= obituario;ESQU
= esquela); - el formato (
1
= texto;2
= viñeta;3
= tira cómica;0
= otros); - el medio de publicación (
1
= periódico;2
= revista;3
= folleto;4
= fascículo;5
= fanzine;6
= almanaque;7
= libro;0
= otros); - el lugar de edición (
MAD
= Madrid;VAL
= Valencia; etc.); - y el número de identificación dentro del corpus.
Por ejemplo, el código 00370_ES_CHIS21_MAD
corresponde a la muestra número 370 de Humtext, clasificada como un chiste en formato de viñeta (2
) publicado en un periódico (1
), editado en Madrid.