Descrición

Cada mostra do corpus inclúe unha imaxe escaneada do documento orixinal, acompañada da súa transcrición. Naqueles casos en que a ortografía se afasta da norma actual, proporciónase tamén unha transcrición modernizada, elaborada conforme ás normas xerais vixentes de escritura do español, así como unha edición crítica, que consiste na comparación entre a transcrición orixinal e a modernizada.

A cada mostra do corpus asignóuselle un código único que permite identificala segundo diversos criterios:

  • o idioma (ES = español);
  • o tipo de texto (CHIS= chiste;ANEC = anécdota;EPIG = epigrama;ENTR = entremés; RELA = relato; CUEN = conto; NARR = narración breve; CRON = crónica;NOTI = noticia;OBIT = obituario;ESQU = esquela);
  • o formato (1 = texto;2 = viñeta;3 = tira cómica;0 = outros);
  • o medio de publicación (1 = periódico; 2 = revista; 3 = folleto; 4 = fascículo; 5 = fanzine; 6 = almanaque; 7 = libro; 0 = outros);
  • o lugar de edición (MAD = Madrid; VAL = Valencia; etc.);
  • e o número de identificación dentro do corpus.

Por exemplo, o código  00370_ES_CHIS23_MAD corresponde á mostra número 370 de Humtext, clasificada como un chiste en formato de viñeta (2) publicado nun periódico (3), editado en Madrid.