SciELO - Scientific Electronic Library Online

 
 issue46Phonological status of interdental phones / in the Mapudungun spoken in the coastal area, Budi, Araucanía Region, ChileSilent and oralic pauses in subordinate, objetive and subjective sentences, pronounced by speakers from Iquique and Punta Arenas author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Alpha (Osorno)

On-line version ISSN 0718-2201

Alpha  no.46 Osorno July 2018

http://dx.doi.org/10.4067/S0718-22012018000100129 

ARTÍCULO

IDENTIFICACIÓN DE VOCES POR AUDITORES PROFANOS NO NATIVOS

Speaker identification by non-native and naïve earwitnesses

Claudia Rosas*  , Jorge Sommerhoff**  , César Sáez*** 

*Universidad Austral de Chile, Campus Isla Teja S/N, Valdivia (Chile). claudiarosas@uach.cl

**Universidad Austral de Chile, Campus Miraflores S/N, Valdivia (Chile). jsommerhoff@uach.cl

***Policía de Investigaciones de Chile, Laboratorio de Criminalística, Arturo Prat Nº 19, Temuco (Chile). csaeze@investigaciones.cl

Resumen

Auditores chilenos no entrenados y sin conocimientos del alemán deben identificar dentro de una secuencia de voces en alemán la voz de una mujer alemana que habló previamente en español con un retardo de 2 horas. Los enunciados fueron emitidos por estudiantes alemanas nativas de la Universität Regensburg. Los resultados muestran que los auditores identifican la voz original, pero con imprecisión al otorgarle, dentro de una escala de 1 a 7, el mayor puntaje a la voz objetivo por sobre las demás, pero con un promedio general de 6,1. Esto refuerza la idea de que la evidencia auditiva solo debe tener un valor orientativo. El presente texto se basa en un manuscrito presentado en el congreso INGEACUS 2010 celebrado en Valdivia, Chile.

Palabras clave: Análisis forense del habla; rueda de reconocimiento; auditores no entrenados

Abstract

Untrained Chilean auditors and without knowledge of German must identify, within a sequence of German voices, the voice of a German woman who previously spoke in Spanish with a delay of 2 hours. The statements were spoken by native German students from the University of Regensburg. The results show that the auditors identify the original voice, but inaccurately, by giving, within a scale of 1 to 7 the highest score to the target voice above the others, but with an overall average of 6.1. This reinforces the idea that hearing evidence should only have an indicative value. This text is based on a manuscript presented at the 2010 INGEACUS Congress held in Valdivia, Chile.

Key words: Forensic speech analysis; untrained listeners; line-up parade

Introducción

Imaginemos la siguiente situación: una persona cualquiera es agredida físicamente por la espalda a la salida de un hotel. La víctima asegura reconocer la voz de su agresora, como la de una mujer que profirió, previo al atraco, un par de palabras en español con un acento extranjero, probablemente alemán. Una semana más tarde, la policía detiene a una sospechosa, que resulta ser una mujer alemana, que asegura no hablar español. La policía entrevista a la mujer y obtiene un registro de voz en alemán con el que prepara una rueda de reconocimiento. ¿Con qué grado de precisión la víctima podrá reconocer dos semanas después, a su probable agresora que habla en otro idioma? ¿Cuál puede ser el crédito que se puede conferir a esta tarea de reconocimiento, debido a las condiciones particulares del caso? Estas son algunas de las preguntas que plantea la identificación auditiva.

Una identificación por voz en casos criminales mediante las propias víctimas o testigos puede aparecer en aquellas situaciones en las que no hay registro del habla del delincuente que pueda compararse con la de un sospechoso por expertos, pero sí existe una víctima o testigo que cree que puede reconocer la voz escuchada si la volviera a oír. Su uso en la Corte se basa en la creencia de que la mayoría de las personas, con o sin conocimientos lingüísticos, pueden identificar personas solo por su voz; por ejemplo, voces de familiares, cuando hablan por teléfono o cuando llaman detrás de la puerta antes de golpear, etc. (Nolan, 2001). Sin embargo la famosa frase de Heráclito que dice que “malos testigos son los ojos y los oídos” nos advierte de la fragilidad de los sentidos y, lamentablemente, comprobamos que esto es cierto, al menos en lo que se refiere al ámbito visual, donde se han constatado errores de identificación en un par de juicios emblemáticos (Broeders y Rietveld, 1995). Nos encontramos en este punto con opiniones divididas, entre las de aquellos que aceptan sin mayor cuestionamiento la capacidad innata de reconocimiento que todos tenemos y que comprobamos a diario con nuestros parientes y amigos frente a las de aquellos otros que señalan que es necesario tener precaución y no equiparar la habilidad para reconocer voces de familiares y amigos con la capacidad para reconocer voces de desconocidos, debido a que se trata de fenómenos distintos (Clifford, 1980).

De todos modos, cualquiera sea la posición que se adopte, la pregunta de hasta dónde podemos creer en la identificación que hace un testigo o víctima en un caso concreto como el que presentábamos al inicio representa la incertidumbre frente al hecho y apoya la idea de que no puede existir certeza absoluta en un proceso de identificación (Aitken y Taroni, 2010), y esto es así, porque una identificación auditiva está sujeta a una enorme variabilidad que depende básicamente de la familiaridad y naturaleza de la voz oída, de la habilidad intrínseca del auditor para procesar, registrar y recuperar o describir las voces, y de una multiplicidad de eventos específicos, medioambientales y de procedimiento (Clifford, 1980).

Si consideramos el carácter poco claro de la identificación que queda de manifiesto tras esta breve introducción, y junto con ello volvemos al caso de ficción que, en todo caso, guarda relación con hechos de la realidad nacional1, suponiendo, además, solo por ponernos en el peor escenario, que la identificación auditiva constituye la única pieza de evidencia disponible que facilita la captura de un sospechoso y hasta determina su condena, nuestro interés y preocupación por aportar desde las disciplinas conexas con antecedentes que contribuyan en algún grado a garantizar la protección de todos(as) los individuos involucrados en problemas legales criminales se hace notoriamente más evidente. Este es el contexto que motivó las páginas que se presentan a continuación.

1. Marco de referencia

1.1 Antecedentes

Dentro de la limitada dedicación que tienen los estudios respecto de ruedas de reconocimiento en el mundo en general, el primer trabajo que recoge el interés acerca de la identificación del hablante es el de McGehee (1937), donde se evalúa la capacidad de recordar voces no familiares con distintos intervalos de tiempo, basado en el caso real de United States versus Hauptmann en 1935 (Clifford, 1980). Otros experimentos pioneros son los de Pollack, Pickett y Sumby (1954), Bricker y Pruzansky (1966) y Murry y Cort (1971) que analizan el factor de duración de la secuencia original solo o combinado con alguna otra cualidad. Algo distinto es el trabajo de Compton (1963) que versa acerca de la incidencia de las propiedades acústicas de las vocales en la identificación auditiva. En fecha un poco posterior Clifford (1980) aporta una reseña de los principales experimentos realizados a la fecha, que incluyen una muestra de trabajos muy representativa de los principales factores que inciden en el rendimiento de la identificación, así como los efectos de la cualidad de la muestra de habla oída, los efectos de disfraz, la intención de recordar, el entrenamiento, la edad de los testigos y la relación entre precisión y confianza, entre otros. Sin embargo, el primer estudio que intenta sistematizar los factores estudiados a la fecha con fines forenses y a partir de estos ofrecer unas pautas para la elaboración de ruedas de reconocimiento es el de Broeders y Rielveld (1995), cuyos planteamientos a pesar del tiempo transcurrido no han perdido vigencia.

La identificación de personas mediante testigos auditivos es un procedimiento complejo, pero en el que al menos pueden distinguirse dos grandes categorías: los testigos y la situación en la que se produce la identificación. Básicamente, se trata de un procedimiento que puede adoptar dos formatos, la confrontación simple, donde el testigo o víctima es expuesto simplemente a una sola voz y la confrontación múltiple, comúnmente conocida como rueda de reconocimiento de voz o desfile de voces (line-up), donde el oyente es expuesto a una secuencia de varias voces. Este tipo que es del que nos ocuparemos se compone de x muestras de habla producidas por n locutores, donde al menos una de las muestras procede del sospechoso, en tanto que las muestras restantes pertenecen a locutores que suenan similar a él y que sirven como distractores o señuelos. La rueda está diseñada para poner a prueba la memoria del testigo y evaluar el valor probatorio de su testimonio. La lógica que subyace a este tipo de confrontación es que si el testigo tiene una memoria perfecta de la voz del delincuente lo identificará, si está presente, sobre la base de la información que conserva de su voz y que se superpone a los rasgos que el resto de los miembros de la rueda comparten. Sin embargo, conviene acoger el llamado de Broeders y Rietveld (1995) a no tomar una identificación positiva -el objetivo que persigue la rueda- como prueba de identidad, argumentando que un eventual parecido entre el delincuente y sospechoso podría inducir a un engaño, tomando a este por aquel.

En relación con el testigo, algunas de las preguntas se han centrado en averiguar si la experticia en cuestiones de voz puede ofrecer alguna ventaja frente a la ausencia de esta capacidad. Una revisión general del tema en Hollien (1990) permite observar el desacuerdo general que existe entre el valor que se le puede conceder a un experto frente a otro que no lo es. Clifford (1980) refiere un par de estudios donde se aborda el problema, con resultados dispares, llevándolo a aseverar que el sistema de justicia criminal debería aplicar la máxima precaución posible cuando utiliza la identificación de voz en cualquier tipo de acusación. Un poco más allá va Deffenbacher et al. (1989), señalando que la identificación de testigos auditivos no debiera nunca considerarse como la única prueba en la que se determine la identidad. Schiller y Köster (1998), motivados por las diferentes posturas existentes del momento, condujeron un estudio donde pusieron a prueba el desempeño de 12 auditores no entrenados frente a 10 entrenados, con resultados que muestran un comportamiento significativamente superior de los primeros frente a los segundos, por lo que subrayan su importancia en casos judiciales. Más recientemente, Nolan (2001), en el contexto de este debate, se autodefine como un creyente señalando que los fonetistas, basados en la preparación y práctica recibida pueden realizar una contribución importante en la identificación forense del hablante, ya sea prestando servicio a una correcta alineación de voces como evaluando la similitud de una grabación de un delincuente y una grabación de un sospechoso y que deben aceptar esa tarea como un compromiso, porque de lo contrario otros menos preparados se encargarán de llevarla a cabo.

En la misma línea del testigo, otros estudios recogen el interés respecto de su nivel de confianza; es decir, la relación entre indicaciones de la certeza que tienen de estar en lo correcto y la identificación. Este aspecto surge motivado por la idea de que uno podría sentirse inclinado a dar más puntaje a la elección de un oyente que dice estar “100% seguro” frente a otro que manifiesta dudas respecto de su selección. Al respecto, Saslove y Yarmey (1980) encontraron una correlación bastante baja entre el nivel de confianza y la precisión de la identificación.

Referente a otros aspectos personales más tangibles como la edad y el sexo del testigo, algunos estudios han observado que los auditores dentro del rango de 20 y 40 años tienen rendimiento significativamente superior que sobre y bajo ese rango de edad (Clifford, 1980), y respecto del sexo, varios estudios coinciden en observar la nula incidencia de este rasgo en el rendimiento (Gil y San Segundo, 2013).

En cuanto a la situación en la que se realiza la prueba de identificación, específicamente, los elementos que intervienen en la identificación relacionados con los elementos que componen la prueba de confrontación, los estudios sugieren que a la hora de construir una rueda de reconocimiento se deben seleccionar por lo menos 5 voces de locutores (Bull y Clifford, 1984) que suenen parecido al sospechoso (Handkins y Cross, 1991), y con menos certeza -por la disparidad de conclusiones obtenidas- el retardo entre la exposición y el reconocimiento no debiera sobrepasar las 3 semanas, como máximo (Clifford, 1980; Rietveld y Broeders, 1991).

Aparte del número y similitud de las muestras, también hay indicaciones respecto de la duración del material del discurso presentado en una rueda de reconocimiento. En un experimento de identificación de locutores se encontró que el número de expresiones escuchadas provenientes del locutor objetivo no tenían casi ningún efecto en el rendimiento de los oyentes (Bull y Clifford, 1984). De acuerdo con Bricker y Pruzansky (1966), no es tanto la longitud del material lo que importa, sino el grado en que el material escuchado por el oyente es representativo del repertorio del locutor. Yarmey y Matthys (1992) informan no solo tasas de acierto más altas, sino también niveles considerablemente más altos de falsas alarmas para las duraciones de 2 o 6 minutos en comparación con las duraciones de 18 o 36 segundos.

Finalmente, en las investigaciones criminales es muy típico encontrarse con que las muestras grabadas se han hecho en dos diferentes ambientes: durante el crimen y luego durante el interrogatorio. Estas diferencias inherentes a la situación, dan lugar a la posibilidad de que el estilo de discurso también se cambie. Bahr y Pass (1996) evaluaron la influencia de la alternancia de estilos en la identificación del hablante, mediante un experimento donde los locutores aparecían en pares de estilos similares y diferentes y evidenciaron que los locutores en estilos distintos estuvieron más propensos a ser etiquetados como personas diferentes que cuando se compararon dentro de la misma condición, por lo que concluyen que el cambio de estilo, inducido por los cambios en la situación y el entorno social de la grabación, puede dar lugar a la identificación errónea de un hablante en particular.

La lección que puede sacarse de una lectura general de los estudios de identificación auditiva es que se trata de un proceso complejo donde son muchos los factores asociados a diversas instancias (personas y contexto) que pueden afectar el rendimiento de la identificación o condicionar la selección que se haga de una voz particular. Es muy difícil abordar todos los factores y prever todas las situaciones, en un afán por anticipar una solución a cada caso en específico, por lo mismo, resulta necesario contar con una teoría que permita principios generales de gran poder aplicativo para satisfacer las necesidades particulares. En esta línea Broeders y Rietveld (1995) postulan un par de requisitos a tener en cuenta en la elaboración de una rueda. Ellos conciben la confrontación auditiva como una prueba estadística donde hay dos tipos de error que deben ser evitados: el error de hacer una identificación del sospechoso por pura casualidad y el error de no identificar al sospechoso cuando de hecho está presente en la rueda, para lo que consideran necesario cumplir dos presunciones básicas subyacentes al modelo de probabilidad: la igualdad de oportunidades y la de eventos independientes, por las que todas las muestras deben tener respectivamente la misma probabilidad de ser seleccionadas y la selección de una no debe afectar la selección de otra muestra del grupo. Consideramos que es necesario adoptar este tipo de criterios, sin embargo no hemos visto un desarrollo sostenido que involucre la aplicación de estos principios.

Probablemente, la aplicación forense más temprana y consciente de un protocolo auditivo sea el de Butcher (1996), quien refiere un caso en que a solicitud de la defensa investigó para determinar si una confrontación en virtud de que se identificaba a un sospechoso se ajustaba a los principios generales de similitud de las muestras y mismas condiciones de grabación de la serie de voces. Un análisis acústico y auditivo reveló que la voz del sospechoso y de un señuelo se salían del conjunto infiriendo que la respuesta del testigo debió estar condicionada por este procedimiento mal efectuado, porque no se cumplieron los requisitos básicos y la evidencia de rueda fue declarada inadmisible.

Muchos de los aspectos aquí mencionados han sido tratados por algunos autores (Broeders, 1995), quienes incluyen ciertas recomendaciones para la construcción de las alineaciones. Todos ellos evidencian la necesidad de contar con un protocolo. Nosotros no propondremos aquí ninguna metodología específica que indique un modo de operar -eso debe ser resultado de los frutos que rindan las investigaciones que se realicen- solo nos interesa remover las aguas de la confiabilidad que puede tener un tipo de reconocimiento de voz por auditores no nativos profanos, es decir, sin conocimientos lingüísticos fonéticos. Al respecto, se advierte de las dificultades de discriminar correctamente las voces en estos casos, ya que los auditores, normalmente, perciben los hablantes de una lengua desconocida muy semejantes entre sí (Nolan, 2001).

1. 2. La práctica en Chile

Tanto en los países de Europa como de América las confrontaciones auditivas suelen ser poco numerosas, lo que permite explicar de alguna manera por qué la literatura que se ocupa específicamente de las ruedas de voz es limitada. Por su parte, la situación en Chile no constituye una excepción a la aludida realidad. En cuanto a la cantidad de casos, la Policía de Investigaciones de Chile, auxiliar del Ministerio Público en las tareas de investigación (PDI, Libro estadístico, 2015), registra seis casos en total para la realización de ruedas de reconocimiento, de estos solo tres han llegado a término. Los restantes no han podido concretarse debido a diversos motivos, como testigos que se retractan o que son poco fiables, dificultades para conseguir voces impostoras, plazos para la presentación de la prueba excesivamente cortos, llegando incluso al extremo de estar vencidos al momento de la solicitud, son algunas de las razones que han impedido la conducción de una rueda de voz. La casuística para este tipo de peritajes se asocia a investigaciones de delitos sexuales, robos con intimidación y amenazas, principalmente. Las Fiscalías presentan los casos, solicitan informes a las Brigadas policiales especializadas (BRISEXME, BIRO, BIPE) y fijan los plazos para la finalización del informe que, generalmente, son muy reducidos, en promedio, 20 días para hacer todo, de los que habitualmente se emplea una semana en reunir los antecedentes necesarios para estudiar el caso. En los días restantes se deben reunir las voces impostoras adecuadas para la prueba, coordinar día y hora para la grabación de estas, incluyendo la sospechosa, y fijar una fecha y lugar para la presentación de las voces a la víctima. En cualquier caso, los informes solo tienen un carácter de orientativo, no son concluyentes.

En un escenario como el que acabamos de describir, obviamente, resulta muy difícil disponer a corto plazo de locutores similares y de muestras adecuadas en calidad y cantidad para que los requisitos de igualdad de oportunidades y eventos independientes, señalados en Broeders y Rietveld (1995), se puedan poner en práctica.

En el ámbito de los estudios y asociado directamente al contexto legal, Fundación Paz Ciudadana (2011) por encargo del Ministerio Público desarrolló un estudio acerca del procedimiento de reconocimiento de imputados en Chile y en derecho comparado con España, Inglaterra y Estados Unidos con el objeto de introducir mejoras en el sistema del país. Se señala que la jurisprudencia analizada concuerda en que el reconocimiento de personas constituye una diligencia, en la que se pueden presentar serias vulneraciones al debido proceso, al existir un espacio para la sugestividad inherente a su práctica, ya sea atribuible a la memoria del testigo como a la influencia de terceros. También, que ni el reconocimiento fotográfico ni el practicado en rueda son suficientes para destruir la presunción de inocencia, debiendo ser necesario aportar otras evidencias relativas a la ocurrencia del hecho y la participación del imputado, que permitan contar con pruebas sólidas que superen adecuadamente los estándares de convicción exigidos en las distintas legislaciones.

El estudio anterior se materializa parcialmente en el Protocolo interistitucional de reconocimiento de imputados (2013) que aplica a la esfera visual donde se establece que una rueda deberá estar integrada por a lo menos 6 personas (incluido el sospechoso), ser presentada en forma secuencial y a realizar por cada sospechoso, en caso de haber más de uno; asimismo, si hubiera más de una víctima se debe variar el orden de las muestras, además de otras consideraciones legales.

Si bien se reconoce este esfuerzo, es necesario seguir avanzando en la elaboración de un procedimiento estandarizado para el campo auditivo similar a su contraparte visual que recoja la experiencia de estudios científicos o prácticas internacionales.

En este sentido se podría tomar como referencia el anterior protocolo con las adaptaciones del caso, así como se establece, a modo de ejemplo, en la Sentencia de la Audiencia Provincial de Viscaya de 6 de noviembre de 1985, mencionada en el anterior estudio, que establece algunas pautas respecto de la forma en que se debe llevar a cabo una rueda de voces, a partir de la aplicación analógica de lo dispuesto en la Ley de Enjuiciamiento Criminal, en cuanto a similitud de voces que la componen, que no se vean los emisores y que en los demás factores debe aplicarse lo dispuesto en la ley, con las “adaptaciones técnicas que el sentido común y jurídico aconsejen”.

2. Metodología

2. 1. Algunas precisiones terminológicas previas: identificación y evidencia

En general se asume que la fonética forense o judicial aplica los conocimientos de la fonética a la “identificación” de un hablante con propósitos legales a partir de un análisis de su voz o “evidencia” de voz, en términos judiciales, y debido a que nuestra investigación se inscribe en la fonética forense, antes de proseguir, conviene definir el uso que damos a los términos identificación y evidencia.

En cuanto al término “identificación”, es necesario señalar que el proceso de dirimir el asunto de si una muestra procedió de una determinada fuente es lo que se llama propiamente “individualización” y la ciencia que se encarga de su estudio es la criminalística, aunque la práctica judicial y forense ha terminado denominándola “identificación” y, por lo mismo, este es el uso que le daremos en el presente trabajo. Por su parte, el término “evidencia” tiene una gran diversidad de acepciones. Etimológicamente, este término se relaciona con el sentido de la vista, pero se extendió a todos los sentidos y, también, por analogía, a la inteligencia. El término inglés “evidence” alcanza acepciones inexistentes en el equivalente término en español. Una de las acepciones de la palabra inglesa es que se refiere a alguna cosa, como un hecho, un signo o un objeto, que aporta pruebas o razones para creer o estar de acuerdo con algo que se investiga o discute. Debido a la influencia de la cultura anglosajona en las ciencias, sus acepciones han sido incorporadas al término español equivalente en los ámbitos especializados. Por tanto, con esa acepción se identifica en criminalística la evidencia, con una muestra o un vestigio recogido en la escena del crimen. Recibe, pues, el nombre de evidencia el propio objeto material recogido en una inspección ocular realizada por la policía. Este es el uso que tomamos en el presente trabajo con las adaptaciones correspondientes (Aitken y Taroni, 2010).

2.2. Hipótesis y objetivo

Partiendo de la hipótesis general de que la identificación auditiva en una lengua meta distinta de la del auditor dificulta el proceso, nos propusimos determinar en qué medida el cambio de lengua permite una correcta identificación. Lo anterior motivado por las preguntas que surgieron de las condiciones del caso recreado, a simple vista, adversas a las operaciones cognitivas que tienen lugar en una identificación. Nuestra forma de concebir la rueda de reconocimiento estaría, pues, guiada ex profeso en gran medida por consideraciones de orden práctico, más concretamente, por las limitaciones impuestas por la realidad. Esto rigió tanto al tamaño de la rueda como a las locutoras seleccionadas y a la naturaleza de las muestras de voz que la conformaron.

2.2. Los auditores

En este estudio participaron 24 auditores masculinos, chilenos, hablantes nativos de español como lengua materna, sin conocimientos de alemán en ningún grado y sin problemas auditivos; 12 eran funcionarios administrativos de la misma Universidad Austral de Chile con una edad media de 37,5 años y un rango comprendido entre los 28 y 54 años de edad y los otros 12 eran estudiantes masculinos de la misma universidad con edades muy similares, fluctuantes entre 20 y 22 años. Estos auditores conforman dos grupos de aplicación diferenciados en el tiempo. Los primeros 12 auditores conforman el grupo 1 que se sometió a la prueba el 2010 y los otros 12 auditores conforman el grupo 2 que realizó la prueba el 2015. La idea de ampliar el tamaño del experimento surgió después de la primera aplicación con el objetivo de poder llegar a conclusiones más probadas.

2. 3. La prueba: los enunciados y las locutoras

En el experimento colaboraron como locutoras 4 nativas de alemán, estudiantes de Español de intercambio de la Universität Regensburg con edades muy similares: 20, 22, 21 y 20 años. El F0 medio de cada locutora medido a partir del conjunto de enunciados declarativos leídos en alemán fue de 310 Hz (locutora 1), 325 Hz (locutora 2), 376 Hz (locutora 3) y 295 Hz (locutora 4). Aleatoriamente, se elegiría más tarde postetiquetado de las grabaciones a la locutora 1 como la voz objetivo que habría que identificar.

Los estímulos para la fase de familiarización (exposición a la voz objetivo) y la fase de identificación se extrajeron de un conjunto mayor diferenciado conformado por 8 muestras de enunciados de modalidad declarativa, 8 muestras de modalidad interrogativa, 8 muestras de modalidad exclamativa y 8 muestras de modalidad de mandato de las 4 locutoras que sumaron 128 muestras. De acuerdo con la lógica del experimento, los estímulos fueron distintos en ambas fases. Para la fase inicial se seleccionaron al azar 3 enunciados en español de modalidad exclamativa y 5 enunciados de modalidad de mandato por corresponder a emisiones fonopragmáticas comunes en el ámbito forense (Rosas y Sommerhoff, 2009). Para la fase siguiente de identificación se seleccionaron al azar 8 enunciados declarativos en alemán, a partir de estos se dividieron por dos entre las 4 locutoras, L1, L2, L3 y L4, en adelante. El cambio de modalidad estuvo motivado por la idea de reproducir las alteraciones en el estilo de hablar inherentes a dos contextos distintos: el crimen y el interrogatorio policial.

La diferencia entre la prueba de identificación que se aplicó al grupo 1 y al grupo 2 solo varió en la distribución de enunciados que correspondió a cada locutora en la fase de identificación. Los enunciados correspondientes a las fases de familiarización e identificación y su distribución entre locutoras se muestran en las Tablas 1-4.

Tabla 1 Enunciados para la fase de familiarización 

Enunciados exclamativos y de mandato en español
¡Este vestido me gusta!
¡Cómo le gusta cantar!
¡El postre está delicioso!
¡Abre la puerta rápido!
¡Sal de mi camino!
¡Limpia estas cosas!
¡Cambia estos muebles!
¡Quédate tranquilo!

A continuación se presentan los enunciados aplicados en prueba administrada al grupo de 12 auditores N° 1 (2010) y al grupo de 12 auditores N° 2 (2015). Los enunciados son los mismos 8 declarativos, solo varió el orden y la distribución.

Tabla 2 Enunciados para la prueba de identificación 

Enunciados declarativos en alemán segundos
Maria macht die Aufgabe 1,616
Die Großmutter backt einen Kuchen 1,956
Pedro spielt mit der Katze 1,55
Der Hund jagte einen Hasen 1,673
Der Fisch ist gefroren 1,094
Das Gemüse ist sehr teuer 1,715
Meine Freunde werden kommen um mich zu sehen 1,98
Maria macht die Aufgabe 1,209

Tabla 3 Enunciados distribuidos al azar para las 4 locutoras para el primer grupo (2010) 

Enunciados declarativos en alemán Grupo 1 (2010)
Maria macht die Aufgabe Locutora 1 (voz objetivo)
Die Großmutter backt einen Kuchen Locutora 2
Pedro spielt mit der Katze Locutora 3
Der Hund jagte einen Hasen Locutora 4
Der Fisch ist gefroren Locutora 1 (voz objetivo)
Das Gemüse ist sehr teuer Locutora 2
Meine Freunde werden kommen um mich zu sehen Locutora 3
Morgen ist mein Geburtstag Locutora 4

Tabla 4 Enunciados distribuidos al azar para las 4 locutoras para el segundo grupo (2015) 

Enunciados declarativos en alemán Grupo 2 (2015)
Maria macht die Aufgabe Locutora 4
Die Großmutter backt einen Kuchen Locutora 4
Pedro spielt mit der Katze Locutora 1 (voz objetivo)
Der Hund jagte einen Hasen Locutora 3
Der Fisch ist gefroren Locutora 1 (voz objetivo)
Das Gemüse ist sehr teuer Locutora 2
Meine Freunde werden kommen um mich zu sehen Locutora 2
Morgen ist mein Geburtstag Locutora 3

Con el objeto de neutralizar posibles diferencias de estilo en la lectura, tanto para los enunciados leídos en español como en alemán, se utilizó una locutora modelo nativa entrenada, en cada caso. Todas las locutoras contaron con una hoja de instrucciones que debían seguir durante la grabación, como se presenta a continuación:

  1. Repase en silencio cada uno de los enunciados (5 min aprox.) A continuación, escuche cada enunciado y repita, contando mentalmente hasta 2 entre uno y otro enunciado. Si desea repetir un enunciado avise a la ayudante, ella emitirá nuevamente el enunciado y solo entonces usted podrá repetirlo. También, la ayudante podría solicitarle repetir algún enunciado. Es normal. Terminados los enunciados en español, lea los enunciados en alemán Recuerde contar en silencio hasta 2 entre una emisión y otra

2. 4. La grabación

La grabación de las voces -voz objetivo y voces de los miembros de las ruedas de reconocimiento- se realizó en la Sala Anecoica del Instituto de Acústica (Campus Miraflores UACh). Cada locutora ingresó junto con la ayudante a la sala de grabación, se ubicó a una distancia de 15 cm aprox. del micrófono y procedió a leer los enunciados, primero en español y luego en alemán. El proceso fue monitoreado desde una sala contigua (Figura 1).

Figura 1 Montaje para la grabación de las ruedas de reconocimiento  

Cada uno de los enunciados fueron almacenados en archivos independientes y etiquetadas con un nombre como “ED_3”, donde las dos letras iniciales indican la lengua, español (E) o alemán (A) y la modalidad del enunciado, declarativo (D), interrogativo (I), exclamativo (E) e imperativo (M), mientras que el dígito final, después del guión, representaba la locutora que emitió el enunciado (1, 2, 3 o 4). Concluido el etiquetado, se seleccionó al azar la voz objetivo, que correspondió a la L1 (locutora 1).

Tanto en la fase de familiarización como en la de identificación los oyentes escuchaban los estímulos mediante un computador portátil Dell D430 en una habitación silenciosa en la que solo estaban presentes el auditor y un asistente.

2. 5. Aplicación de la prueba

Para auditar las ruedas se escogieron 10 funcionarios de la Biblioteca de la Universidad Austral de Chile. El requisito para su elección fue “no poseer conocimientos de alemán”. La prueba con los grupos 1 y 2 se realizó en la sala VIP del edificio de la Biblioteca Central, que es una sala silenciosa. La cadena electroacústica utilizó un PC, interfaz de audio y parlantes. No se utilizaron audífonos. Los auditores fueron ubicados a 3 m de distancia aprox. del equipo de audio.

Cada auditor fue sometido al siguiente protocolo que le fue leído paso a paso por uno de los investigadores:

Paso 1. Investigador: “Su tarea será escuchar una voz que más tarde tendrá que reconocer, siguiendo las indicaciones que se le vayan proporcionando”.

Paso 2. Investigador: “Ahora, usted escuchará 8 enunciados producidos por la misma persona”. “Preste atención”.

Paso 3: Se activa el audio

Paso 4. Investigador: “Responda brevemente a la siguiente pregunta: ¿Qué momento del rescate de los 33 mineros le emocionó más y por qué?”. El objetivo de la pregunta era obstaculizar el recuerdo. Usamos ese tema, porque suscitaba un rápido cambio de atención, debido a la contingencia nacional del tema, “el rescate de los 33 mineros” ocurrido el 13 de octubre de 2015, un día antes de la aplicación de la prueba. Esta pregunta fue cambiada el 2015 por otra de igual tenor: “¿Qué le pareció el terremoto que acaba de ocurrir en el norte?”. La pregunta aludía a un terremoto producido en Coquimbo el 16 de septiembre de 2015, dos semanas antes de la aplicación del test.

Paso 5. Investigador: “A continuación, usted escuchará 3 listas de 8 enunciados cada una. Según como vayan apareciendo cada uno de los enunciados, usted deberá escribir en la hoja de respuesta qué tan probable o improbable considera que el enunciado escuchado provenga de la persona que oyó al inicio. Para ello debe utilizar una escala de 1 a 7 y marcar con una x el casillero que corresponda”.

Figura 2 Montaje para la audición de las ruedas de reconocimiento 

3. Resultados

Para conocer el puntaje de identificación que logró la voz objetivo, locutora 1 (L1), en comparación con las voces distractoras, locutoras 2, 3 y 4 (L2, L3 y L4), se dispuso en una tabla el promedio de identificación que obtuvo cada locutora, por los auditores del grupo 1, que respondieron el test el 2010 y por los auditores del grupo 2, que respondieron el test el 2015.

Las Tablas 5 y 6 nos informan con cierto detalle del nivel de identificación relativa de la voz objetivo (L1), como asimismo de las diferencias entre los puntajes de identificación asignados a cada una de las locutoras dentro de las ruedas. Las columnas representan los enunciados de las locutoras, un par por locutora en orden aleatorio, mientras que las filas representan los puntajes asignados a las muestras del par de cada locutora.

Así, se observa que los auditores del grupo 1 (2010) asignaron el mayor puntaje promedio de identificación a las muestras de la voz objetivo (L1) con 5,4, seguido de 4,95 (L2), 4,1 (L3) y 1,45 (L4), rueda 1; 6,15, seguido de 5,5 (L1), 3,9 (L2) y 1,8 (L4), rueda 2; y 6,1, seguido de 5,4 (L2), 4,8 (L3) y 1,4 (L4), rueda 3. Los auditores del grupo 2 (2015), coinciden con un ligero aumento general en asignar el mayor puntaje de identificación a las muestras de la voz objetivo con 6,0, seguido de 5,35 (L2), 5,25 (L3), 2,25 (L4), rueda 1; 6,6, seguido de 5,25 (L2), 4,25 (L3) y 2,0 (L4), rueda 2; y 5,95, seguido de 5,5 (L2), 4,25 (L3) y 1,0 (L4), rueda 3. El promedio general de identificación que alcanza la L1 en el grupo 1 es de 5,9, mientras que en el grupo 2 es de 6,2.

También es posible observar que las locutoras 2, 3 y 4 coinciden en el puntaje de identificación relativa en ambos grupos y en el mismo orden (de mayor a menor puntaje).

Tabla 5 Resultados de la prueba de identificación. Grupo 1 (2010)  

Tabla 6 Resultados de la prueba de identificación. Grupo 2 (2015) 

De esta forma la pregunta central acerca del grado en que el cambio de lengua permite una correcta identificación quedaba respondida. Adicionalmente, si bien no estudiamos la expresión material del enunciado, quisimos averiguar -en la medida en que los datos lo permitían- si existía algún enunciado más probable a la obtención de puntajes altos o bajos.

A la vista de la Tabla 7, podemos observar los enunciados que le correspondieron a cada locutora y los puntajes de identificación. En el grupo 1 (2010), la locutora 1 con mejor puntaje de identificación, aparece representada por los enunciados 1 y 5, con 5,6 y 5,2, respectivamente, mientras que en el extremo opuesto, la locutora 4 aparece representada por los enunciados 4 y 8, con 1,6 y 1,3, respectivamente. En el grupo 2 (2015) las locutora 1 y 4 mantuvieron el comportamiento relativo de identificación. En esta oportunidad la locutora 1 estuvo representada por el enunciado 3 y nuevamente por el 5, ambos con puntajes de 6,0. Por su parte, la locutora 4 estuvo representada por el enunciado 1, con 2,5 y 2, con 2,0. A partir de la presencia del enunciado 1 en ambas locutoras se puede decir, al menos para este caso, que no hay una relación entre la expresión material y la identificación.

Tabla 7 Correlación entre enunciados y locutoras 

Enunciados ordenados de mayor a menor duración Segundos Grupo 1 (2010) Grupo 2 (2015)
Meine Freunde werden kommen um mich zu sehen 7 1,98 L3 L2
Die Großmutter backt einen Kuchen 2 1,956 L2 L4
Das Gemüse ist sehr teuer 6 1,715 L2 L2
Der Hund jagte einen Hasen 4 1,673 L4 L3
Maria macht die Aufgabe 1 1,616 L1 L4
Pedro spielt mit der Katze 3 1,55 L3 L1
Morgen ist mein Geburtstag 8 1,209 L4 L3
Der Fisch ist gefroren 5 1,094 L1 L1

Derivado de lo anterior, una pregunta que surgió fue si existía algún tipo de variación en función de la duración del enunciado ocupado; es decir, si el tamaño relativo del enunciado emitido se puede relacionar con los puntajes obtenidos. Para ello dispusimos en una tabla (Tabla 8) la duración de los enunciados y la correspondencia con las locutoras. Sin embargo, esto parecía menos claro aún, ya que, como se puede observar, los enunciados con mayor puntaje son relativamente cortos (enunciado 3, con 1,55s y enunciado 5, con 1,094s). Los enunciados con menor puntaje se ubican casi al principio de la escala (enunciado 2, con 1,956s), pero también casi al final (enunciado 8, con 1,094s) y en el centro (enunciado 4 con 1,673s). Por último, el enunciado 1 se asocia a la mayor y menor identificación.

Tabla 8 Correlación entre la duración del enunciado y el puntaje de identificación 

Enunciados declarativos en alemán Segundos Puntaje Grupo 2010 Puntaje Grupo 2015
1. Maria macht die Aufgabe 1,616 5,9 2,2
2. Die Großmutter backt einen Kuchen 1,956 5,4 1,3
3. Pedro spielt mit der Katze 1,55 4,7 6,2
4. Der Hund jagte einen Hasen 1,673 2 4,5
5. Der Fisch ist gefroren 1,094 5,3 6,1
6. Das Gemüse ist sehr teuer 1,715 5,1 5,5
7. Meine Freunde werden kommen um mich zu sehen 1,98 3,9 5,2
8. Maria macht die Aufgabe 1,209 1,1 4,7

Un tercer aspecto que nos interesaba averiguar fue si existía alguna variación en la identificación en función de las características del F0 de la locutora. Para ello dispusimos en una tabla los valores de la F0 de cada locutora y los puntajes de identificación. Así, podemos ver, en relación con la voz objetivo L1 que presenta una media de 310 Hz, las locutoras que se le aproximan más son L2, con 325 Hz y L4, con 295 Hz, mientras que la L3 con 376 Hz es la que más se diferencia. Llama la atención que las voces que más se aproximan a L1 se distribuyan entre alta identificación y baja identificación, mientras que una diferencia numérica superior no sea percibida muy distinta a la voz objetivo.

Tabla 9 Correlación entre frecuencia del fundamental (F0) e identificación 

Locutoras Identificación de mayor a menor F0 (promedio)
L1 L1 310
L2 L2 325
L3 L3 376
L4 L4 295

Conclusiones

La identificación auditiva plantea la cuestión del crédito que se puede dar a la selección del sospechoso por parte de un testigo. La incertidumbre deriva del carácter subjetivo de la memoria como asimismo de una serie de factores internos, externos y procedimentales que inciden en la identificación. A la vista de estos hechos se han conducido varios experimentos con el fin de conocer los efectos de cada factor, y paralelamente -o fruto de lo anterior- se han ido definiendo algunas pautas para operar con estándares de convicción y ofrecer mayor resguardo a los implicados en delitos de voz que participan en ruedas de reconocimiento auditivo. En Chile ya se cuenta con un protocolo interinstitucional para el campo del reconocimiento visual, pero estamos en deuda con un marco que regule la actuación en el ámbito auditivo. La casuística en este ámbito dentro y fuera de Chile revela la urgencia que los hechos delictuales en la práctica le imprimen a la elaboración y administración de una prueba para identificar al sospechoso, un contexto que explica en buena medida las decisiones tomadas en cada caso de trabajo donde se requiere encontrar una salida rápida para responder a una demanda. Nuestra contribución al tema surge motivada por este contexto real.

Nos propusimos a partir de un caso ficticio, pero no sin algún asidero en la realidad, evaluar en qué medida el cambio de lengua, condición a simple vista adversa a las operaciones cognitivas presentes en el proceso de reconocimiento, permite una correcta identificación. Nuestra forma de concebir la rueda de reconocimiento estuvo para este caso, pues, guiada ex profeso en buena parte por la idea de emular consideraciones de orden práctico, más concretamente, por las limitaciones impuestas por la realidad. Esto rigió tanto al tamaño de la rueda como a la naturaleza del material que la compuso.

Si el cambio de lengua bajo las condiciones de este caso particular permite una correcta identificación -la pregunta central que condujo nuestro trabajo- se respondió positivamente, conviene matizar esa respuesta. Primeramente, el puntaje promedio estuvo por debajo de 6,0, lo que revela la falta de certeza absoluta. Secundariamente, hay que tener presente las condiciones en las que se desarrolló la exposición y el proceso conducente a la selección de la voz objetivo, hecho que determina que las conclusiones que de este proceso se obtuvieron no puedan ser extrapoladas de manera indiscriminada a cualquier situación; no podemos determinar, por ejemplo, si un número mayor de señuelos o un intervalo mayor de tiempo habrían dificultado más el reconocimiento al punto de reducir al mínimo el rendimiento de los auditores.

Para evaluar el grado de reconocimiento de los auditores preferimos el uso de escalas, guiados por la lógica de que un “sí” y un “no” no solo hace más fácil adivinar -circunstancia que deseábamos evitar- sino que, además, solapa información importante al impedir que se observen grados de similitud que siempre existen entre distintos locutores. Y, efectivamente, esta decisión nos descubrió, por una parte, el grado de similitud de puntajes observados entre la locutora objetivo (L1) y la locutora 2 (L2), y por otra, la diferencia de puntajes entre la locutora objetivo y la locutora 4 (L4), pese a que tanto la locutora 2 como la locutora 4 evidenciaron la misma diferencia en Hz respecto de la locutora objetivo.

Respecto de cuestiones como una posible variación introducida por diferencias mínimas de la duración, de la frecuencia del fundamental o incluso de diferencias entre auditores no es posible concluir nada acerca de la base de los resultados obtenidos a partir del diseño y objetivo propuesto.

Por último, deseamos subrayar la cautela con la que hay que tomar estos resultados, ya que una situación real es además de compleja, única e irrepetible en su totalidad de aspectos formativos y no sabemos el grado de incidencia que cada uno de ellos, solos o combinados, pueden alcanzar ni las implicancias que pueden tener para cualquier persona en un dictamen judicial.

Agradecimientos

Este trabajo considera algunos aspectos abordados en el marco del proyecto Fondecyt Regular Nº 1110742

Obras citadas

Aitken, Colin y Taroni, Franco (2010). Estadística y evaluación de la evidencia para expertos forenses. Madrid: Dykinson, 34-39. [ Links ]

Bahr, Huntley y Pass, Kimberley (1996). “The influence of style-shifting on voice identification”, Forensic Linguistics 3 (1), 24-38. [ Links ]

Bricker, P.D. y Pruzansky, S. (1966) “Effects of stimulus content and duration on talker identification”, Journal of the Acoustical Society of America 40, 1441-1449. [ Links ]

Broeders, A. y Rietveld, A. (1995). “Speaker identification by earwitnesses”. En J-P., Köster y J.P., Braun (Eds.), Studies in Forensic Phonetics. Trier: University Press, 24-40. [ Links ]

Bull, Ray y Clifford, Brian (1984). “Earwitness Voice Recognition Accuracy”. En Wells, Gary y Loftus, Elizabeth (Eds.), Eyewitness Testimony: Psychological Perspectives. Cambridge: Cambridge University Press, 92-123. [ Links ]

Butcher, Andrew (1996). “Getting the voice line-up right: Analysis of a multiple auditory confrontation”. En P., Russell y A. McCormack (Eds.), Proceedings of the 6th Australian International Conference on Speech Science and Technology. Canberra: Australian Speech Science and Technology Association, 97-102. [ Links ]

Clifford, Brian (1980). “Voices Identification by Human Listeners: On Earwitness Reliability”, Law and Human Behavior 4, 373-394. [ Links ]

Compton, A.J. (1963). “Effects of filtering and vocal duration upon the identification of speakers, aurally”, Journal of the Acoustical Society of America, 35, 1748-1752. [ Links ]

Deffenbacher, Kenneth, Cross, John, Handkins, Robert, Chance,June, Goldstein, Alvin, Hammersley, Richard y Read, Don (1989). “Relevance of Voice Identification Research to Criteria for Evaluating Reliability of an Identification”, Journal of Psychology, 123, 109-119. [ Links ]

Gil, Juana y San Segundo, Eugenia (2013). “El disimulo de la cualidad de la voz en fonética judicial: estudio perceptivo de la hiponasalidad”. En Ma Azucena, Penas Ibáñez (Ed.), Panorama de la fonética española actual. Madrid: Arco/Libros, 321-366. [ Links ]

Handkins, R. y Cross, J. (1991) “Voice Similarity: its Measurement and its Effects on Line-up Fairness”, Unpublished manuscript, St. Louis: St. Louis University. [ Links ]

Hollien, Harry (1990). The Acoustics of Crime: The New Science of Forensic Phonetics. New York and London: Plenum Press. [ Links ]

McGehee, Frances (1937). “The reliability of the identification of the human voice”. Journal of General Psychology 17, 249-271. [ Links ]

Murray, T. y Cort, S. (1971) “Aural identification of children's voices”, Journal of Auditory Research 11, 260-262. [ Links ]

Nolan, Francis (2001) “Speaker identification evidence: its forms, limitations, and roles”, Proceedings of the conference ‘Law and Language: Prospect and Retrospect’, Finnish Lapland Levi, December 12-15. Disponible en: [http://www.flrchina.com/en/linguist/001/013.htm]. [ Links ]

Policía de Investigaciones de Chile (2015). Libro estadístico. Santiago de Chile. [ Links ]

Pollack, I., Pickett, J.M. y Sumby, W.H. (1954). “On the identification of speakers by voice”. Journal of the Acoustical Society of America 26, 403-406. [ Links ]

Rietveld, A. y Broeders, A. (1991), “Testing the Fairness of Voice Identity Parades: the Similarity Criterion”, Proceedings of the XIIth International Congress of Phonetic Sciences, Aix-en-Provence: Université de Provence 5, 46-49. [ Links ]

Rosas, Claudia y Sommerhoff, Jorge (2009). “Efectos acústicos de las variaciones fonopragmáticas y ambientales”, Estudios Filológicos, 44, 195-210. [ Links ]

Saslove, Howard y Yarmey, Daniel (1980). “Long-Term Auditory Memory: Speaker Identification”, Journal of Applied Psychology, 65,111-116. [ Links ]

Schiller, Niels y Olaf, Köester (1998). “The ability of expert witnesses to identify voices: A comparison between trained and untrained listeners”, Forensic Linguistics. The International Journal of Speech, Language and the Law, 5, 1-9. [ Links ]

Yarmey, Daniel. y Matthys, Eva (1992). “Voice Identification of an Abductor”, Applied Cognitive Psychology 6, 367-377. [ Links ]

http://www.t13.cl/videos/nacional/interpol-en-alerta-por-presencia-de-sicarios-extranjeros-en-chile (12-01-2016) [ Links ]

http://meli.mapuches.org/spip.php?article937 (08-05-2008) participan de ocupación de predios privados. [ Links ]

http://www.radiodelmar.cl/rdm/alemania-en-territorio-mapuche-detienen-a-broder-redlefsen-el-aleman-que-junto-a-encapuchados-agrede-a-indigenas/# (26-11-2015). Ciudadano alemán que comanda un grupo de encapuchados que agrede a comunidades indígenas en Chile. [ Links ]

http://www.lanacion.com.ar/1550626-chile-argentino-fue-detenido-con-armas-en-zona-de-conflicto-mapucheLinks ]

http://www.mapuche.info/news02/terc010131.html (31-01-2001) ciudadanos extranjeros investigados por delitos en zona mapuche [ Links ]

http://www.ahoranoticias.cl/chile/santiago/pdi-detiene-a-sujeto-acusado-de-abusar-de-una-menor-de-edad-en-santiago-centro.html (29-03-2015) [ Links ]

http://www.gransantiago.cl/2015/05/14/detienen-a-ciudadano-colombiano-acusado-de-abusar-de-nina-de-solo-cuatro-anos-de-edad/ (14-05-2015) [ Links ]

http://www.biobiochile.cl/2015/03/02/punta-arenas-prision-preventiva-para-italiano-acusado-de-abusar-de-nino-con-capacidades-diferentes.shtml (02-03-2015) [ Links ]

1Es posible constatar en los medios de prensa noticias que vinculan a ciudadanos extranjeros en hechos de violencia, ver Anexo.

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons