DiSMed

Desidentificación de textos médicos españoles - Reconocimiento de Entidades Nombradas aplicado a informes radiológicos

Irene Pérez-Díez*, Raúl Pérez-Moraga*, Adolfo López-Cerdán, José Maria Salinas, María de la Iglesia-Vayá

Resumen

Contexto

Los textos médicos, como los informes radiológicos o las historias clínicas electrónicas, son una potente fuente de datos para los investigadores. Es necesario desarrollar métodos de anonimización para desidentificar documentos que contengan información personal tanto de pacientes como de personal médico. Aunque actualmente existen varias estrategias de anonimización para el idioma inglés, también dependen del idioma. Aquí presentamos una estrategia de reconocimiento de entidades con nombre para textos médicos en español, traducible a otros idiomas.

Resultados

Probamos 4 redes neuronales en nuestro conjunto de datos de informes radiológicos, logrando un recuerdo del 96,55% de las entidades identificadas. Paralelamente, desarrollamos un algoritmo de aleatoriedad para sustituir las entidades detectadas por otras nuevas de la misma categoría, lo que hacía prácticamente imposible diferenciar los datos reales de los sintéticos. Las tres mejores arquitecturas se probaron con el conjunto de datos de desafío MEDDOCAN de historiales médicos electrónicos como prueba externa, obteniendo un recuerdo del 69,86%.

Conclusiones

La estrategia propuesta, que combina tareas de reconocimiento de entidades con nombre con aleatoriedad de entidades, es adecuada para informes radiológicos en español. No requiere un gran entrenamiento, por lo que puede extenderse fácilmente a otros idiomas y textos médicos, como las historias clínicas electrónicas.

Palabras clave

Procesamiento del Lenguaje Natural, Reconocimiento de Entidades Nombradas, informes radiológicos, textos médicos, español

Disponibilidad de los datos

El uso de DiSMed es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El DiSMed, aunque desidentificado, sigue conteniendo información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso.

Investigadores

Investigador Principal: Irene Perez-Díez & Maria de la Iglesia-Vayá

Co-investigadores: José María Salinas

Contacto

Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.

Proyectos

Recursos

Desidentificación de textos médicos españoles - Reconocimiento de Entidades Nombradas aplicado a informes radiológicos

Por favor, lea DiSMed Dataset Research Use Agreement antes de descargarlo.

Disponibilidad de los datos

Investigadores

Contacto