Desidentificación de textos médicos españoles - Reconocimiento de Entidades Nombradas aplicado a informes radiológicos
Irene Pérez-Díez*, Raúl Pérez-Moraga*, Adolfo López-Cerdán, José Maria Salinas, María de la Iglesia-Vayá
Resumen
Contexto
Los textos médicos, como los informes radiológicos o las historias clínicas electrónicas, son una potente fuente de datos para los investigadores. Es necesario desarrollar métodos de anonimización para desidentificar documentos que contengan información personal tanto de pacientes como de personal médico. Aunque actualmente existen varias estrategias de anonimización para el idioma inglés, también dependen del idioma. Aquí presentamos una estrategia de reconocimiento de entidades con nombre para textos médicos en español, traducible a otros idiomas.
Resultados
Probamos 4 redes neuronales en nuestro conjunto de datos de informes radiológicos, logrando un recuerdo del 96,55% de las entidades identificadas. Paralelamente, desarrollamos un algoritmo de aleatoriedad para sustituir las entidades detectadas por otras nuevas de la misma categoría, lo que hacía prácticamente imposible diferenciar los datos reales de los sintéticos. Las tres mejores arquitecturas se probaron con el conjunto de datos de desafío MEDDOCAN de historiales médicos electrónicos como prueba externa, obteniendo un recuerdo del 69,86%.
Conclusiones
La estrategia propuesta, que combina tareas de reconocimiento de entidades con nombre con aleatoriedad de entidades, es adecuada para informes radiológicos en español. No requiere un gran entrenamiento, por lo que puede extenderse fácilmente a otros idiomas y textos médicos, como las historias clínicas electrónicas.
Palabras clave
Procesamiento del Lenguaje Natural, Reconocimiento de Entidades Nombradas, informes radiológicos, textos médicos, español
Disponibilidad de los datos
El uso de DiSMed es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El DiSMed, aunque desidentificado, sigue conteniendo información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso.
Investigadores
Investigador Principal: Irene Perez-Díez & Maria de la Iglesia-Vayá
Co-investigadores: José María Salinas
Contacto
Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.