Hospital San Juan de Alicante – Universidad de Alicante
PadChest
Un gran conjunto de datos de imágenes de rayos X de tórax con informes anotados de etiquetas múltiples.PadChest: Un gran conjunto de datos de imágenes de rayos X de tórax con informes anotados de etiquetas múltiples
Presentamos un conjunto de datos etiquetados a gran escala y de alta resolución de radiografías de tórax para la ex-ploración automatizada de imágenes médicas junto con sus informes asociados. Este conjunto de datos incluye más de 160.000 imágenes de 67.000 pacientes que fueron interpretadas e informadas por radiólogos en el Hospital San Juan (España) desde 2009 hasta 2017, cubriendo seis vistas de posición diferentes e información adicional sobre la adquisición de la imagen y la demografía del paciente.
Los informes se etiquetaron con 174 hallazgos radiográficos diferentes, 19 diagnósticos diferenciales y 104 localizaciones anatómicas organizadas como una taxonomía jerárquica asignada a la terminología estándar del Sistema de Lenguaje Médico Unificado (UMLS). Un 27% de los informes fueron anotados manualmente por médicos entrenados y el conjunto restante fue etiquetado utilizando un método supervisado basado en una red neuronal recurrente con mecanismos de atención.Las etiquetas generadas fueron validadas, alcanzando una puntuación de 0,93 Micro-F1 utilizando un conjunto de pruebas independiente.
Hasta donde sabemos, ésta es la primera base de datos pública de radiografías de tórax anotada con el mayor número de etiquetas diferentes adecuadas para el entrenamiento supervisado sobre radiografías, y la primera en español que contiene informes radiográficos.
Disponibilidad de los datos
El uso del PadChest es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El PadChest, aunque desidentificado, sigue conteniendo información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso.
B2DROP forma parte de los servicios de la Infraestructura Colaborativa de Datos de EUDAT (www.eudat.eu). La instancia de B2DROP utilizada para este trabajo la proporciona el BSC-CNS.
Acuerdo de uso del conjunto de datos para investigación
Por favor, lea PADCHEST Dataset Research Use Agreement antes de descargarlo.
Estadísticas del conjunto de datos
Descripción del conjunto de datos
El conjunto de datos generado proporciona para cada imagen de rayos X de tórax dos tipos de campos:
1) Campos que contienen los valores del campo original en el estándar DICOM: StudyDate, PatientSex, ViewPosition, Modality, Manufacturer, PhotometricInterpretation, PixelRepresentation, Data representation of the pixel samples, PixelAspectRatio, SpatialResolution, BitsStored, WindowCenter, WindowWidth, Rows, Columns, XRayTubeCurrent, X-ray Tube Current, ExposureTime, Duration of x-ray exposure, Exposure, ExposureInuAs, RelativeXRayExposure.
2) Los campos restantes enriquecen el conjunto de datos PadChest con información adicional procesada, tal y como se describe en la tabla 5.
Ejemplo 1
PA
L
Ejemplo 2
PA
L
Investigadores
PADCHEST (Pathology Detection in Chest Radiology)
Aurelia Bustos (a) , Antonio Pertusa (a), Jose María Salinas (b), María de la Iglesia Vayá (c)
(a) Departamento de Software y Sistemas Informáticos, Instituto Universitario de Investigación Informática, Universidad de Alicante, España
(b) Departamento de Informática de la Salud, Hospital San Juan de Alicante, España
(c) Centro de Excelencia en Imagen Biomédica, Consejería de Sanidad, Valencia, España
Contacto
Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.