PADCHEST

Hospital San Juan de Alicante – Universidad de Alicante

PadChest

Un gran conjunto de datos de imágenes de rayos X de tórax con informes anotados de etiquetas múltiples.

PadChest: Un gran conjunto de datos de imágenes de rayos X de tórax con informes anotados de etiquetas múltiples

Presentamos un conjunto de datos etiquetados a gran escala y de alta resolución de radiografías de tórax para la ex-ploración automatizada de imágenes médicas junto con sus informes asociados. Este conjunto de datos incluye más de 160.000 imágenes de 67.000 pacientes que fueron interpretadas e informadas por radiólogos en el Hospital San Juan (España) desde 2009 hasta 2017, cubriendo seis vistas de posición diferentes e información adicional sobre la adquisición de la imagen y la demografía del paciente.

Los informes se etiquetaron con 174 hallazgos radiográficos diferentes, 19 diagnósticos diferenciales y 104 localizaciones anatómicas organizadas como una taxonomía jerárquica asignada a la terminología estándar del Sistema de Lenguaje Médico Unificado (UMLS). Un 27% de los informes fueron anotados manualmente por médicos entrenados y el conjunto restante fue etiquetado utilizando un método supervisado basado en una red neuronal recurrente con mecanismos de atención.Las etiquetas generadas fueron validadas, alcanzando una puntuación de 0,93 Micro-F1 utilizando un conjunto de pruebas independiente.

Hasta donde sabemos, ésta es la primera base de datos pública de radiografías de tórax anotada con el mayor número de etiquetas diferentes adecuadas para el entrenamiento supervisado sobre radiografías, y la primera en español que contiene informes radiográficos.

Disponibilidad de los datos
El uso del PadChest es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El PadChest, aunque desidentificado, sigue conteniendo información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso.
B2DROP forma parte de los servicios de la Infraestructura Colaborativa de Datos de EUDAT (www.eudat.eu). La instancia de B2DROP utilizada para este trabajo la proporciona el BSC-CNS.
Acuerdo de uso del conjunto de datos para investigación
Por favor, lea PADCHEST Dataset Research Use Agreement antes de descargarlo.

Estadísticas del conjunto de datos

PadChest global statistics

Most reported radiographic findings. Labels are shown for both physician (dark color) and automatically labeled dataset (light color). See Appendix A.1.1 for counts of labels on each hierarchical tree (paper).

Most common locations of radiographic findings and differential diagnoses. See Appendix A.1.3 for counts on the locations tree (paper).

Descripción del conjunto de datos

El conjunto de datos generado proporciona para cada imagen de rayos X de tórax dos tipos de campos:

1) Campos que contienen los valores del campo original en el estándar DICOM: StudyDate, PatientSex, ViewPosition, Modality, Manufacturer, PhotometricInterpretation, PixelRepresentation, Data representation of the pixel samples, PixelAspectRatio, SpatialResolution, BitsStored, WindowCenter, WindowWidth, Rows, Columns, XRayTubeCurrent, X-ray Tube Current, ExposureTime, Duration of x-ray exposure, Exposure, ExposureInuAs, RelativeXRayExposure.

2) Los campos restantes enriquecen el conjunto de datos PadChest con información adicional procesada, tal y como se describe en la tabla 5.

 

Tabla 5: Campos del conjunto de datos: Todos los campos procesados adicionales diferentes de los campos DICOM originales. Encontrará más información sobre los CUI del metatesauro UMLS en https://uts.nlm.nih.gov/home.html

Ejemplo 1

PA

L

Labels [‘pulmonary mass’, ‘pacemaker’, ‘cardiomegaly’, ‘vascular hilar enlargement’, ‘sternotomy’, ‘dual chamber device’, ‘suture material’]
Localizations [‘loc lung field’, ‘loc right’, ‘loc hemithorax’, ‘loc hilar’, ‘loc cardiac’, ‘loc middle lung field’]
LabelsLocalizationsBySentence [[‘pulmonary mass’, ‘loc right’, ‘loc lung field’, ‘loc middle lung field’, ‘loc hemithorax’], [‘pacemaker’, ‘dual chamber device’], [‘cardiomegaly’, ‘loc cardiac’], [‘cardiomegaly’, ‘loc cardiac’], [‘vascular hilar enlargement’, ‘loc hilar’], [‘sternotomy’, ‘suture material’]]
labelCUIS [‘C0149726’ ‘C0030163’ ‘C0018800’ ‘C0185792’ ‘C2732817’ ‘C4305366’]
LocalizationsCUIS [‘C0225759’ ‘C0444532’ ‘C0934569’ ‘C0205150’ ‘C1522601’ ‘C0929434’]

Ejemplo 2

PA

L

Labels [‘pneumothorax’, ‘pulmonary mass’]
Localizations [‘loc apical’, ‘loc right’]
LabelsLocalizationsBySentence [‘pneumothorax’, ‘loc apical’, ‘loc right’, ‘pulmonary mass’, ‘loc right’]
labelCUIS [‘C2073565’ ‘C0149726’]
LocalizationsCUIS [‘C0734296’ ‘C0444532’]

Investigadores

PADCHEST (Pathology Detection in Chest Radiology)

Aurelia Bustos (a) , Antonio Pertusa (a), Jose María Salinas (b), María de la Iglesia Vayá (c)

(a) Departamento de Software y Sistemas Informáticos, Instituto Universitario de Investigación Informática, Universidad de Alicante, España
(b) Departamento de Informática de la Salud, Hospital San Juan de Alicante, España
(c) Centro de Excelencia en Imagen Biomédica, Consejería de Sanidad, Valencia, España

Contacto

Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.