Microsoft, MedBravo, University of Cambridge, Hospital San Juan de Alicante, Universidad de Alicante
PadChest-GR
Conjunto de datos llamado PadChest-GR (Grounded-Reporting), derivado de PadChest, que puede ser utilizado para entrenar modelos de generación de informes radiológicos para radiografías de tórax.PadChest-GR: conjunto de datos Grounded-Reporting, derivado de PadChest, que puede ser utilizado para entrenar modelos de generación de informes radiológicos para radiografías de tórax
ANTECEDENTES
La generación de informes radiológicos (RRG, por sus siglas en inglés) tiene como objetivo crear informes de radiología en formato de texto libre a partir de imágenes clínicas. La generación de informes radiológicos fundamentada (GRRG, por sus siglas en inglés) extiende la RRG al incluir la localización de hallazgos individuales en la imagen. Existe una falta de conjuntos de datos anotados manualmente para entrenar modelos de aprendizaje profundo para GRRG.
MÉTODOS
En este trabajo, presentamos un conjunto de datos llamado PadChest-GR (Grounded-Reporting), derivado de PadChest, que puede ser utilizado para entrenar modelos GRRG para radiografías de tórax (CXR). Primero, se seleccionó un subconjunto de estudios de PadChest utilizando imágenes con proyección frontal, excluyendo pacientes pediátricos y estudios etiquetados originalmente como subóptimos. Luego, utilizando GPT-4 en Microsoft Azure OpenAI Service, se procesaron los informes para extraer oraciones de hallazgos individuales, traducirlas del español al inglés, vincularlas con las etiquetas de hallazgos y localizaciones existentes en PadChest, y clasificar la progresión de los hallazgos. Un equipo de 14 radiólogos revisó y anotó manualmente los hallazgos en cada imagen usando recuadros delimitadores, primero descartando algunos estudios con problemas en la calidad de la imagen, el informe o la lista de hallazgos, y luego dibujando los recuadros para cada hallazgo.
RESULTADOS
Curamos un conjunto de datos bilingüe público de 4,555 estudios de CXR con informes fundamentados (3,099 anormales y 1,456 normales), cada uno conteniendo listas completas de oraciones que describen hallazgos individuales positivos y negativos en inglés y español. En total, PadChest-GR contiene 7,037 oraciones de hallazgos positivos y 3,422 oraciones de hallazgos negativos. Cada oración de hallazgo positivo está asociada con hasta dos conjuntos independientes de recuadros delimitadores y tiene etiquetas categóricas para el tipo de hallazgo, localizaciones y progresión.
Disponibilidad de los datos
El uso del PadChest-GR es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El PadChest-GR, aunque desidentificado, sigue conteniendo información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso.
B2DROP forma parte de los servicios de la Infraestructura Colaborativa de Datos de EUDAT (www.eudat.eu). La instancia de B2DROP utilizada para este trabajo la proporciona el BSC-CNS.
Acuerdo de uso del conjunto de datos para investigación
Por favor, lea PADCHEST Dataset Research Use Agreement antes de descargarlo.
Contacto
Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.