BIMCV-Prostate

BIMCV Prostate Dataset V1: Un gran conjunto de datos para la clasificación de Cancer de Próstata Clínicamente Significativo

Presentamos el BIMCV Prostate Dataset V1, un conjunto de datos de alta calidad y diversidad que incluye más de 9.000 sesiones de resonancia magnética de próstata recopiladas en 16 centros de salud de la Comunidad Valenciana (España). Este conjunto de datos ha sido diseñado para facilitar la investigación en inteligencia artificial aplicada al diagnóstico del cáncer de próstata. Las imágenes fueron obtenidas entre 2004 y 2021, utilizando máquinas de resonancia de fabricantes como GE, Philips y Siemens, y reflejan una amplia variedad de prácticas de adquisición y demografías de pacientes, lo que permite una generalización robusta de los modelos entrenados.

El BIMCV Prostate Dataset V1 está estructurado según el estándar MIDS (Medical Imaging Data Structure), lo que garantiza una organización coherente y accesible de los datos. Cada sesión incluye imágenes ponderadas en T2 (T2W), imágenes de difusión ponderada (DWI) y mapas de coeficiente de difusión aparente (ADC). Además, se han realizado cálculos adicionales de ADC para aquellas sesiones que no contaban originalmente con esta información, asegurando así la integridad y consistencia del conjunto de datos.

Esta primera versión del dataset se centra en las sesiones que contienen las tres modalidades de imagen mencionadas (T2W, DWI y ADC), lo que garantiza la disponibilidad completa de los datos necesarios para un análisis exhaustivo y preciso en el ámbito de la investigación del cáncer de próstata. En total, 1,730 sesiones completas, con un total de 4663 muestras para entrenamiento de modelos. Todas las imágenes y datos asociados están completamente anonimizados. En versiones futuras, se incluirán anotaciones realizadas por expertos para la segmentación semántica de cada imagen, así como datos clínicos adicionales y reportes médicos, enriqueciendo aún más el valor de este recurso para la comunidad investigadora.

Este conjunto de datos forma parte del proyecto TARTAGLIA, financiado por el Ministerio de Asuntos Económicos y Transformación Digital de España (Proyecto MIA.2021.M02.0005 TARTAGLIA, del Plan de Recuperación, Transformación y Resiliencia financiado por la Unión Europea a través de los fondos Next Generation EU). TARTAGLIA se desarrolla en el marco del programa de Misiones de I+D en Inteligencia Artificial, que forma parte de la Agenda España Digital 2025 y la Estrategia Nacional de Inteligencia Artificial.

Disponibilidad de los datos
El uso del dataset es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El BIMCV Prostate Dataset V1, aunque completamente anonimizado, contiene información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso rellenando la siguiente encuesta. Además deberán acceder a Zenodo y solicitar acceso bajo demanda en el que se refleje el compromiso por parte de los investigadores
Acuerdo de uso del conjunto de datos para investigación
Por favor, lea BIMCV Prostate Dataset Research Use Agreement antes de descargarlo.

Estadísticas del conjunto de datos

Descripción del conjunto de datos

El BIMCV Prostate Dataset V1 es un conjunto de datos integral y diverso que incluye un total de 9,341 sesiones de resonancia magnética de próstata, distribuidas entre 8,441 sujetos, recopiladas en 16 centros de salud de la Comunidad Valenciana, España. Este conjunto de datos está estructurado según el estándar MIDS (Medical Imaging Data Structure), lo que garantiza una organización coherente y accesible para los investigadores, facilitando la utilización y análisis de los datos.

El conjunto de datos incluye imágenes de resonancia magnética en tres modalidades: imágenes ponderadas en T2 (T2W), imágenes de difusión ponderada (DWI) y mapas de coeficiente de difusión aparente (ADC). En total, el dataset incluye 32,662 imágenes T2W (62.97%), 8,036 imágenes DWI (15.49%), y 11,167 mapas ADC (21.53%), que incluyen tanto los mapas originales como los calculados a partir de las imágenes DWI disponibles. Este proceso de cálculo adicional se realizó para asegurar la integridad y consistencia del conjunto de datos, permitiendo un análisis exhaustivo en el ámbito de la oncología de próstata.

El análisis exploratorio de datos (EDA) realizado sobre este conjunto de datos ha permitido entender las características y la distribución de las imágenes, lo que garantiza la representatividad y diversidad del dataset. Por ejemplo, se ha encontrado que el Centro de Salud 5 contribuyó con la mayor proporción de sesiones (15.6%), seguido del Centro de Salud 7 (12.3%) y el Centro de Salud 17 (10.5%). Este nivel de diversidad en las fuentes de datos asegura que el dataset abarca una amplia gama de prácticas de adquisición de imágenes y demografías de pacientes, mejorando la generalización de los modelos de inteligencia artificial desarrollados con estos datos.

Además, el análisis de la distribución por el fabricante del equipo de resonancia magnética reveló que la mayoría de las imágenes fueron adquiridas con equipos de General Electric (66.7%), seguidos por Philips (25.1%) y Siemens (8.13%). Asimismo, la mayoría de las sesiones se realizaron con máquinas de 1.5 Tesla (63%), seguidas de máquinas de 3.0 Tesla (36.5%), reflejando las prácticas clínicas estándar en la región.

En cuanto a la distribución de las etiquetas  dentro del dataset, de los casos totales, 4871 (aproximadamente el 52%) están etiquetados como csPCa positivo, mientras que 3514 casos (aproximadamente el 37%) están etiquetados como csPCa negativo.

La primera versión del dataset se centra en las sesiones que contienen las tres modalidades de imagen mencionadas (T2W, DWI y ADC), lo que ha dado lugar a un total de 1,730 sesiones completas, con un total de 4663 muestras para entrenamiento, de los cuales 2,594 son csPCa positivo y 2,069 csPCa negativo. Esta información puede ser encontrada en la tabla presente en GitHub.

Ejemplo de Imagenes con Interpretabilidad de Modelos

Investigadores

PADCHEST (Pathology Detection in Chest Radiology)

Jesús Alejandro Alzate-Grisales (a), Alejandro Mora-Rubio (a), Jose Manuel Saborit-Torres (a), Clara Ruiz Torres (b), Azahar Navarro Beltrán (b), Miguel Perán Teruel (b), María de la Iglesia-Vayá (a)

(a) Unidad Mixta de Imagen Biomédica FISABIO-CIPF, Fundación para el Fomento de la Investigación Sanitario y Biomédica de la Comunidad Valenciana, Valencia 46020, Spain
(b) Hospital Arnau de Vilanova, Valencia 46015, Spain

Contacto

Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.