BIMCV Prostate Dataset V1: Un gran conjunto de datos para la clasificación de Cancer de Próstata Clínicamente Significativo
Disponibilidad de los datos
El uso del dataset es gratuito para todos los investigadores. Los investigadores que deseen utilizar la base de datos completa deben solicitar formalmente el acceso. Al solicitar el acceso, el usuario se compromete a (1) no compartir los datos y (2) no intentar reidentificar a las personas.
El BIMCV Prostate Dataset V1, aunque completamente anonimizado, contiene información relativa a la atención clínica de los pacientes, y debe tratarse con el debido respeto. Los investigadores que deseen utilizar la base de datos clínica completa deben solicitar formalmente el acceso rellenando la siguiente encuesta. Además deberán acceder a Zenodo y solicitar acceso bajo demanda en el que se refleje el compromiso por parte de los investigadores
Acuerdo de uso del conjunto de datos para investigación
Por favor, lea BIMCV Prostate Dataset Research Use Agreement antes de descargarlo.
Estadísticas del conjunto de datos
Descripción del conjunto de datos
El BIMCV Prostate Dataset V1 es un conjunto de datos integral y diverso que incluye un total de 9,341 sesiones de resonancia magnética de próstata, distribuidas entre 8,441 sujetos, recopiladas en 16 centros de salud de la Comunidad Valenciana, España. Este conjunto de datos está estructurado según el estándar MIDS (Medical Imaging Data Structure), lo que garantiza una organización coherente y accesible para los investigadores, facilitando la utilización y análisis de los datos.
El conjunto de datos incluye imágenes de resonancia magnética en tres modalidades: imágenes ponderadas en T2 (T2W), imágenes de difusión ponderada (DWI) y mapas de coeficiente de difusión aparente (ADC). En total, el dataset incluye 32,662 imágenes T2W (62.97%), 8,036 imágenes DWI (15.49%), y 11,167 mapas ADC (21.53%), que incluyen tanto los mapas originales como los calculados a partir de las imágenes DWI disponibles. Este proceso de cálculo adicional se realizó para asegurar la integridad y consistencia del conjunto de datos, permitiendo un análisis exhaustivo en el ámbito de la oncología de próstata.
El análisis exploratorio de datos (EDA) realizado sobre este conjunto de datos ha permitido entender las características y la distribución de las imágenes, lo que garantiza la representatividad y diversidad del dataset. Por ejemplo, se ha encontrado que el Centro de Salud 5 contribuyó con la mayor proporción de sesiones (15.6%), seguido del Centro de Salud 7 (12.3%) y el Centro de Salud 17 (10.5%). Este nivel de diversidad en las fuentes de datos asegura que el dataset abarca una amplia gama de prácticas de adquisición de imágenes y demografías de pacientes, mejorando la generalización de los modelos de inteligencia artificial desarrollados con estos datos.
Además, el análisis de la distribución por el fabricante del equipo de resonancia magnética reveló que la mayoría de las imágenes fueron adquiridas con equipos de General Electric (66.7%), seguidos por Philips (25.1%) y Siemens (8.13%). Asimismo, la mayoría de las sesiones se realizaron con máquinas de 1.5 Tesla (63%), seguidas de máquinas de 3.0 Tesla (36.5%), reflejando las prácticas clínicas estándar en la región.
En cuanto a la distribución de las etiquetas dentro del dataset, de los casos totales, 4871 (aproximadamente el 52%) están etiquetados como csPCa positivo, mientras que 3514 casos (aproximadamente el 37%) están etiquetados como csPCa negativo.
La primera versión del dataset se centra en las sesiones que contienen las tres modalidades de imagen mencionadas (T2W, DWI y ADC), lo que ha dado lugar a un total de 1,730 sesiones completas, con un total de 4663 muestras para entrenamiento, de los cuales 2,594 son csPCa positivo y 2,069 csPCa negativo. Esta información puede ser encontrada en la tabla presente en GitHub.
Ejemplo de Imagenes con Interpretabilidad de Modelos
Investigadores
PADCHEST (Pathology Detection in Chest Radiology)
Jesús Alejandro Alzate-Grisales (a), Alejandro Mora-Rubio (a), Jose Manuel Saborit-Torres (a), Clara Ruiz Torres (b), Azahar Navarro Beltrán (b), Miguel Perán Teruel (b), María de la Iglesia-Vayá (a)
(a) Unidad Mixta de Imagen Biomédica FISABIO-CIPF, Fundación para el Fomento de la Investigación Sanitario y Biomédica de la Comunidad Valenciana, Valencia 46020, Spain
(b) Hospital Arnau de Vilanova, Valencia 46015, Spain
Contacto
Si quiere saber más sobre el proyecto o ponerse en contacto con el equipo de investigación, escríbanos.