Publicado 02/07/2020 11:27CET

Portaltic.-El MIT elimina un conjunto de datos de 80 millones de imágenes por contenido racista y ofensivo

El MIT elimina un conjunto de datos de 80 millones de imágenes por contenido rac
El MIT elimina un conjunto de datos de 80 millones de imágenes por contenido rac - UNSPLASH/CC/ANDREW MANTARRO

   MADRID, 2 Jul. (Portaltic/EP) -

   Los creadores de un conjunto de datos de 80 millones de imágenes minúsculas del Instituto Tecnológico de Massachusetts (MIT) y de la New York University (NYU), en Estados Unidos, han decidido eliminarlo debido a que tenía contenido racista y ofensivo.

   El conjunto de datos fue creado en 2006 y contiene fotos extraídas de los motores de búsqueda de Internet con 53.464 palabras diferentes, copiadas directamente de Wordnet, una base de datos de palabras de clasificación creada por la Universidad de Princeton.

   Los términos se han utilizado para descargar automáticamente imágenes de la palabra correspondiente de los motores de búsqueda de Internet.

   El conjunto de datos tiene más de 79,3 millones de imágenes y fueron almacenados con imágenes en color de 32 x 32 megapíxeles. Recientemente se descubrió que este conjunto de datos contenía una gama de etiquetas racistas, sexistas y ofensivas, como "sospechoso de violación" o "abusador de menores". También tenía contenido pornográfico, entre otras cosas, imágenes no consentidas.

   "El conjunto de datos es demasiado grande y las imágenes son tan pequeñas que puede ser difícil reconocer visualmente su contenido. Por lo tanto, la inspección manual, incluso si es posible, no garantizará que las imágenes ofensivas puedan eliminarse por completo", han señalado en una carta los profesores del MIT Bill Freeman y Antonio Torralba y el profesor de la NYU Rob Fergus.

   Por ello, los creadores del conjunto de datos han decidido retirarlo "formalmente" y han afirmado que "no se volverá a poner en línea". Asimismo han instado a la comunidad a abstenerse de usarlo y que "elimine cualquier copia existente del conjunto de datos que pueda haberse descargado".

   "Los prejuicios, imágenes ofensivas y perjudiciales y la terminología despectiva enajenan a una parte importante de la comunidad, precisamente aquellos que estamos haciendo esfuerzos para incluir", señala la carta. "Esto es extremadamente desafortunado y va en contra de los valores que nos esforzamos por mantener", ha añadido.

   Las deficiencias del conjunto de datos fueron descubiertas por un estudio publicado a finales de junio por los investigadores predoctorales Abeba Birhane, de la Universidad de Dublin, y Vinay Prabhu, Carnegie Mellon University.