Datos Sintéticos: ¿La clave para construir el metaverso?
Ya lo comentábamos en el anterior artículo: la construcción del metaverso va a suponer la mayor recopilación de datos personales de la historia. Siendo el metaverso un mundo en donde nosotros, como usuarios, dispondremos de avatares que se mueven por una Realidad Virtual, para acceder a él deberemos aportar todos nuestros datos biométricos (aquellos datos personales referidos a las características físicas, fisiológicas e incluso conductuales de una persona que posibilitan su identificación única). Esto convierte al metaverso inmediatamente en un foco de ciberataques, pues al ser un lugar ideado para el consumo, también tendremos que proporcionar nuestros datos bancarios.
La empresa Facebook, ahora conocida como Meta, es la creadora de esta revolucionaria iniciativa y ya se ha pronunciado en varias ocasiones sobre la importancia de la ciberseguridad en el metaverso. Según varios de sus portavoces, la compañía americana se encuentra ahora mismo investigando soluciones innovadoras que garanticen controles de seguridad y privacidad eficaces que puedan mantener a los usuarios a salvo en el futuro.
Una de las soluciones disruptivas que podría ser más efectiva a la hora de mantener la privacidad de los usuarios y construir el metaverso es el uso de datos sintéticos. Veamos primero qué son.
¿Qué son los datos sintéticos?
Los datos sintéticos, como su nombre indica, son datos creados de manera artificial en lugar de ser generados por eventos reales, sirviendo como alternativa a los datos del mundo real. Generalmente, se crean con la ayuda de algoritmos y se utilizan para una amplia gama de actividades (datos de prueba para nuevos productos y herramientas o para el entrenamiento de modelos de Inteligencia Artificial).
Este tipo de datos pueden generarse para satisfacer necesidades o condiciones específicas que no están disponibles en los datos provenientes de la realidad. Su uso más común por parte de las empresas se da cuando éstas necesitan datos para probar un producto que va a salir al mercado, pero dichos datos no existen o aún no están disponibles.
¿Pero cómo se generan si no existen en nuestro mundo? Normalmente, suelen ser generados por un modelo de Machine Learning que ha sido entrenado con datos del mundo real. Este modelo tiene que ser capaz de generar conjuntos de datos sintéticos cuyas propiedades estadísticas sean iguales a las de los datos originales.
¿Qué utilidades tienen los datos sintéticos?
- Pueden utilizarse para crear datos adicionales que se asemejen estadísticamente a los datos brutos de origen.
- Pueden utilizarse para crear grandes conjuntos de datos extrayendo información de conjuntos de datos pequeños.
- Pueden utilizarse para garantizar la privacidad de los datos personales, desvinculando la información que contiene un registro de su fuente de origen.
- Pueden utilizarse para poblar los honeypots (señuelo para detectar ciberataques) con datos fabricados lo suficientemente realistas como para atraer a los atacantes.
- Pueden utilizarse en los controles de calidad para probar los cambios en el código dentro de un entorno aislado.
¿Por qué serán importantes para construir el metaverso?
La Acceleration Studies Foundation (ASF), una organización de investigación tecnológica sin ánimo de lucro, clasificó el Metaverso en las siguientes cuatro categorías: un mundo virtual que experimenta una historia virtual, un mundo espejo que refleja el mundo real actual, una realidad aumentada que ofrece información adicional al mundo real y un registro de la vida, que captura y almacena información cotidiana sobre personas y cosas.
Con el desarrollo de la tecnología, el número de personas que utilicen el metaverso aumentará y, al realizarse actividades al mismo nivel que la realidad, se generan diversos y numerosos datos. En el metaverso, la cantidad y el valor de los datos irá in crescendo. Esto provocará al mismo tiempo que la fiabilidad y la seguridad de los usuarios sea cada vez más importante.
La Inteligencia Artificial protagonizará un papel vital a la hora de asegurar la diversidad y la riqueza de los contenidos del metaverso, pues la mayor parte de este mundo infinito se generará mediante IA. Por ello, es de suma importancia entrenarla bien para enfrentarse al gran reto de construir un vasto mundo virtual interconectado.
A la hora de entrenar modelos de IA basados en objetos, eventos o personas reales, los datos sintéticos son tan buenos o incluso mejores que los datos del mundo real. De hecho, los desarrolladores de redes neuronales (Deep Learning) utilizan cada vez más datos sintéticos para entrenar sus modelos.
Según la prestigiosa consultora Gartner, para 2024, el 60% de los datos utilizados para el desarrollo de proyectos de IA y análisis serán generados sintéticamente.
Además, los datos sintéticos pueden ser muy útiles para garantizar nuestra privacidad dentro del metaverso. Solo tenemos que fijarnos en la empresa Datagen, que se dedica a realizar escaneos digitales y capturas de movimiento de personas reales para después, mediante IA, generar versiones sintéticas de esas personas con bastante precisión. Si se aplican este tipo de técnicas para crear los avatares de los usuarios del metaverso, la privacidad sería un asunto mucho menos preocupante.
A pesar de estas ventajas que ofrecen este tipo de datos a la construcción del metaverso, todavía son un elemento desconocido en muchos aspectos y su valor real, así como todas sus utilidades, está aún por descubrir. Uno de los deberes de los desarrolladores del metaverso será investigar e invertir en soluciones y tecnologías basadas en datos sintéticos.