Contenidos
Charla «Datos masivos, datos mucho mejores» de TEDSalon Berlin 2014 en español.
Los automóviles autodirigidos fueron solo el comienzo. ¿Cuál es el futuro de la tecnología y el diseño impulsado por los datos masivos? En esta apasionante charla científica Kenneth Cukier observa lo que esto supone para el aprendizaje automático, y, por ende, para el conocimiento humano.
- Autor/a de la charla: Kenneth Cukier
- Fecha de grabación: 2014-06-23
- Fecha de publicación: 2014-09-23
- Duración de «Datos masivos, datos mucho mejores»: 951 segundos
Traducción de «Datos masivos, datos mucho mejores» en español.
¿Pastel favorito en EEUU?
Audiencia: El de manzana.
Kenneth Cukier: De manzana.
Por supuesto.
¿Cómo lo sabemos?
Por los datos.
Se miran las ventas en supermercados.
Se miran las ventas en supermercados de pasteles de 30 cm congelados, y los de manzana ganan, sin rival.
La mayoría de las ventas son los de manzana.
Pero los supermercados comenzaron a vender pasteles más pequeños, de 11 cm, y de repente, el de manzana cayó al 4º o 5º lugar.
¿Por qué?
¿Qué paso?
Bueno, piensen en ello.
Cuando compramos un pastel de 30 cm, toda la familia tiene que estar de acuerdo, y el de manzana es el segundo favorito de todos.
(Risas) Pero si uno compra un pastel de 11 cm individual, puede comprar el que desee.
Puede comprar su primera opción.
Tenemos más datos.
Podemos ver algo que no se podía ver cuando solo había menor cantidad de datos.
Ahora, el punto es que muchos más datos no solo nos permiten ver más, más de lo mismo que ya veíamos.
Más datos nos permiten ver cosas nuevas.
Nos permiten ver mejor.
Nos permiten ver de forma diferente.
En este caso, nos permiten ver que el pastel favorito de EEUU es: no el de manzana.
Puede que todos hayan oído escuchado el término «Datos masivos».
De hecho, es probable que estén hartos de escucharlo «Datos masivos».
Es cierto que se exagera mucho el término, y eso es muy lamentable, porque los datos masivos son una herramienta muy importante para que la sociedad avance.
En el pasado, solíamos observar pequeñas cantidades de datos y pensar qué significarían para tratar de entender el mundo.
Ahora tenemos mucho más de ello, más de lo que podía existir antes.
Lo que encontramos es que cuando tenemos una gran cantidad de datos, podemos hacer cosas que no podíamos hacer teniendo solo cantidades más pequeñas.
Los datos masivos son importantes y es algo nuevo, y cuando se piensa en ello, la única forma en que este planeta afronte sus desafíos mundiales, esto es, alimentar a la gente, ofrecer atención médica, suministrar energía, electricidad, y asegurarse de que no nos achicharramos debido al calentamiento global, es utilizando de forma eficaz los datos.
Entonces,
¿qué es lo nuevo de los datos masivos?
¿Cuál es la gran cosa?
Bueno, para responder a esto, pensaremos en cómo se veía la información, físicamente en el pasado.
En 1908 en la isla de Creta, los arqueólogos descubrieron un disco de arcilla.
Datan del año 2000 aC, así que tienen 4000 años de antigüedad.
Hay inscripciones en este disco, pero, no sabemos qué significan.
Es un completo misterio, pero el punto es que así solía verse la información hace 4000 años.
Esta es la forma en que la sociedad almacenaba y transmitía la información.
Ahora, la sociedad no ha avanzado tanto.
Todavía guardamos la información en discos, pero ahora podemos almacenar mucha más información, más que nunca.
Buscar es más fácil.
Copiar es más fácil.
El compartir es más fácil.
El procesamiento es más fácil.
Y podemos volver a utilizar esta información para usos que nunca nos imaginamos cuando se recogieron los primeros datos.
A este respecto, los datos han evolucionado de un almacén a un flujo, de algo que es estacionario y estático a algo que es fluido y dinámico.
Hay, si quieren, una liquidez de información.
El disco descubierto fuera de Creta que tiene 4000 años de antigüedad, es pesado, no almacena gran cantidad de información, y esa información no es modificable.
Por el contrario, todos los archivos que Edward Snowden tomó de la Agencia de Seguridad Nacional de EEUU caben en un dispositivo de memoria extraíble del tamaño de una uña, y pueden compartirse a la velocidad de la luz.
Más datos.
Más.
Una razón para tener tantos datos hoy en el mundo es que recolectamos cosas sobre las que siempre hemos recopilado información, pero otra razón es que estamos tomando cosas que siempre han sido informacionales pero nunca se habían convertido a un formato de datos y las estamos convirtiendo en datos.
Piensen, por ejemplo, en la cuestión de la ubicación.
Tomemos, por ejemplo, Martín Lutero.
Si hubiéramos querido saber en 1500 donde estaba Martín Lutero, habríamos tenido que seguirlo en todo momento, quizá con pluma y tintero, y anotarlo.
Pero piensen cómo es hoy en día.
Uds.
saben que en algún lugar, quizá en la base de datos de una empresa de telecomunicaciones, hay una hoja de cálculo o entrada de base de datos donde se registra su información de donde han estado en todo momento.
Si tienen celular, y el teléfono tiene GPS, pero incluso si no tiene GPS, se puede registrar su información.
En este sentido, la localización ha sido un campo de datos.
Ahora piensen, por ejemplo, en el tema de la postura, la forma en que están sentados ahora, la forma en Ud.
está sentado, la de Ud., la de Ud.
Todas diferentes, en función de la longitud de las piernas, la espalda y su contorno, y si pusiera censores, tal vez 100 en todos los asientos ahora, podría crear un índice que es único para cada uno, algo así como una huella digital, que no es del dedo.
Y entonces,
¿qué podemos hacer con esto?
Los investigadores en Tokio están utilizando como un dispositivo potencial antirobo en los autos.
La idea es que el ladrón se siente al volante, intente encenderlo, pero el auto reconoce que un conductor no autorizado está en el auto y, tal vez el motor se detiene, a menos que escriba una contraseña en el salpicadero para decir, «Tengo la autorización para conducir».
Estupendo.
¿Qué pasaría si cada automóvil en Europa tuviera esta tecnología?
¿Qué podemos hacer entonces?
Tal vez, si agregamos los datos, tal vez podríamos identificar signos reveladores que predijeran mejor que un accidente de auto tendrá lugar en los próximos cinco segundos.
Y entonces, la base de datos que tendremos es la fatiga del conductor, y el servicio se activaría cuando los sensores del automóvil detectaran que la persona reposa en esa posición, y automáticamente se activa una alarma interna que haría vibrar el volante, sonar una alarma para decir, «Despierta, presta más atención a la carretera».
Este es el tipo de cosas que podemos hacer cuando tomamos datos en más aspectos de nuestras vidas.
Entonces,
¿cuál es el valor de los datos masivos?
Bueno, piensen en ello.
Tienen más información.
Pueden hacer cosas que antes no se podían hacer.
Una de las zonas más impresionantes donde este concepto se ve aplicado es en el área del aprendizaje automático.
El aprendizaje automático es una rama de la inteligencia artificial, que en sí es una rama de la informática.
La idea general es que en lugar de enseñar a un equipo algo, simplemente transferiremos datos al problema para decirle a la computadora que lo averigüe sola.
Y nos ayude a entenderlo al ver sus orígenes.
En la década de 1950, un científico de computación en IBM llamado Arthur Samuel al que le gustaba jugar a damas, por eso escribió un programa para poder jugar contra la computadora.
Jugó.
Ganó.
Jugó.
Ganó.
Jugó.
Ganó, porque el equipo solo sabía lo que era un movimiento legal.
Arthur Samuel sabía algo más.
Arthur Samuel sabía estrategia.
Así que escribió un pequeño subprograma operando en el fondo.
Y todo lo que hizo fue anotar la probabilidad de que una configuración del tablero condujera a un tablero ganador frente a un tablero perdedor después de cada movimiento.
Él jugó contra el equipo.
Él ganó.
Él jugó contra el equipo.
Él ganó.
Él jugó contra el equipo.
Él ganó.
Y luego Arthur Samuel dejó que la computadora jugara sola.
Juega sola.
Y recoge más datos.
Recoge más datos.
Aumenta la precisión de su predicción.
Y luego Arthur Samuel vuelve al equipo juega y pierde.
Y juega y pierde.
Y juega y pierde.
Y Arthur Samuel ha creado una máquina que supera su capacidad en una tarea que él enseñó.
Y esta idea de aprendizaje automático irá a todas partes.
¿Cómo creen que tenemos autos autodirigidos?
¿Estamos mejor como sociedad almacenando todas las reglas de la carretera en un software?
No.
La memoria es más barata.
No.
Los algoritmos son más rápidos.
No.
Los procesadores son mejores.
No.
Todas esas cosas importan, pero no es por eso.
Es porque hemos cambiado la naturaleza del problema.
Hemos cambiado el problema de uno en el que intentábamos abierta y explícitamente explicar a la computadora cómo conducir, a uno en la que decimos, «Aquí hay una gran cantidad de datos del vehículo.
Haz los números.
Te diste cuenta de que eso es un semáforo, que está en rojo y no verde, eso significa que tienes que detenerte y no seguir».
El aprendizaje automático está en la base de muchas cosas que hacemos en línea: motores de búsqueda, el algoritmo de personalización de Amazon, la traducción automática por computadora, los sistemas de reconocimiento de voz.
Recientemente, los investigadores han examinado la cuestión de biopsias, biopsias de cáncer, y han usado la computadora para identificar, mirando los datos y las tasas de supervivencia, si las células son en realidad cancerosas o no, y claro, al trasferir los datos por un algoritmo de aprendizaje automático, la máquina fue capaz de identificar los 12 signos reveladores que mejor predicen si en esta biopsia de células de cáncer de mama, hay, en efecto, cáncer.
El problema: la literatura médica solo sabía nueve de ellos.
Tres de los rasgos eran de los que las personas no buscan, pero que la máquina descubrió.
También hay lados oscuros en los datos masivos.
Mejorará nuestras vidas, pero hay problemas de los que tenemos que ser conscientes, y el primero es la idea de que podemos ser castigados por las predicciones, que la policía puede utilizar datos masivos para sus fines, un poco como «Minority Report».
Es un término conocido como policial predictiva, o criminología algorítmica, y la idea es que, con gran cantidad de datos, por ejemplo, donde hubo crímenes antes, sabremos dónde enviar a las patrullas.
Tiene sentido, pero, el problema, claro, es que no solo se quedarán en los datos de ubicación, irán al nivel del individuo.
¿Por qué no usamos los datos de personas con un alto expediente académico?
Tal vez utilizar el hecho de que estén sin empleo, su record crediticio, su comportamiento en la web, si están despiertos tarde en la noche.
Su controlador físico digital, cuando identifique datos bioquímicos, mostrará si tienen pensamientos agresivos.
Podemos tener algoritmos que pueden predecir lo que estamos a punto de hacer, y podemos ser responsables antes de que realmente hayamos actuado.
la privacidad era el desafío principal en la era de los datos pequeños.
En la era de los datos masivos, el reto será salvaguardar el libre albedrío, la elección moral, la voluntad humana, la acción humana.
Hay otro problema: los datos masivos nos quitarán nuestros puestos de trabajo.
Los datos masivos y algoritmos desafiarán los conocimientos profesionales de gestión en el siglo XXI de la misma manera que la automatización de las fábricas y las cadenas de montaje desafiaron el trabajo de los obreros en el siglo XX.
Piensen en un técnico de laboratorio que mira en un microscopio una biopsia de cáncer para determinar si es cáncer o no.
La persona que fue a la universidad.
En el que compra propiedades.
Él o ella vota.
Él o ella es un constituyente de la sociedad.
Y el trabajo de esa persona, así como toda una flota de profesionales como esa persona, se encontrará que sus puestos de trabajo han cambiado radicalmente o, en realidad, se han eliminado completamente.
Ahora, nos gusta pensar que la tecnología crea puestos de trabajo después de un corto período de dislocación temporal, y es cierto para el marco de referencia de la Revolución Industrial, que vivimos, porque eso es precisamente lo que ocurrió.
Pero nos olvidamos de algo en el análisis: Hay algunas categorías de empleos que simplemente se eliminan y no se crean nunca más.
La Revolución Industrial no era muy buena si eras un caballo.
Así que tendremos que tener cuidado y tomar datos masivos y ajustarlos a nuestras necesidades, a nuestras necesidades muy humanas.
Tenemos que ser los dueños de esta tecnología, no sus siervos.
Estamos justo en el comienzo de la era de los datos masivos, y honestamente, no somos muy buenos en el manejo de todos los datos que ahora podemos recoger.
No es solo un problema para la Agencia de Seguridad Nacional.
Las empresas recogen muchos datos, y también, hacen mal uso de ellos, y tenemos que mejorar en esto, y esto tomará tiempo.
Es un poco como el desafío que enfrentó el hombre primitivo y el fuego.
Es una herramienta, pero que, a menos que seamos cuidadosos, nos va a quemar.
Los datos masivos transformarán la manera en que vivimos, cómo trabajamos y cómo pensamos.
Nos ayudarán con nuestras carreras y a llevar una vida de satisfacción y esperanza y felicidad y salud, pero en el pasado, frecuentemente, vimos esa tecnología y nuestros ojos solo han visto la T la tecnología, el hardware, porque eso es físico.
Ahora tenemos que reformular nuestra mirada a la I, la información, que es menos tangible, pero en algunos aspectos mucho más importante.
La humanidad finalmente puede aprender de la información que puede recoger, como parte de nuestra búsqueda eterna para entender el mundo y nuestro lugar en él, y por eso los datos masivos es un gran asunto.
(Aplausos)
https://www.ted.com/talks/kenneth_cukier_big_data_is_better_data/