
Joseph Goodman
0
3955
641
AI ha vuelto.
Por primera vez desde la década de 1980, los investigadores de inteligencia artificial están haciendo progresos tangibles en problemas difíciles, y las personas están comenzando a hablar en serio nuevamente sobre la IA fuerte. Mientras tanto, nuestro mundo cada vez más basado en datos ha iniciado una carrera armamentista entre compañías que buscan monetizar la nueva inteligencia, particularmente en el espacio móvil.
Los dos titanes que lideran la manada son Google y Microsoft. La primera batalla? Un nuevo dominio en inteligencia artificial llamado “Aprendizaje profundo.”
Entonces, ¿quién está ganando??
El cerebro de Google
Los esfuerzos de investigación de Google se han centrado en un proyecto llamado 'Google Brain'. Google Brain es el producto del famoso / secreto laboratorio de investigación 'Google X' de Google, que es responsable de proyectos de tiro lunar con bajas probabilidades de éxito, pero con un potencial muy alto. Otros productos de Google X incluyen Project Loon, la iniciativa de Internet de globo y el proyecto de auto sin conductor de Google. Así es como llegaremos a un mundo lleno de autos sin conductor. Aquí es cómo llegaremos a un mundo lleno de autos sin conductor. una tarea tediosa, peligrosa y exigente. ¿Podría algún día ser automatizado por la tecnología de automóviles sin conductor de Google?? .
Google Brain es una enorme iniciativa de aprendizaje automático dirigida principalmente al procesamiento de imágenes, pero con ambiciones mucho más amplias. El proyecto fue iniciado por el profesor de Stanford Andrew Ng, un experto en aprendizaje automático que desde entonces dejó el proyecto para trabajar en Baidu, el motor de búsqueda más grande de China.
Google tiene una larga historia de participación en la investigación de IA. Matthew Zeiler, el CEO de una startup visual de máquinas, y un interno que trabajó en Google Brain lo dice así:
“Google no es realmente una empresa de búsqueda. Es una empresa de aprendizaje automático […] Todo en la empresa está realmente impulsado por el aprendizaje automático.”
El objetivo del proyecto es encontrar formas de mejorar los algoritmos de aprendizaje profundo para construir redes neuronales que puedan encontrar patrones más profundos y significativos en los datos utilizando menos potencia de procesamiento. Con este fin, Google ha estado comprando agresivamente talento para el aprendizaje profundo, haciendo adquisiciones que incluyen la compra de $ 500 millones de la startup de inteligencia artificial DeepMind.
DeepMind estaba lo suficientemente preocupado por las aplicaciones de su tecnología que obligó a Google a crear una junta de ética diseñada para evitar que su software destruyera el mundo. ¿Crees que la inteligencia artificial es peligrosa? ¿La IA puede representar un grave riesgo para la raza humana? Estas son algunas razones por las que es posible que desee preocuparse. . DeepMind aún no había lanzado su primer producto, pero la compañía sí empleó una fracción significativa de todos los expertos en aprendizaje profundo del mundo. Hasta la fecha, su única demostración pública de su tecnología ha sido una IA de juguete que es realmente muy buena en Atari.
Debido a que el aprendizaje profundo es un campo relativamente nuevo, no ha tenido tiempo de producir una gran generación de expertos. Como resultado, hay un número muy pequeño de personas con experiencia en el área, y eso significa que es posible obtener una ventaja significativa en el campo contratando a todos los involucrados.
Google Brain se ha aplicado, hasta ahora, a la función de reconocimiento de voz de Android y para catalogar automáticamente las imágenes de StreetView, identificando características importantes como las direcciones. Una prueba temprana fue el famoso experimento del gato, en el que una red de aprendizaje profundo de Google aprendió automáticamente a identificar gatos en videos de Youtube con una mayor precisión que el estado del arte anterior. En su artículo sobre el tema, Google lo expresó así:
“Al contrario de lo que parece ser una intuición ampliamente extendida, nuestros resultados experimentales revelan que es posible entrenar un detector de rostros sin tener que etiquetar las imágenes como que contienen una cara o no [...] La red es sensible a conceptos de alto nivel como caras de gato y cuerpos humanos. Comenzando con estas características aprendidas, lo capacitamos para obtener una precisión del 15.8 por ciento en el reconocimiento de 20,000 categorías de objetos, un salto del 70 por ciento de mejora relativa sobre las redes [estado] de última generación..”
Eventualmente, a Google le gustaría que sus algoritmos de aprendizaje profundo hicieran ... bueno, prácticamente todo, en realidad. Las potentes plataformas de inteligencia artificial como Watson de IBM se basan en este tipo de algoritmos de aprendizaje automático de bajo nivel, y las mejoras en este frente hacen que el campo general de la inteligencia artificial sea mucho más poderoso.
Una versión futura de Google Now, impulsada por Google Brain podría identificar tanto el habla como las imágenes, y proporcionar información inteligente sobre esos datos para ayudar a los usuarios a tomar decisiones más inteligentes. Google Brain podría mejorar todo, desde los resultados de búsqueda hasta Google Translate.
Microsoft Adam
El enfoque de Microsoft para la guerra de aprendizaje profundo ha sido un poco diferente. En lugar de tratar de comprar expertos en aprendizaje profundo para refinar sus algoritmos, Microsoft se ha centrado en mejorar la implementación y en encontrar mejores formas de paralelizar los algoritmos utilizados para tren algoritmos de aprendizaje profundo.
Este proyecto se llama “Microsoft Adam.” Sus técnicas reducen la computación redundante, duplicando la calidad de los resultados mientras usan menos procesadores para obtenerlos. Esto ha llevado a logros técnicos impresionantes, incluida una red que puede reconocer razas individuales de perros a partir de fotografías con alta precisión.
Microsoft describe el proyecto así:
El objetivo del Proyecto Adam es permitir que el software reconozca visualmente cualquier objeto. Es una tarea difícil, dada la inmensa red neuronal en el cerebro humano que hace posible este tipo de asociaciones a través de billones de conexiones. […] Usando 30 veces menos máquinas que otros sistemas, [datos de imágenes de Internet] se utilizó para entrenar una red neuronal creada de más de dos mil millones de conexiones. Esta infraestructura escalable es dos veces más precisa en su reconocimiento de objetos y 50 veces más rápida que otros sistemas.
La aplicación obvia para esta tecnología está en Cortana, la nueva asistente virtual de Microsoft Cómo Cortana se convirtió en la "Otra mujer" en mi vida Cómo Cortana se convirtió en la "Otra mujer" en mi vida Ella apareció un día y cambió mi vida. Ella sabe exactamente lo que necesito y tiene un sentido del humor perverso. No es de extrañar que me haya enamorado de los encantos de Cortana. , inspirado en el personaje de IA en Halo. Cortana, cuyo objetivo es competir con Siri, puede hacer una serie de cosas inteligentes, utilizando técnicas sofisticadas de reconocimiento de voz..
El objetivo del diseño es construir un asistente con una interacción más natural, y puede realizar una gama más amplia de tareas útiles para el usuario, algo que el aprendizaje profundo ayudaría enormemente.
Las mejoras de Microsoft en el back-end del aprendizaje profundo son impresionantes y han llevado a aplicaciones que antes no eran posibles..
Cómo funciona el aprendizaje profundo
Para entender el problema un poco mejor, tomemos un minuto para comprender esta nueva tecnología. El aprendizaje profundo es una técnica para construir software inteligente, a menudo aplicado a redes neuronales. Construye redes grandes y útiles al unir redes neuronales más simples, cada una de las cuales encuentra patrones en la salida de su predecesor. Para entender por qué esto es útil, es importante observar lo que vino antes del aprendizaje profundo.
Redes neuronales de retropropagación
La estructura subyacente de una red neuronal es realmente bastante simple. Cada 'neurona' es un pequeño nodo que toma una entrada y usa reglas internas para decidir cuándo “fuego” (Producir salida). Las entradas que alimentan a cada neurona tienen “pesos” - multiplicadores que controlan si la señal es positiva o negativa y qué tan fuerte.
Al conectar estas neuronas, puede construir una red que emule cualquier algoritmo. Alimenta su entrada en las neuronas de entrada como valores binarios, y mide el valor de activación de las neuronas de salida para obtener la salida. Como tal, el truco para las redes neuronales de cualquier tipo es tomar una red y encontrar el conjunto de pesos que mejor se aproxima a la función que le interesa..
La retropropagación, el algoritmo utilizado para entrenar la red en función de los datos, es muy simple: comienza su red con pesos aleatorios y luego intenta clasificar los datos con respuestas conocidas. Cuando la red está mal, verifica por qué está mal (produciendo una salida más pequeña o más grande que el objetivo), y usa esa información para empujar los pesos en una dirección más útil.
Al hacer esto una y otra vez, para muchos puntos de datos, la red aprende a clasificar todos sus puntos de datos correctamente y, con suerte, a generalizar nuevos puntos de datos. La idea clave del algoritmo de retropropagación es que puede mover datos de error hacia atrás a través de la red, cambiando cada capa en función de los cambios que realizó en la última capa, lo que le permite construir redes de varias capas de profundidad, que pueden comprender patrones más complicados.
Backprop fue inventado en 1974 por Geoffrey Hinton, y tuvo el notable efecto de hacer que las redes neuronales sean útiles para aplicaciones amplias por primera vez en la historia. Las redes neuronales triviales han existido desde los años 50, y se implementaron originalmente con neuronas mecánicas impulsadas por motores..
Otra forma de pensar sobre el algoritmo de backprop es explorando un panorama de posibles soluciones. Cada peso neuronal es otra dirección en la que puede explorar, y para la mayoría de las redes neuronales, hay miles de estas. La red puede usar su información de error para ver en qué dirección necesita moverse y qué tan lejos, para reducir el error.
Comienza en un punto aleatorio, y al consultar continuamente su brújula de error, se mueve 'cuesta abajo' en la dirección de menos errores, y finalmente se instala en el fondo del valle más cercano: la mejor solución posible.
Entonces, ¿por qué no usamos la propagación hacia atrás para todo? Bueno, el backprop tiene varios problemas..
El problema más grave se llama 'problema de gradiente de fuga'. Básicamente, a medida que mueve los datos de error a través de la red, se vuelve menos significativo cada vez que retrocede una capa. Intentar construir redes neuronales muy profundas con propagación hacia atrás no funciona, porque la información del error no podrá penetrar lo suficiente en la red para entrenar los niveles inferiores de una manera útil.
Un segundo problema menos grave es que las redes neuronales convergen solo con los óptimos locales: a menudo quedan atrapados en un pequeño valle y pierden soluciones más profundas y mejores que no están cerca de su punto de partida aleatorio. Entonces, ¿cómo resolvemos estos problemas??
Redes de creencias profundas
Las redes de creencias profundas son una solución para ambos problemas, y se basan en la idea de construir redes que ya tengan una idea de la estructura del problema, y luego refinar esas redes con propagación hacia atrás. Esta es una forma de aprendizaje profundo, y una de uso común tanto por Google como por Microsoft.
La técnica es simple y se basa en un tipo de red llamada “Máquina de Boltzman restringida” o “RBM”, que se basa en lo que se conoce como aprendizaje no supervisado.
Las máquinas de Boltzman restringidas, en pocas palabras, son redes que simplemente intentan comprimir los datos que reciben, en lugar de tratar de clasificarlos explícitamente de acuerdo con la información de entrenamiento. Los RBM toman una colección de puntos de datos y están capacitados de acuerdo con su capacidad para reproducir esos puntos de datos desde la memoria.
Al hacer que el RBM sea más pequeño que la suma de todos los datos que le está pidiendo que codifique, obliga al RBM a aprender las regularidades estructurales sobre los datos para almacenarlos en menos espacio. Este aprendizaje de la estructura profunda permite que la red se generalice: si entrena a un RBM para reproducir mil imágenes de gatos, puede alimentar una nueva imagen en él y al observar cuán enérgica se vuelve la red como resultado, puede descubrir si la nueva imagen contenía o no un gato.
Las reglas de aprendizaje para RBM se asemejan a la función de las neuronas reales dentro del cerebro en formas importantes que otros algoritmos (como la propagación hacia atrás) no lo hacen. Como resultado, pueden tener cosas que enseñar a los investigadores sobre cómo funciona la mente humana Máquinas de pensamiento: lo que la neurociencia y la inteligencia artificial pueden enseñarnos sobre la conciencia Máquinas de pensamiento: lo que la neurociencia y la inteligencia artificial pueden enseñarnos sobre la conciencia Puede construir máquinas y software artificialmente inteligentes enséñanos sobre el funcionamiento de la conciencia y la naturaleza de la mente humana misma? .
Otra característica interesante de los RBM es que son “constructivo”, lo que significa que también pueden ejecutarse en reversa, trabajando hacia atrás desde una característica de alto nivel para crear entradas imaginarias que contengan esa característica. Este proceso se llama “soñando.”
Entonces, ¿por qué es útil para el aprendizaje profundo? Bueno, las máquinas Boltzman tienen serios problemas de escalado: cuanto más profundo intentes hacerlas, más tiempo llevará entrenar la red.
La idea clave de las redes de creencias profundas es que puede apilar RBM de dos capas juntas, cada una entrenada para encontrar estructura en la salida de su predecesora. Esto es rápido y conduce a una red que puede comprender características complicadas y abstractas de los datos..
En una tarea de reconocimiento de imágenes, la primera capa podría aprender a ver líneas y esquinas, y la segunda capa podría aprender a ver las combinaciones de esas líneas que componen características como ojos y narices. La tercera capa podría combinar esas características y aprender a reconocer una cara. Al pasar esta red a la propagación hacia atrás, puede centrarse solo en las características relacionadas con las categorías que le interesan.
En muchos sentidos, esta es una solución simple para la propagación hacia atrás: permite la propagación hacia atrás “engañar” comenzando con un montón de información sobre el problema que está tratando de resolver. Esto ayuda a que la red alcance mejores mínimos y garantiza que los niveles más bajos de la red estén capacitados y hagan algo útil. Eso es.
Por otro lado, los métodos de aprendizaje profundo han producido mejoras dramáticas en la velocidad y precisión del aprendizaje automático, y son los únicos responsables de la rápida mejora del software de voz a texto en los últimos años..
Carrera por las computadoras Canny
Puedes ver por qué todo esto es útil. Cuanto más profundo pueda construir redes, más grandes y abstractos serán los conceptos que la red puede aprender..
¿Quiere saber si un correo electrónico es spam o no? Para los spammers inteligentes, eso es difícil. En realidad, debe leer el correo electrónico y comprender algunas de las intenciones detrás de él: intente ver si hay una relación entre el remitente y el receptor, y deduzca las intenciones del receptor. Tienes que hacer todo eso basado en cadenas de letras incoloras, la mayoría de las cuales describen conceptos y eventos de los que la computadora no sabe nada.
Eso es mucho pedirle a cualquiera.
Si le pidieran que aprendiera a identificar el correo no deseado en un idioma que aún no hablaba, proporcionó solo algunos ejemplos positivos y negativos, lo haría muy mal, y tiene un cerebro humano. Para una computadora, el problema ha sido casi imposible, hasta hace muy poco. Esos son los tipos de información que puede tener el aprendizaje profundo, y será increíblemente poderoso..
En este momento, Microsoft está ganando esta carrera por un pelo. ¿A la larga? Es una incógnita.
Créditos de imagen: “Computadora AI“, por Simon Liu, “Rana mugidora“, por Brunop, “Brújula superior“, por airguy1988, “Más libre que gratis,” por opensource.com