La edad de oro de la siempre cambiante arquitectura de los ordenadores

Dada la precisión de la Ley de Moore en el desarrollo de los circuitos integrados a lo largo de los años, se podría pensar que nuestro período actual no es diferente de las últimas décadas en términos de diseño de arquitectura informática. Sin embargo, durante el discurso de aceptación del premio ACM Turing de 2017, John L. Hennessy y David A. Patterson describieron el presente como la “edad de oro de la arquitectura de ordenadores”.

En comparación con los primeros días del MS-DOS, cuando el diseño de las interacciones entre el usuario y el espacio del núcleo era todavía un experimento en marcha, ciertamente se siente como si ya no estuviéramos en la infancia del campo. Sin embargo, a medida que aumenta la presión para que las empresas adquieran más recursos computacionales para ejecutar costosos algoritmos de aprendizaje de máquinas en grandes cantidades de datos, el diseño de una arquitectura informática inteligente puede ser justo lo que necesita la industria.

La ley de Moore predice la duplicación de transistores en un CI, no predice el camino que tomará el diseño de un CI. Cuando se hizo esa observación en 1965 era difícil o incluso imposible imaginar dónde estamos hoy en día, con herramientas y procesos tan estrechamente vinculados y ampliamente disponibles que la forma en que concebimos el diseño de los procesadores se está multiplicando.


Una vez que los costos de desarrollo de la estratósfera se han convertido en un mero cielo

En el pasado, la innovación en la arquitectura de los ordenadores podía ser un paso arriesgado para un negocio, especialmente si no había ninguna buena razón para superar el estándar de la industria. En el mejor de los casos, podrían gastar una fortuna invirtiendo en I+D y producir un diseño que cambiara el juego. En el peor de los casos, podían llenar el tanque de su compañía y terminar con un stock masivo de unidades invendibles. Mientras que ideas como aumentar el tamaño de la memoria caché o el tamaño de los buffers podrían optimizar un estrangulamiento de la arquitectura, la logística de la fabricación o los costes de producción pueden superar estos puntos de fricción reajustados. Antes de VLSI, habría sido increíblemente difícil incluir tantos procesos en un solo chip, y los largos cables entre los grandes componentes ralentizaban el cálculo.

Es indiscutible que con el diseño democratizado de chips de Mead y Conway y los desarrollos como la arquitectura RISC, la predicción de ramas y los lenguajes de programación de alto nivel que los utilizan, los años 80 marcaron el comienzo de grandes innovaciones en la arquitectura de los ordenadores. Esto plantea la pregunta, ¿dónde está la cima? El escalamiento de Dennard (una ley de escalamiento que establece que a medida que los transistores se reducen, su densidad de potencia se mantiene igual, lo que resulta en aumentos de frecuencia significativos) puede haber terminado en 2006, y la Ley de Moore parece estar rompiéndose en un futuro próximo, pero con el importante apoyo de la industria para una computación más rápida en el aprendizaje de las máquinas, y el renovado interés en los lenguajes de alto nivel, las arquitecturas específicas de los dominios y los chips fabricados a medida parecen estar marcando el comienzo de la innovación para una visión diferente de la arquitectura de las computadoras. Un enfoque en las supercomputadoras y los chips de nicho puede ayudar a mejorar la computación incluso más rápido de lo que predice la Ley de Moore.


Descorchando el cuello de botella de la producción de silicio

La nueva ola de fabricación de semiconductores en China no es ningún secreto – en 2014, el Consejo de Estado de China publicó las Directrices Nacionales para el Desarrollo y la Promoción de la Industria de Circuitos Integrados (IC), una política nacional para mejorar la producción de semiconductores del país. Aumentaron la inversión, adoptaron un enfoque basado en el mercado y se centraron en la creación de campeones nacionales mediante cambios en la generación de ingresos de la industria, el volumen de producción y los avances tecnológicos. Con el aumento de la demanda de teléfonos inteligentes chinos (Huawei, Lenovo, Meizu, Xiaomi) y la demanda de los consumidores de China, ha habido un gran estímulo para mejorar el rendimiento de la fabricación.

Mientras que los fabricantes de chips chinos pueden no estar produciendo los diseños arquitectónicos más avanzados, todavía están superando la competencia en términos de asequibilidad y eficiencia de sus procesos. La financiación de la nanociencia, la mano de obra barata y los menores costes de mantenimiento de la fábrica y los materiales contribuyen a reducir el coste de los productos chinos, aunque también hay otros fabricantes en países como Taiwán y Vietnam que están proporcionando de forma similar servicios de fabricación baratos.

Para ver hasta dónde ha llegado la producción de silicio es interesante mirar los Circuitos Integrados de Aplicación Específica (ASICs) – chips diseñados para realizar un conjunto particular de operaciones mejor (en términos de potencia o velocidad) de lo que podría hacer una CPU general.

En la década de 1980 la fabricación de ASIC era un proceso que requería un diseñador y un fabricante independientes, ya que no existía un vínculo directo entre las herramientas de diseño de terceros y los procesos de los semiconductores. Desde entonces, el proceso de fabricación de chips personalizados ha mejorado enormemente. Los resultados son obvios. Por ejemplo, la popularidad de la minería de Bitcoin impulsó muchos nuevos diseños de ASIC, ya que el hardware especializado proporcionaría una mayor potencia de hash a un precio más bajo, lo que se traduce en mayores beneficios de la electricidad. Compañías como Halong Mining, Bitmain y BitFury produjeron – y continúan vendiendo – una avalancha de hardware minero a los aspirantes a Bitcoin. Muchos se dieron cuenta de que la capacidad de las GPU para procesar grandes cantidades de datos visuales de forma eficiente estaba estrechamente ligada a las necesidades de recursos de los nuevos algoritmos, los ASIC pueden hacer lo mismo pero con un menor coste y presupuesto de energía. Probablemente se puede adivinar que los algoritmos que ahora impulsan la industria se centran en el aprendizaje de las máquinas.


Arquitecturas para el aprendizaje automático

Placa de la Unidad de Procesamiento de Google Tensor

En 2016, Google anunció su TPU comercial, uno de los primeros chips creados específicamente con el propósito de ejecutar algoritmos de aprendizaje de máquinas. Los TPU se utilizan dentro de la empresa para los cálculos de la red neural que se encuentran detrás de productos como Google Search, Street View, Google Photos y Google Translate. Comparado con la arquitectura RISC, que se centra en instrucciones más simples que se utilizan para una mayor porción de aplicaciones (cargar, almacenar, añadir, multiplicar), el TPU se basa en la arquitectura CISC (Complex Instruction Set Computer), que implementa instrucciones de nivel superior para la ejecución de tareas más complejas (como muchas multiplicaciones y sumas para la multiplicación de matrices).

Otras diferencias que marcan el TPU como una mejora con respecto a las CPU y la GPU son la matriz sistólica, el diseño determinístico y las opciones de cuantificación. La matriz sistólica imita la forma en que el corazón bombea la sangre, ya que los datos fluyen a través del chip en ondas. Para la multiplicación de la matriz, esto es especialmente útil ya que las mismas entradas se reutilizan muchas veces sin ser almacenadas de nuevo en un registro. Los cables sólo conectan ALU adyacentes que realizaron patrones fijos de multiplicación y adición, simplificando su diseño y acortando los cables necesarios.

Diagrama de bloques de la Unidad de Procesamiento de Tensores de Google

El diseño determinístico busca ser, en última instancia, mínimo, sin necesidad de soportar una gama más amplia de aplicaciones que los modelos de redes neuronales. Debido a la naturaleza de los chips, la predicción es mucho más fiable, ya que sólo se realizan predicciones de redes neuronales. El control es mucho más fácil de diseñar que en el caso de las CPU y las GPU y, aunque se necesitan más ALU y memoria en el chip para las TPU, tienden a ser más pequeñas que otros chips. Esto tiene el agradable efecto secundario de reducir el coste (una función del área al cubo) y aumentar el rendimiento, ya que los chips más pequeños tienen menos probabilidades de tener defectos de fabricación.

La cuantificación utiliza un número entero de 8 bits para aproximar un valor dado un valor máximo y mínimo. La técnica ayuda a reducir el ruido en los cálculos, ya que las predicciones de redes neuronales no requieren una precisión de punto flotante con valores de 32 o 16 bits. Incluso un valor de 8 bits puede ser suficiente para los niveles de precisión necesarios, reduciendo así el tamaño de los modelos de forma bastante drástica.

También está la cuestión de la flexibilidad. Debido a que el TPU es programable, es capaz de acelerar los cálculos para muchos tipos diferentes de modelos de redes neuronales. Los recursos de cálculo utilizados incluyen una Unidad Multiplicadora de Matriz (MXU), un Búfer Unificado (UB) o SRAM que funcionan como registros, y una Unidad de Activación (AU) para las funciones de activación por cable. Una docena de instrucciones de alto nivel interactúan con estos recursos, como la multiplicación o la convolución con datos y pesos, la lectura de pesos desde la memoria y la aplicación de funciones de activación.


Los microchips ya no son todo lo que era micro

Cerebras en comparación con NVIDIA GV100

Una de las empresas de sigilo más virales, Cerebras, ha estado trabajando en el chip de silicio más grande jamás construido. Mide 46.225 mm2 de silicio, con 1,2 billones de transistores. En comparación con la GPU más grande, tiene casi 100 veces su tamaño. El chip está diseñado para manejar las operaciones de telecontrol y mover los datos de forma más eficiente. Con la memoria SRAM en el chip, simplifica las operaciones que normalmente recorrerían distancias más largas dentro de un clúster a procesos que pueden comunicarse en el mismo chip. Mientras que hay operaciones generales soportadas para el procesamiento de control, también hay operaciones tensoriales optimizadas para el procesamiento de datos. En términos de las ineficiencias de los materiales involucrados con el alto consumo de energía y la generación de calor, una capa de conector entre el silicio y el PCB maneja el estrés mecánico creado por la expansión térmica mientras que una placa fría transfiere el calor del chip de la oblea.

El chip cuenta con 1,2 billones de transistores, 400.000 núcleos optimizados para la IA, 18 Gb de memoria en el chip y 9 PB/s de ancho de banda de memoria. En comparación con la GPU Nvidia GeForce RTX 2080 Ti, con 18.200 millones de transistores, 4.352 núcleos CUDA, 11 Gb de memoria en el chip y 616 GB/s de ancho de banda de memoria, está claro que el Cerebras presenta enormes mejoras con respecto incluso a las mejores GPU disponibles en el mercado. Lo que antes era una pesadilla de fabricación se ha convertido en una realidad gracias a las mejoras introducidas en la fabricación del silicio.


Un paisaje siempre cambiante

Con la ley de Moore en el horizonte, los investigadores están constantemente buscando nuevos métodos para reducir la latencia en la computación. Conceptos como la computación neuromórfica, la computación probabilística y los chips cuánticos se están abriendo camino desde la teoría hasta el desarrollo. La computación neuromórfica utiliza sinapsis artificiales de baja potencia para imitar la estructura neuronal del cerebro humano, aunque igualar la flexibilidad cognitiva humana puede ser un desafío. Los chips cuánticos tienen un inmenso número de factores que deben ser controlados para mantener la integridad de los qubits – los bits cuánticos más comúnmente creados por una unión Josephson (superconductores acoplados por un enlace débil que consiste en una delgada barrera aislante).

Así como Dennard no pudo prever los procesadores multinúcleo, Moore probablemente no pudo predecir el advenimiento del aprendizaje automático y su efecto en la fabricación de hardware. Incluso las visiones más creativas para el futuro de la arquitectura informática tendrán dificultades para predecir hasta dónde llegará la computación y hasta qué punto las nuevas compañías tomarán la manipulación de la memoria y del conjunto de instrucciones para esforzarse por alcanzar una velocidad cada vez mayor en la próxima década.

Thea Flowers - Creación de un sintetizador hardware inspirado en Sega desde cero

Thea Flowers – Creación de un sintetizador hardware inspirado en Sega desde cero

Para aquellos que crecieron con videojuegos, los legendarios sonidos de las consolas del pasado son un golpe de nostalgia instantánea ...
Leer Más
Vea que tan diferentes pueden ser los aires acondicionados (en el interior)

Vea que tan diferentes pueden ser los aires acondicionados (en el interior)

Los aires acondicionados son fáciles de dar por sentado. Desde los refrigeradores hasta el control de climatización, la mayoría de ...
Leer Más
La universidad hace impresiones en 3D a prueba de balas

La universidad hace impresiones en 3D a prueba de balas

Los investigadores de la Universidad de Rice están estudiando las estructuras plásticas de impresión en 3D que imitan a los ...
Leer Más
Linux Fu: Estúpidos trucos de SSH

Linux Fu: Estúpidos trucos de SSH

Si te conectas a ordenadores remotos a través de Internet, es muy probable que utilices algún tipo de SSH o ...
Leer Más
Superconferencia Hackaday: Un ingeniero analógico se sumerge en la radiofrecuencia

Superconferencia Hackaday: Un ingeniero analógico se sumerge en la radiofrecuencia

Aquellos de nosotros que trabajamos con la electrónica normalmente llegamos al arte a través de una vía particular que dominamos ...
Leer Más
Elegante y sofisticado clasificador de bolos

Elegante y sofisticado clasificador de bolos

Clasificar los dulces por color es un problema clásico que tiene sus raíces en los contratantes de las estrellas de ...
Leer Más
La prensa de perforación casera de tus sueños

La prensa de perforación casera de tus sueños

Tenemos la suerte de vivir en una época en la que las herramientas casi nunca han sido tan asequibles, cuando ...
Leer Más
La historia de una sociedad secreta parisina subterránea

La historia de una sociedad secreta parisina subterránea

En lo profundo del corazón de París, una serie de túneles subterráneos serpentean a través de la ciudad. Se cruzan ...
Leer Más
Alimentación de filamentos y electrones a través de un conector D-Sub personalizado

Alimentación de filamentos y electrones a través de un conector D-Sub personalizado

A veces olvidamos que las impresoras 3D son sólo plataformas CNC con un hotend acoplado, y que hay toda una ...
Leer Más
194 La bola LED es una soldadura de forma libre en otro nivel

194 La bola LED es una soldadura de forma libre en otro nivel

Todos hemos visto muchas soldaduras de forma libre impresionantes en estas páginas, tal vez algunos de nosotros incluso lo hemos ...
Leer Más
Deje que un robot de RCP salve el día

Deje que un robot de RCP salve el día

Cuatro estudiantes de secundaria en Lyon, Francia, están construyendo un robot de RCP, con el objetivo de eliminar el problema ...
Leer Más
Técnicas Avanzadas para Animaciones Realistas de Horneado

Técnicas Avanzadas para Animaciones Realistas de Horneado

Los gráficos por ordenador han recorrido un largo camino desde los días de Dire Straits y su primer vídeo musical ...
Leer Más
¿Tienes correo?

¿Tienes correo?

La vida está llena de decisiones difíciles, como decidir si quieres ir al final del viaje para comprobar si ha ...
Leer Más
Plugins de Acción de KiCad

Plugins de Acción de KiCad

Los últimos dos años han sido un momento particularmente emocionante para KiCad, para los usuarios, los contribuyentes ocasionales, y para ...
Leer Más
El ArrBot es una forma rápida de salir adelante en un nuevo campo de la robótica

El ArrBot es una forma rápida de salir adelante en un nuevo campo de la robótica

[Junglist] señala correctamente que la robótica agrícola está en camino de ser la próxima gran cosa (TM) y presenta su ...
Leer Más
Convirtiendo OLEDs y acrílico en tubos falsos Nixie

Convirtiendo OLEDs y acrílico en tubos falsos Nixie

Los ames o los odies, los Nixies y los relojes retro que adornan están aquí para quedarse. Al menos hasta ...
Leer Más
Seguimiento del tiempo perdido con un reloj de ferrofluido

Seguimiento del tiempo perdido con un reloj de ferrofluido

Sabemos que este proyecto se supone que se trata de desarrollar un reloj de ferrofluido de aspecto fino, y no ...
Leer Más
La Guía de Jóvenes Ingenieros para los Proyectos Finales de la Universidad

La Guía de Jóvenes Ingenieros para los Proyectos Finales de la Universidad

Las carreras de ingeniería son tan amplias y variadas como las carreras potenciales que se ofrecen en el mundo real ...
Leer Más
Chandrayaan-2 encontrado por Citizen Scientist; nos recuerda el descubrimiento de Plutón

Chandrayaan-2 encontrado por Citizen Scientist; nos recuerda el descubrimiento de Plutón

¿Qué tiene en común Plutón - no el perro, sino el no-Planeta - con el alunizaje Vikram lanzado por la ...
Leer Más
Construya sus propias herramientas para obtener más potencia

Construya sus propias herramientas para obtener más potencia

Construir algo por su cuenta usualmente conlleva ciertos beneficios, tales como estar en completo control sobre lo que es que ...
Leer Más
La aplicación de teléfono de AI aprende las señales de béisbol

La aplicación de teléfono de AI aprende las señales de béisbol

Ver un deporte puede ser un poco extraño si no estás familiarizado con él. La mayoría de los estadounidenses, por ...
Leer Más
Cirugía de Hacking: La animación suspendida puede estar aquí

Cirugía de Hacking: La animación suspendida puede estar aquí

La animación suspendida es un elemento básico de la ciencia ficción. ¿Necesitas hacer un viaje de 200 años a otro ...
Leer Más
Trae el Smithsonian a casa con la impresión en 3D

Trae el Smithsonian a casa con la impresión en 3D

Si alguna vez has estado en Washington DC, sabes que el Smithsonian no es sólo un edificio, sino una colección ...
Leer Más
Un desgarro de magnetrón

Un desgarro de magnetrón

Los hornos de microondas están en todas partes, y en el corazón de ellos hay un magnetrón - un dispositivo ...
Leer Más
El Starliner de Boeing no llega a la Estación Espacial

El Starliner de Boeing no llega a la Estación Espacial

Después de una década de desarrollo, el Boeing CST-100 "Starliner" despegó de la plataforma SLC-41 en la Estación de la ...
Leer Más
La quema de propano ilustra perfectamente el funcionamiento de una válvula Tesla

La quema de propano ilustra perfectamente el funcionamiento de una válvula Tesla

Cuando se escucha el nombre "Tesla", es muy probable que los pensamientos se dirijan instantáneamente a la empresa que está ...
Leer Más
Las gafas impresas en 3D permiten a R.O.B. ver dentro del mundo Bluetooth

Las gafas impresas en 3D permiten a R.O.B. ver dentro del mundo Bluetooth

Admitimos que un hack que permite que un periférico de videojuego de 34 años sea controlado por una aplicación móvil ...
Leer Más
Un cubo de LED diseñado para un fácil montaje

Un cubo de LED diseñado para un fácil montaje

Los cubos de LED son hipnotizantes y divertidos, pero generalmente son un dolor de cabeza para construir. No es así ...
Leer Más
La impresora 3D y el CNC hacen que esta calculadora rusa sea bilingüe

La impresora 3D y el CNC hacen que esta calculadora rusa sea bilingüe

Seamos claros desde el principio: probablemente hay soluciones más obvias al problema de usar una calculadora rusa cuando no se ...
Leer Más
Antenas RF increíblemente pequeñas para radios prácticas de Nanotecnología

Antenas RF increíblemente pequeñas para radios prácticas de Nanotecnología

Es posible que los investigadores hayan creado las antenas de radiofrecuencia más pequeñas que jamás hayan existido, lo que debería ...
Leer Más

Deja un comentario