11/9/07

SUPERCOMPUTACION : COMO ANDA CANADA ?



Es algo que, todo el mundo quiere saber: en quê lugar se halla Canadâ dentro de las computadoras mâs poderosas del mundo.
Es bien sabido que Estados Unidos es lider en ese campo, pero me dî una vuelta por Top 500 para ver como se coloca Canadâ dentro de esta lista.

Cuando vivîa en Uruguay, tambiên me interesaba este dato, pero obviamente, no esperaba encontrar a Uruguay dentro de esa lista. Lamentablemente, no tenemos el peso especîfico para figurar dentro de muchos rankings.

Pues bien, sin mâs preâmbulos, vemos que Canadâ se ubica en el lugar 177, y en su momento, en el año 2005 llegô a estar, con esta misma computadora, en el lugar numero 40 !.

Vamos Canadâ, no se me quede !!.

La computadora, un sistema Dell de 1152 procesadores corriendo Linux (que mas, no ?) y con sistema de interconexion infiniband, estâ ubicada en la Universidad de Sherbrooke.

En el lugar 182 hay unos sistemas HP, un poco mâs modestitos, con 970 procesadors y GigabitEthernet.
En el lugar 186, y en el 368, casi al fondo de la tabla, otros 2 sistemas HP, de la misma compañîa: "IT Service Provider".

En los lugares, 248 y 264, de la empresa Sharcnet, dos sistemas tambiên de HP, con 3072 y 1536 procesadores cada uno.

Lo interesantes de estos 2 ultimos es que se detalla la cantidad de memoria que tienen : 6.144 Gb, cada uno, y los procesadores son AMD Dual Core, y la interconexiôn GE.

En este ultimo caso, es un sistema de computacion para investigadores, que se conectan y comparten los recursos, como ellos lo definen, es un consorcio de colegios y universidades en un "cluster de clusters", que comparten los recursos de estas computadores, interconectados por redes de fibra optica avanzada.

Como siempre, uno de los polos de desarrollo siguen siendo las universidades.

Lo intersante es husmear, quê problemas tienen estos cristianos con estas computadoras tan grandes, entonces, vamos a ver que es lo que pasô, con la computadora llamada "Bruce". En realidad, no es una computadora, pero para simplificar, vale.

Quê le pasô a Bruce ?

25 de Junio , 1:38 am. Bruce tiene problemas con el server responsable de /work y /scratch. La IO a esos arboles se colgarâ, por lo tanto, por favor, no envien trabajos que dependan de ellos.El problema serâ diagnosticado tan pronto como sea posible, probablemente el Lunes.

25 de Junio, 6.15 pm Los arrays de storage en Bruce requieren una visita onsite para ver la naturaleza del problema. Work y scratch siguen inaccesibles. Probablemente esten dispoonibles el 26 de tarde, con suerte.


26 de JUnio , 11. am Actualmente estamos apagando y prendiendo los raids para el almacenamiento de w y s , esto puede restaurar el servicio prontamente. Si fuera asî, vamos a instalar una actualizacion de firmware, para mejorar la robustez de los arrays y controlador (y lueog retornar Bruce a un completo servicio)

29 de Junio 6:25 pm El almacenamiento en Bruce es todavia intermitentemente problematico y actualmente offline. Estamos trabajando hacia una solucion pero no tenemos, todavia, una causa clara.

16 de Julio, 11:49 am Bruce estâ offline debido a una falla en la refrigeracion de la sala de maquinas.

16 de Julio, Bruce esta operativo completamente , con los problemas de refrigeracion de la sala de servidores y los problemas de storage resueltos.
La solucion pasô por simplemente, reinsertar los discos en uno de sus arrays de almacenamiento.

Luego de ver como trabajan los grandes, me quedo contento, contento de que, allâ en Uruguay, no se trabaja "tan mal", hacemos los mismos procedimientos, encaramos las mismas soluciones, y hasta, a veces, lo hacemos mâs râpido !!.

Las enseñanzas que saco de esto, son : Siempre siempre siempre hay que hacer una visita onsite, y tocar los fierros, por mas que uno se pueda conectar con una conexion recontrasegura y ver en una pantallita de texto el estado de los discos, no hay nada como ir allî, y verlos, y escuchar el wheeeee, wheeeee, y ver como se prenden y apagan las luces.
La primera solucion drâstica, que deja a los usuarios sin servicio, pero que generalmente arregla el problema, es, APAGRA y PRENDER.
Si esto no lo arregla y el problema es "intermitente", entonces, hagamos una actualizacion del firmware de los controladores, busquemos si los controladores se llevan bien con los discos, si los discos son todos iguales, de la misma fecha.
Si hay una falla en la refrigeraciôn, bueno, arreglêmosla !.
Por ultimo, vamos a abrir las maquinas, sacamos los discos, los soplamos y los insertamos nuevamente.
Voila !!, Se arreglô !!. Era un problema fîsico.

La empresa se llama Sharcnet, y estâ en Ontario.

En el lugar 398 y 412 estan los equipos de IBM, con sus pseries, trabajando para Environment Canada http://www.ec.gc.ca/ . El sistema operativo aqui es, por ahora, AIX. No es por nada, pero me parece que no le estan dando mucha pelota al medio ambiente, no ?

En el lugar, 401 estâ la computadora de la Red Quebecois de Calculo de Alta Performance, corriendo Suse Linux Enterprise Server, interconexion NumaLInk, y 768 procesadores Intel Itanium IA-64, 1500 Gb de memoria.

No hay comentarios.: