viernes 30 de julio de 2010

Científicos rompen la barrera de ordenamiento del terabyte

Científicos en computación de la Universidad de California, San Diego (E.U.) rompieron "la barrera del terabyte" —y un récord mundial— al ordenar más de un terabyte de información (1,000 gigabytes o 1 millón de megabytes) en solo 60 segundos.

En la competencia de este 2010 organizada por Sort Benchmark —la "Copa del Mundo del ordenamiento de datos"— los científicos en informática de la Escuela de Ingeniería Jacobs de la UC San Diego empataron también un récord mundial para la tasa de ordenamiento más veloz. Ordenaron un trillón de registros en 172 minutos y lo lograron con solo un cuarto de los recursos computacionales del récord anterior.

Compañías en busca de tendencias, eficiencia y otras ventajas en competitividad han volteado hacia este tipo de ordenamiento pesado el cual exige poder de procesamiento del hardware típico en los data centers. La Internet ha creado también varios escenarios donde el ordenamiento de la información es crítico. La publicidad en las páginas de Facebook, las recomendaciones personalizadas de Amazon, y los resultados de búsqueda al-segundo de Google todos son resultado de ordenar conjuntos de datos gigantes múltiplos de los petabytes. Un petabyte equivale a 1,000 terabytes.

"Si una corporación grande quisiera correr una consulta a través de todas las visitas a sus páginas o de productos vendidos, puede requerir ordenar un conjunto de datos multi-petabyte y sobre todo aquellas que crecen varios gigabytes al día", comenta el profesor en informática de la UC San Diego Amin Vahdat, líder del proyecto. "Las compañías están llevando al límite la cantidad de información que pueden ordenar, y cuan veloz. Esto es análisis de información en tiempo real", explica Vahdat. Se necesitan mejores tecnologías de ordenamiento, sin embargo.

“En data centers, el ordenamiento es el cuello de botella más frecuente de muchas actividades de alto nivel”, apunta Vahdat quien dirige el Centro de Sistemas de Redes (CNS) en la UC San Diego.

Los dos nuevos récords mundiales de la UC San Diego están entre los resultados revelados recientemente en sortbenchmark.org — sitio dirigido por científicos en informática voluntarios de academias y empresas quienes administran las competencias. Estas competencias proveen de marcas en cuanto a ordenamientos de datos y de un foro interactivo para investigadores trabajando en mejorar técnicas de ordenamiento.

Records Mundiales

Este es el primer año que los científicos entran a la competencia y ganan en El Ordenamiento Indy en un Minuto y el Ordenamiento Indy Gris.

En el primero, los investigadores ordenaron 1,014 terabytes en un minuto — rompiendo así la barrera del minuto por primera vez.

"Pusimos nuestra agenda de investigación en torno a como mejorarlo... además de hacerlo más genérico", comenta el estudiante en doctorado en ciencias de la computación de la UC San Diego Alex Rasmussen, lider de estudiantes de posgrado del equipo.

Además el equipo empató el récord mundial en el "Ordenamiento Indy Gris" que mide la tasa de ordenamiento por minuto por 100 terabytes de información.

"Utilizamos una cuarta parte de computadoras que el equipo del récord anterior empleó para alcanzar la misma tasa de ordenamiento — lo cual implicó usar solo una cuarta parte de energía eléctrica, enfriamiento y espacio físico", comenta George Porter, científico investigador en la CNS de la UC San Diego.

Los dos récords mundiales están en la categoría "Indy" — lo que significa que los sistemas fueron diseñados en torno a parámetros específicos para la competencia. El equipo busca generalizar sus resultados para la competencia "Daytona" y que se puedan emplear en ambientes reales.

"El ordenamiento es también un medio interesante hacia varios problemas de procesamiento de información. En general, es una buena manera de medir qué tan rápido se puede leer una gran cantidad de datos de un conjunto de discos, aplicarles algo de procesamiento, distribuirlos por una red y escribirlos en otro conjunto de discos", explica Rasmussen. "Ordenar mete mucha presión a todo el subsistema de entrada/salida, desde los discos duros y las tarjetas de red hasta el sistema operativo y las aplicaciones".

Sistemas balanceados

El desafío de ordenar datos que tomaron los científicos son muy diferentes a los modestos ordenamientos que los sistemas de bases de datos convencionales pueden hacer mediante la comparación de dos tablas. La mayor diferencia es que los ordenamientos de datos de terabytes y petabytes van más allá de la capacidad de memoria del servidor que lo hace.

Al crear el sistema de ordenamiento para trabajo pesado, los científicos lo diseñaron para balanceo y rapidez. Un sistema balanceado es uno en el cual los recursos como memoria, almacenamiento y ancho de banda de red son aprovechados en su totalidad y solo se desaprovechan unos cuantos recursos.

"Nuestro sistema muestra lo que es posible si se pone atención en la eficiencia — y queda aún mucho qué mejorar", comenta Vahdat "Nos planteamos la pregunta ¿Qué significa construir un sistema balanceado en el no se desaprovechan recursos de sistema que tiene un alto desempeño de computo? Si tienes procesadores ociosos o sin usar toda la RAM, estás desperdiciando energía y perdiendo eficiencia". A menudo la memoria usa la misma energía que un procesador o más inclusive, por ejemplo, sin embargo, nadie se fija en eso.

Para romper la barrera del terabyte en el Ordenamiento Indy en un Minuto, los investigadores construyeron un sistema hecho de 52 nodos de computadoras. Cada nodo es un servidor estándar con dos procesadores quad-core, 24 gigabytes de memoria y 16 discos todos interconectados mediante un switch Cisco Nexus 5020. Cisco donó los switches como parte del tratado de investigación que tienen con el Centro de Sistemas de Redes de la UC San Diego. El cluster de computadoras se hospedó en el Instituto para Telecomunicaciones y Tecnologías de la Información de California(Calit2).

Para ganar el Ordenamiento Indy Gris, los investigadores ordenaron un trillón de registros en 10.318 segundos (aproximadamente 172 minutos), quedando su récord mundial empatado con un ordenamiento de 0.582 terabytes por minuto por 100 terabytes de datos. El sistema vencedor está hecho de 47 nodos similares a los usados en el ordenamiento de un minuto.

100 terabytes de información equivalen a 4,000 discos Blu-Ray de una capa, 21,000 DVDs de una capa, 12,000 DVDs de doble capa o 142,248 CDs (asumiendo que son CDs de 703 MB).

Vía:
Dr. Dobbs