segunda-feira, 25 de maio de 2009

Container-based datacenters

O blog de Greg Linden tem um post com uma série de apontadores e informações interessantes sobre datacenters do Google que são baseados em containers de máquinas. É um passeio interessante sobre uma das infra-estruturas onde a nuvem realmente roda. Abaixo o vídeo, mais informação e opiniões no dito post.

segunda-feira, 11 de maio de 2009

Técnicas de Modelagem e Predição de Comportamentos em Arquiteturas Paralelas (Conversa LSD 13/05/2009)


Algumas vezes, ao realizar uma pesquisa, sentimos a necessidade de modelar a carga de trabalho de um sistema real. Isso ocorre, por exemplo, quando desejamos realizar simulações e análises em um ambiente controlado e, para isso, precisamos reproduzir uma carga real. Diversas técnicas de caracterização foram desenvolvidas para auxiliar nessa tarefa -Raj Jain (1991) apresenta algumas. No entanto, seja pela complexidade do comportamento do sistema ou em razão de alguma peculiaridade do trabalho, gerar um modelo condizente com a carga real torna-se uma tarefa muito difícil. E se, além de modelar adequadamente a carga, também estivermos interessados em utilizar o modelo para predizer a carga de um período futuro? Nesse caso trata-se de uma Técnica de Modelagem e Predição de Comportamentos. Você já vivenciou uma situação semelhante a essa? Pois é exatamente sobre isso que vamos conversar na próxima quarta-feira na tradicional Conversa LSD.

Nesse contexto, vou falar um pouco sobre o trabalho “Modelagem e Predição de Jobs em Arquiteturas Paralelas”. Esse trabalho teve como objetivo prover informações sobre o comportamento dos jobs ao Algoritmo Reconfigurável de Escalonamento Gangues (Reconfigurable Gang Scheduling Algorithm – RGSA). O uso de conceitos de computação reconfigurável em algoritmos de escalonamento paralelo de tarefas visa aumentar a flexibilidade e adaptabilidade deles às variações nas arquiteturas paralelas e cargas de trabalho.

Até quarta-feira às 14 horas na Conversa LSD.

quarta-feira, 6 de maio de 2009

SegHidro - o nosso jeito de fazer e-Science (Conversa LSD 06/05/2009)

Olá pessoal,
Os responsáveis pela Conversa de hoje somos Edigley (o coredumper) e eu.

O Coredump será sobre as experiências no projeto e desenvolvimento de uma solução criada (aperfeiçoada?) por Edigley chamada Toolkit SegHidro. O toolkit empacota um conjunto de ferramentas que podem auxiliar na criação de aplicações (ou experimentos) científicos usando o OurGrid. O público alvo, inicialmente, foram os membros da comunidade SegHidro que são profissionais e acadêmicos das áreas de ciências ambientais, recursos naturais, hidrologia, engenharias, etc. Entretanto, o toolkit é genérico o suficiente para que outros usuários do OurGrid possam se beneficiar de suas funcionalidades. Com ele podemos, por exemplo, automatizar a criação e submissão ao OurGrid de uma varredura de parâmetros.

Propaganda feita, vamos ao tema da Conversa.

Vamos falar sobre e-Science. Este termo foi cunhado por John Taylor quando da descrição de um projeto no Reino Unido - "e-Science is about global collaboration in key areas of science and the next generation infrastructure that will enable it." Na época, o componente básico da chamada cyberinfrastructure era o grid. Daremos uma visão geral sobre a área, abordando os principais aspectos tecnológicos envolvidos. Atualmente, não são só os grids merecem destaque, mas também workflows, repositórios de dados, as redes sociais, dentre outros.
Além disso, há uma tendência para se trazer para mais perto dos cientistas do dia-a-dia os avanços viabilizados pela e-Science. Sem esperar que as suas pesquisas sejam parte de uma "colaboração global" ou em "áreas chaves da ciência".

Além destas discussões, mostraremos alguns projetos bem sucedidos que estão sendo desenvolvidos no mundo e falaremos um pouco do SegHidro - o nosso jeito de fazer e-Science.

domingo, 3 de maio de 2009

Seghidro/OurGrid na newsweek

Ontem (02/05), saiu uma reportagem na versão versão on-line da newsweek sobre como infra-estruturas de computação distribuída, grids e clouds por exemplo, podem apoiar o trabalho de cientistas ao redor do mundo.

A reportagem destaca como o SegHidro, usando o OuGrid como middleware, tem ajudado cientistas e engenheiros a lidar com os problemas causados pela seca no nordeste brasileiro.

Segue um trecho da reportagem, que pode ser lida na íntegra aqui

Number Crunching Made Easy

Cloud computing is making high-end computing readily available to researchers in rich and poor nations alike.

By Christopher Werth | NEWSWEEK

A dwindling water supply spells disaster for the residents of Brazil's arid Northeast, who live by subsistence agriculture. Droughts have become longer and more frequent, and every year more families set off for the urban slums. Predicting how rainfall patterns will shift in a few years and how it will affect aquifers and agricultural output has become an urgent task. Civil engineers need to know where to build reservoirs and how much water they should hold. But this kind of local climate modeling requires a lot of number crunching, and supercomputers are rare in these parts.

To get around this hurdle, a group of universities and government labs, called SegHidro (which means "water security"), pooled the computing resources in labs scattered throughout the country. Using software called OurGrid, they adapt global climate models to local conditions, parceling out pieces of the massive job to little computers in the network. This kind of collaboration is getting a big boost from new so-called cloud-computing services from Amazon, Google and Microsoft. By driving down the cost of scientific computation, it promises to be a boon to researchers in rich and poor nations.



Quais os "tópicos quentes" de pesquisa em Redes de Computadores? Veja o que rolou no INFOCOM 2009!

Olá pessoal! Primeiramente (da mesma forma que peruca) gostaria de agradecer a Naza pelo convite para contribuir com o blog... sinto-me honrado.

Nesse meu primeiro post, gostaria de relatar a mega-experiência que foi, para mim, participar de um dos principais congressos internacionais na grande área de redes de computadores: o INFOCOM. O objetivo não é fazer um resumo das palestras técnicas e sim dar uma visão geral dos tópicos abordados nas sessões e a impressão que fiquei da conferência. (Se alguem precisar de algum material apresentado por lá, sinta-se à vontade para me pedir.)

Logo no domingo (19/04) aconteceu um tutorial para os estudantes participantes do INFOCOM, intitulado "Sensor networking: next-generation sensor networks and applications". Estavam lá na frente os Professores Jim Kurose (aquele mesmo do nosso livro de redes) e o Ramesh Govindan (até então, desconhecido para mim). Minha impressão foi que os dois fizeram uma propaganda (no bom sentido) e um discurso motivacional para atrair a atenção dos estudantes para a área. Ambos estão atualmente pesquisando em redes de sensores (WSN - Wireless Sensor Networks). O tutorial foi bem legal e manteve-se num nível superficial. Impressão nº1: Kurose é o cara!

No dia seguinte (segunda-feira) foi o dia do Student Workshop e algumas outras sessões técnicas que perdi por estar no workshop. Eu apresentei meu poster, intitulado "Towards a Robust Pollution Control Mechanism for P2P File Sharing Systems", pela manhã. Fui abordado por aproximadamente oito pessoas e foi muito legal! Destaco um momento que chegou uma italiana, olhou o poster por uns 2 minutos, e perguntou por que eu havia colocado um número "2" em minha equação de cálculo de reputação. :-) O problema é que a equação era herança de um trabalho anterior e, apesar de saber a influência do valor, não sabia o porquê "2" e não "3" ou "4". Pensei em responder que era o único primo par :-)))) Impressão nº2: É difícil achar alguém que esteja trabalhando na mesma coisa que você, no nível de detalhes que você está (adiante comento mais sobre isso, parafraseando o Prof. Kurose), em uma conferência de propósito geral (grande área de redes).

No coffee-break desse dia fui abordado por duas pessoas. Sim, é impressionante como as pessoas vão para essas conferências para fazer contatos. O primeiro era da universidade de Waterloo, o segundo era de Berkeley (depois fui descobrir que este era orientando do lendário Prof. Papadimitriou, autor do nosso livro de Teoria da Computação :-). Impressão nº3: Diferentemente dos congressos nacionais, as pessoas são muito mais intrusivas (no bom sentido) em eventos internacionais.

Para não me delongar muito nesse post, vou falar sobre os principais painéis da conferência e dar a visão geral dos tópicos abordados nos artigos apresentados. Na parte da tarde do workshop, aconteceu um keynote e um painel muito show! O keynote, intitulado "10 Things I Wish My Advisor Had Told Me", foi apresentado pelo Prof. Kurose e recomendo fortemente sua leitura. Em resumo, ele fala para evitar áreas de pesquisa populosas pois você provavelmente precisaria ser um gênio para conseguir competir com quem já está há muito mais tempo na área (palavras do próprio professor). A idéia é chegar no tópico antes de ele estar crowded. Ele fala da importância de estudar matemática e ter um conhecimento multi-disciplinar. Ele ressalta também que ao final da sua dissertação/tese, você é o cara que mais deve entender daquele assunto no mundo :-).

Já o painel foi um pouco polêmico e pelo seu título, "How to be successful in research?", não é difícil de imaginar o porquê. Cada um dos painelistas apresentou algumas idéias que ao meu ver foram de encontro com o nossas métricas de avaliação (QUALIS). Não sei agora com a reforma, mas todos os painelistas enfatizaram que é muito melhor um artigo em uma boa conferência, do que vários em conferências "meia boca". Até o brasileiro Edmundo Souza e Silva (UFRJ), no painel, corroborou com a idéia. É, eu também concordo, mas a realidade que enfrentamos aqui no Brasil é outra. O mundo não é cor-de-rosa e os pesquisadores brasileiros sabem do que eu estou falando. O último a falar foi o Prof. Kurose que, fazendo jus à fama, simplesmente fechou com chave de ouro. Enquanto os demais painelistas apresentavam seus slides, ele preparou os dele :-))) Isso mesmo, ele apontou e criticou TODOS os quatro painelistas anteriores em algum ponto, com direito a foto dos mesmos e tudo mais. O seu título era "Mitos e Verdades". :-)))))) MUITO BOM! Impressão nº4: A dificuldade que as pessoas têm em fazer pesquisa, definir problema, modelar (etc) é igual em todo lugar. No entanto, eles (EUA) saem na frente por ter mais apoio ($) e, consequentemente, mais aceleração.

O último painel que assisti foi o "What Are The Hot Topics in Networking?". Entre os painelistas estavam os Professores Don Towsley e Keith Ross. Esse último atraiu a atenção das câmeras. (Ele é co-autor do livro de redes junto com o Prof. Kurose, para quem não sabe.) Cada um dos painelistas puxou um pouco da sardinha para seu lado. Tópicos como Network Coding, Delay Tolerant Networks, Wireless Sensor Networks, Peer-to-Peer e Social Networks concentraram maior parte dos comentários. Esses dois últimos bastante tocados pelo Prof. Ross (tenho fotos dos seus slides e os do Prof. Towsley, quem quiser me passa um email). Ele atesta que redes sociais+P2P pode ser uma combinação promissora para resolver diversos problemas de sugurança em redes entre pares. Fica fácil resolver o problema quando assumimos uma grande rede de relacionamentos e confianças entre as partes, né? :-\ Eu sou totalmente preconceituoso quanto a essa frente, mas isso já seria assunto para outro post. Impressão nº5: Tópico quente para alguém é aquele em que ele pesquisa.

Fechando o post, deixo minha impressão geral sobre o evento. Praticamente todos os trabalhos aceitos para publicação no INFOCOM precisam ter uma boa modelagem matemática. Mais que isso, eles precisam (e apresentaram) uma validação experimental no mínimo razoável. Quando não, extensas simulações eram apresentadas. É muito difícil encontrar trabalhos de brasileiros lá. Esse ano teve apenas um do Prof. Otto (UFRJ) e ano passado, salve um engano, um do Prof. Edmundo Souza e Silva (UFRJ). Antes disso, acho que só em 1998. :-))) Achei muito estranho não encontrar trabalhos sobre Grades Computacionais, não sei se isso é comum no INFOCOM. Sobre a qualidade técnica dos trabalhos, não é difícil encontrar trabalhos igualmente bons no LSD e na UFRGS (onde atualmente pesquiso), a diferença é que pecamos um pouco na modelagem analítica. E então, por que não publicamos lá? Ouvi comentários que os brasileiros preferem aproveitar o timing e submeter seus trabalhos em conferências igualmente qualificadas (segundo o QUALIS) e que tenham mais chances, ao invés de "perder" o tempo esperando para, no final, correr o alto risco de ter seus trabalhos rejeitados.

quarta-feira, 22 de abril de 2009

LSD, BDIM, Empregos e Planejamento de Capacidade

Antes de começar o meu memory dump sobre os tópicos do título, gostaria de agradecer a Nazareno pelo convite de postar no blog e mandar um abraço para todos do LSD.

- Quando aprendi sobre planejamento de capacidade, a lei de little, utilização de recursos, escalabilidade e outras coisas na minha disciplina de Análise e Desempenho de Sistemas Discretos na UFCG não percebi onde se aplicava toda aquela matemática. Algum tempo depois, fui alocado para pesquisar justamente essas coisas no LSD, só que focadas em grades computacionais, nesta época aprendi sobre Business Driven IT Management (BDIM). Resumindo uma história longa, a forma mais simples de se entender BDIM é pegar tudo aquilo que você aprende sobre planejamento de capacidade (tempo de resposta de servidores, requisições processadas, utilização etc) e coloca uma nova variável dinheiro no meia da coisa. Agora você planeja sua infraestrutura de TI pensando no seu lucro. Nesta pesquisa, mostramos como uma grade entre pares (P2P) pode reduzir o custo de uma infraestrutura de TI para o processamento de cargas, devido ao compartilhamento gratuito de recursos, ideia que pode ser expandida para outros serviços P2P como live-streaming, compartilhamento de dados ou CDNs. Agora, eu entendia para que servia aquela matemática.

Um ano depois, estava iniciando o meu mestrado na UFMG e assistindo as mesmas aulas de análise de desempenho só que com outro nome. Um aluno (Itamar Viana) da disciplina pergunta se aquela coisa servia para ganhar dinheiro, em outras palavras se ele seria contratado por saber aquelas coisas todas, me lembrei do caso de BDIM e pensei em falar sobre ele, mas BDIM não dava empregos trabalhava com modelos em cima de dinheiro. Embora seja bastante bacana aquela modelagem toda, a pergunta se aquilo empregava alguém não foi claramente respondida, é uma pesquisa interessante com diversas conferências e grupos de interesse no mundo, mas vai empregar alguém? A reposta é sim, e aprendi isto alguns meses depois. O mesmo aluno da dúvida acima foi empregado em uma empresa que faz distribuição e processamento de vídeos, soube que ele estava se dando bem e um dos motivos eram os seus conhecimentos de planejamento de capacidade, algo que não era aplicado pela empresa, que ele continue fazendo sucesso.

Itamar me apontou para a seguinte entrevista recém publicada no HighScalability que serve para termos uma ideia do novo livro sobre planejamento de capacidade escrito por John Allspan, gerente de operações do Flickr, livro que ele está lendo para seu trabalho. O livro aparenta ser uma "hands on" em capacity planning, e pela entrevista parece que aquela modelagem toda, embora seja correta e aplicável, acaba sendo deixada para trás devido as correrias e dinamicidade do mundo real, o autor argumenta que se necessita de uma ideia ágil para planejamento de capacidade. Mas o interessante é que pelo o ponto de vista do autor, o mundo já é BDIM e o custo é quem guia o seu gerenciamento de capacidade. O autor também fala sobre clouds contrastando com planejamento de capacidade, mostrando que a pesquisa que fiz parte (e continua no LSD) estava na crista da onda. Acho interessante ver casos onde a pesquisa e empresa parecem andar juntos, embora tenham opiniões um pouco divergentes.

Atualmente duas dúvidas permanecem na minha cabeça. A primeira é devemos simplificar nossos modelos de pesquisa e ficar mais próximo do modelo ágil do mundo empresarial, tendo assim uma pesquisas mais aplicada. A outra é se o mundo empresarial vai um dia fazer uso das nossas ideia de planejamento de capacidade como a de um modelo híbrido usando P2P.

ps: Devido a este convite achei este software (usado no Flickr) bacana para fitting de curvas com picos - http://www.unipress.waw.pl/fityk/

terça-feira, 21 de abril de 2009

Amanhã 22/04 - Conversa LSD

Oi Pessoal, prosseguindo com a tradição, amanhã teremos mais uma Conversa LSD, às 14h.

Desta vez conversaremos sobre as lições aprendidas durante o desenvolvimento do DDGfs, um sistema de arquivos distribuído em criação aqui no LSD desde o ano passado.

Além disto, para o vosso deleite, Giovanni Surubim apresentará suas experiências (truques, magias e casos de contorno) no uso do PlanetLab

Segue abaixo uma descrição mais pormenorizada sobre o DDGfs.

Era um noite escura e tenebrosa ... Projeto e implementação de um sistema de arquivos para uso corporativo

O DDGfs é um sistema de arquivos distribuído que utiliza uma rede corporativa de desktops. Este sistema está em desenvolvimento no LSD desde 09/2008 e será disponibilizado publicamente em breve. Na conversa dessa quarta serão apresentadas as lições aprendidas durante o processo de desenvolvimento do DDGfs.

Ainda, será mostrada uma visão geral do projeto assim como novas funcionalidades que estão em desenvolvimento. Por fim, serão discutidos alguns resultados experimentais sobre o desempenho do DDGfs que mostram sua equiparação com outros sistemas de
arquivos corporativos.