Mostrando postagens com marcador p2p. Mostrar todas as postagens
Mostrando postagens com marcador p2p. Mostrar todas as postagens

quarta-feira, 30 de junho de 2010

Conversa LSD com Flavio e Jaindson

Nesta quinta-feira (01/07), na Conversa LSD, teremos duas palestras: "Assessing the Quality of Textual Features in Social Media" que será proferida por Flavio Vinicius (Peruca) e "Análise da Eficiência em termos de Velocidade de Download em Comunidades BitTorrent" que será proferida por Jaindson Santana. Abaixo os resumos das apresentações.


Assessing the Quality of Textual Features in Social Media
by Flavio Vinicius

Social media is increasingly becoming a significant fraction of the content retrieved daily by Web users. However, the potential lack of quality of user generated content poses a challenge to information retrieval services, which rely mostly on textual features (particularly tags) commonly associated with the multimedia objects. This paper presents what, to the best of our knowledge, is the currently most comprehensive study of the quality of textual features in social media. We analyze four different features, namely, title, tags, description and comments posted by users, in four popular applications, namely, YouTube, Yahoo! Video, Last.FM and CiteULike. Our study is based on an extensive characterization of data we crawled from the four applications with respect to usage, amount and semantics of content, descriptive and discriminative power as well as content and information diversity across features. It also includes a series of object classification and content recommendation experiments as case studies of two important information retrieval tasks. Classification and recommendation effectiveness is analyzed in light of our characterization results. Our findings provide valuable insights for future research and design of Web 2.0 applications and services.


Análise da Eficiência em termos de Velocidade de Download em Comunidades BitTorrent
Por Jaindson Santana

Pesquisas recentes tem mostrado que, embora tenha ocorrido um decréscimo no tráfego de sistemas de compartilhamento P2P na Internet em relação a outros serviços, ainda é possível observar um aumento de seu tráfego em valores absolutos. Dentre os sistemas utilizados, o BitTorrent se apresenta como o mais utilizado.

Uma das práticas utilizadas por alguns usuários BitTorrent consiste em criar ou se unir ao que chamamos de comunidades. Elas são criadas visando: amenizar problemas encontrados no sistema como poluição de conteúdo, unir usuários com interesses em comum, estabelecer uma rede social que agregue serviços além da distribuição de conteúdo, melhorar a qualidade de serviço, etc. Além disso, normalmente elas utilizam regras/políticas de conduta que seus usuários devem obedecer para fazer parte dela.

Como foi dito, a qualidade de serviço é uma das preocupações que levam os usuários a participarem de uma comunidade. No caso do BitTorrent, a qualidade de serviço pode ser vista em termos da velocidade de download experimentada por seus usuários.

O objetivo deste trabalho consiste na investigação de que fatores externos ao protocolo BitTorrent, mas presentes nestas comunidades, influenciam a qualidade de serviço experimentada pelos usuários das comunidades BitTorrent. Neste contexto, a Conversa LSD terá como objetivo realizar uma explanação em detalhes sobre este trabalho e seus resultados preliminares.

sexta-feira, 10 de julho de 2009

Cassandra: Eventually consistent, structured, distributed key-value storage

O pessoal do Facebook tornou público e aberto um projeto interno deles baseado no Dynamo da Amazon e no BigTable, da Google. O projeto, chamado Cassandra, assim como o Dynamo, é uma infra-estrutura altamente escalável para armazenar pares (chave, valor) de forma eventually consistent.

A publicação dos detalhes do Dynamo, assim como do MapReduce, BigTable e outros, é um prato cheio para a comunidade científica, já que mostra uma aplicação em produção e em grande escala de diversos conceitos que costumam ficar apenas em aulas de sistemas distribuídos ou em argumentos difíceis de justificar em artigos científicos. A disponibilidade do Cassandra leva isso mais um passo adiante, dando à comunidade um projeto em código aberto que está sendo usado dentro do Facebook para a experimentação.

terça-feira, 9 de junho de 2009

BitTorrent DNA

A BitTorrent Inc. (empresa de Bram Cohen, inventor do BitTorrent) apresentou no CodeCon 2009 o BitTorrent DNA, uma solução para tornar transparente a distribuição de arquivos de instalação de software através do BitTtorrent. Aparentemente, é uma solução muito conveniente e poderosa baseada em um princípio simples que tem todo o jeito de que pode ser estendido para qualquer tipo de arquivo.

Do site:

"BitTorrent DNA is a FREE content delivery service based on the BitTorrent protocol which brings the power of user-contributed bandwidth to traditional content publishers while leaving publishers in full control of their files."

quarta-feira, 22 de abril de 2009

LSD, BDIM, Empregos e Planejamento de Capacidade

Antes de começar o meu memory dump sobre os tópicos do título, gostaria de agradecer a Nazareno pelo convite de postar no blog e mandar um abraço para todos do LSD.

- Quando aprendi sobre planejamento de capacidade, a lei de little, utilização de recursos, escalabilidade e outras coisas na minha disciplina de Análise e Desempenho de Sistemas Discretos na UFCG não percebi onde se aplicava toda aquela matemática. Algum tempo depois, fui alocado para pesquisar justamente essas coisas no LSD, só que focadas em grades computacionais, nesta época aprendi sobre Business Driven IT Management (BDIM). Resumindo uma história longa, a forma mais simples de se entender BDIM é pegar tudo aquilo que você aprende sobre planejamento de capacidade (tempo de resposta de servidores, requisições processadas, utilização etc) e coloca uma nova variável dinheiro no meia da coisa. Agora você planeja sua infraestrutura de TI pensando no seu lucro. Nesta pesquisa, mostramos como uma grade entre pares (P2P) pode reduzir o custo de uma infraestrutura de TI para o processamento de cargas, devido ao compartilhamento gratuito de recursos, ideia que pode ser expandida para outros serviços P2P como live-streaming, compartilhamento de dados ou CDNs. Agora, eu entendia para que servia aquela matemática.

Um ano depois, estava iniciando o meu mestrado na UFMG e assistindo as mesmas aulas de análise de desempenho só que com outro nome. Um aluno (Itamar Viana) da disciplina pergunta se aquela coisa servia para ganhar dinheiro, em outras palavras se ele seria contratado por saber aquelas coisas todas, me lembrei do caso de BDIM e pensei em falar sobre ele, mas BDIM não dava empregos trabalhava com modelos em cima de dinheiro. Embora seja bastante bacana aquela modelagem toda, a pergunta se aquilo empregava alguém não foi claramente respondida, é uma pesquisa interessante com diversas conferências e grupos de interesse no mundo, mas vai empregar alguém? A reposta é sim, e aprendi isto alguns meses depois. O mesmo aluno da dúvida acima foi empregado em uma empresa que faz distribuição e processamento de vídeos, soube que ele estava se dando bem e um dos motivos eram os seus conhecimentos de planejamento de capacidade, algo que não era aplicado pela empresa, que ele continue fazendo sucesso.

Itamar me apontou para a seguinte entrevista recém publicada no HighScalability que serve para termos uma ideia do novo livro sobre planejamento de capacidade escrito por John Allspan, gerente de operações do Flickr, livro que ele está lendo para seu trabalho. O livro aparenta ser uma "hands on" em capacity planning, e pela entrevista parece que aquela modelagem toda, embora seja correta e aplicável, acaba sendo deixada para trás devido as correrias e dinamicidade do mundo real, o autor argumenta que se necessita de uma ideia ágil para planejamento de capacidade. Mas o interessante é que pelo o ponto de vista do autor, o mundo já é BDIM e o custo é quem guia o seu gerenciamento de capacidade. O autor também fala sobre clouds contrastando com planejamento de capacidade, mostrando que a pesquisa que fiz parte (e continua no LSD) estava na crista da onda. Acho interessante ver casos onde a pesquisa e empresa parecem andar juntos, embora tenham opiniões um pouco divergentes.

Atualmente duas dúvidas permanecem na minha cabeça. A primeira é devemos simplificar nossos modelos de pesquisa e ficar mais próximo do modelo ágil do mundo empresarial, tendo assim uma pesquisas mais aplicada. A outra é se o mundo empresarial vai um dia fazer uso das nossas ideia de planejamento de capacidade como a de um modelo híbrido usando P2P.

ps: Devido a este convite achei este software (usado no Flickr) bacana para fitting de curvas com picos - http://www.unipress.waw.pl/fityk/