Mostrando postagens com marcador Conversa LSD. Mostrar todas as postagens
Mostrando postagens com marcador Conversa LSD. Mostrar todas as postagens

segunda-feira, 18 de março de 2013

Contributor Profiles, their Dynamics, and their Importance in Five Q&A Sites


Este artigo foi desenvolvido no mestrado de Adabriand Furtado, com a participação de Nazareno Andrade, Nigini Oliveira e Francisco Brasileiro, e foi recentemente publicado na conferência Computer Supported Cooperative Work (CSCW '13), da ACM. A seguir, um resumo do trabalho:

Sites de perguntas e respostas (Q&A) têm se mostrado um recurso valioso em ajudar pessoas a resolverem seus problemas do dia-a-dia. Atualmente, os sites Yahoo! Answers e StackOverflow têm atraído números massivos de contribuidores voluntários para trocar conhecimento através de atividades como criar perguntas, respostas, comentários e avaliar o conteúdo gerado.

Como efeito do tamanho considerável destas comunidades, é de se esperar que contribuidores nestes sites exibam comportamentos diversos na criação de conteúdo  seja dando preferência à criação de um determinado tipo de contribuição (e.g. somente respostas) ou demostrando alguma habilidade em criar conteúdo. Nosso trabalho foca em analisar a diversidade de comportamento dos contribuidores em sites de Q&A. Entender como cada tipo de contribuidor colabora para o funcionamento de sistemas de Q&A ajuda a gerenciar estes sites. Por exemplo, este conhecimento pode informar o desenvolvimento de estratégias para promover ou inibir certos comportamentos na comunidade.

Página de uma pergunta no site de Q&A Super User

Para examinar o comportamento típico dos contribuidores nestes sites, utilizamos dados históricos de cinco sites da plataforma de Q&A Stack Exchange Super User, Server Fault, Programmers, Ask Ubuntu e Mathematics – e derivamos um conjunto de perfis que descrevem a motivação e habilidade dos contribuidores em perspectivas de longo e curto prazo. Na perspectiva de longo prazo, aplicamos a análise de agrupamento nos dados completos de atividade dos usuários. Esta análise revelou dez perfis comportamentais, os quais foram resumidos em quatro tipos:

  1. Sem habilidade marcante, usuários de baixa a média atividade e habilidade;
  2. Imperitos, usuários com contribuições mal avaliadas;
  3. Experts, contribuidores hábeis em realizar um tipo de atividade; e
  4. Ativistas, contribuidores de alta atividade.

Curiosamente, experts e contribuidores de alta atividade formam grupos disjuntos em nossos resultados. Mecanismos de alocação de tarefas podem se beneficiar desta evidência, direcionando experts para responder respostas difíceis, ou uma combinação de experts e ativistas para aumentar as chances de obter uma resposta rapidamente.

Usando estes perfis, analisamos a composição dos sites e observamos que as distribuições dos perfis são notavelmente semelhantes nos cinco sites. Além disso, observamos que imperito em respostas é o segundo perfil mais comum nestes sites. Este dado indica a necessidade de oferecer orientação a estes usuários para melhorar a qualidade de suas contribuições.


Distribuição dos perfis de contribuidor nas cinco comunidades

Ainda na análise de perfis de longo prazo, examinamos o papel de cada perfil na produção de conteúdo para os sites. Esta caracterização descreve ativistas e contribuidores sem habilidade marcante produzindo a maioria das contribuições em todos os cinco sites, enquanto que experts e imperitos coletivamente produzem uma fração pequena das contribuições. Observar que experts são de pequena importância para a criação de conteúdo pode motivar os gerentes destes sites a buscarem meios para promover a participação destes usuários.

Na perspectiva de perfis de curto prazo, nossa análise objetiva entender como o comportamento dos contribuidores e propriedades estruturais do site mudam ao longo do tempo. Para tal, selecionamos o maior dos cinco sites estudados, o Super User, e conduzimos uma versão longitudinal da nossa análise em seus dados históricos. Os perfis descobertos nesta análise de agrupamento, considerando janelas de 2 meses, são notavelmente similares aos perfis encontrados na análise usando toda a atividade do site.

Usando a categorização dos perfis em cada janela, examinamos a evolução da distribuição dos perfis no Super User e identificamos que sua composição é estável. Contudo, a análise de dinâmica dos perfis mostra que os usuários mudam de perfil com certa frequência. O resultado desta análise mostra que todos os perfis, exceto ativistas, tendem a mudar para perfis de menor atividade nas janelas seguintes. Além disso, usuários imperitos em respostas e experts tendem a abandonar a comunidade dentro de pouco tempo.

Por fim, nosso último experimento relacionado à dinâmica de comportamento compara a probabilidade de um usuário atuar de acordo com um dado perfil, caso este usuário seja novato ou experiente. Sem muita surpresa, esta análise aponta que novatos são mais propensos a atuar como imperitos em respostas, enquanto que usuários experientes tendem a atuar em perfis mais ativos. No entanto é interessante que usuários experientes não possuem uma maior chance de se comportar como experts. Isto sugere que experts agem como tal desde seu início no site, mas ativistas tendem a se desenvolver com o tempo.

Para mais detalhes, veja nosso artigo Contributor Profiles, their Dynamics, and their Importance in Five Q&A Sites.

quarta-feira, 21 de março de 2012

Conversa LSD - Leveraging Trust and Distrust for Sybil-Tolerant Voting in Online Social Media

Caros,

Na Conversa LSD desta semana (quarta, 16h, no auditório do LSD) temos uma palestra de um visitante, e gostaríamos de convidar a todos. Segue abaixo uma breve apresentação do palestrante e da palestra.

[]s
Nazareno

Nitin Chiluka está no último ano de seu doutorado na TUDelft e trabalha no uso de análise de grafos para entender e projetar sistemas distribuídos, de recomendação e mídia social online. Eu participo da orientação de Nitin e ele está visitando a UFCG no contexto de um projeto CAPES/Nuffic entre TUDelft e UFCG. 

O resumo da apresentação:

Leveraging Trust and Distrust for Sybil-Tolerant Voting in Online Social Media

Voting is a vital component of online social media (OSM).  Votes on content items in OSM, e.g., likes in YouTube and Facebook, favorites in Flickr, and diggs in Digg) are typically incorporated into many of their central features such as recommendations, ‘most popular’-like pages and ranking search results. Voting helps in determining popularity and trustworthiness of content. 

At the same time, due to their open membership access, voting on content items in OSM is susceptible to Sybil attacks.  Malicious attackers can create multiple Sybil identities to outvote the real users of the system. To defend against such an attack, we leverage (i) trust which is inherent in the social network among users in OSM, and (ii) distrust between honest users, who identify some of the spam content items, and the Sybil identities who promoted them. Modeling trust and distrust in the system as a signed network, our method proceeds in two phases. First, we identify nodes and edges that constrain paths along positive edges between the endpoints of each negative edge. Second, we limit the votes from Sybil voters whose paths to honest nodes pass across these bottlenecks. Our simulation results on popular OSM datasets show both the feasibility of incorporating distrust alongside trust to defend against Sybil attacks, and that our method outperforms the state-of-the-art approach, SumUp.

quarta-feira, 29 de fevereiro de 2012

Conversa LSD: Automated configuration of distributed storage systems

Olá pessoal,

estamos retomando as conversas lsd nesta semana. Nossa primeira conversa lsd será nessa quarta-feira, 29/02, às 16h, com direito à comemoração dos aniversariantes dos meses de janeiro e fevereiro e boas-vindas aos pesquisadores visitantes (Lauro, Mihai, Nitin e Josef).

O primeiro palestrante será Lauro Beltrão, aluno de doutorado da UBC. O título e resumo da sua palestra seguem abaixo.

Lívia
-------

AUTOMATED CONFIGURATION OF DISTRIBUTED STORAGE SYSTEMS

Distributed storage systems have evolved to employ optimization techniques (e.g., replication, data deduplication, data striping and caching policies) that enable trade-offs over interrelated success metrics such as response time, throughput, storage space, and energy consumption. Setting the configuration parameters of such optimization techniques to best match the success criteria involves exploring a large configuration space to tune the parameters for each of these techniques. Additionally, the values of the configuration parameters are workload-dependent, requiring exploration of the parameters for each different workload. Such exploration makes manually configuring the distributed storage system an undesirable if not unfeasible task.
My research addresses the following main question: How to configure a distributed storage system (i.e., enable/disable various optimization techniques and configure their parameters) to match the application requirements with minimal human intervention?
During my presentation, I will briefly present the motivation to automate the configuration of a distributed storage system and the requirements for an automated configuration solution. I will describe the architecture proposed for anautomated configuration solution and an initial use cases based on data deduplication. Finally, I will briefly present the next steps of my research focusing on the optimization techniques and success metrics that we plan to focus on.

quarta-feira, 26 de outubro de 2011

Conversa LSD: Planejamento de capacidade para aplicações de comércio de eletrônico no contexto de SaaS.

Olá pessoal,

Na Conversa LSD desta semana (27/10 16h) iremos discutir um pouco a respeito do trabalho que David Candeia desenvolve no LSD.

Resumo:

A oferta de aplicações de comércio eletrônico que buscavam atender um grande número de clientes, ou ainda, que estavam sujeitas a fortes restrições, despertou na última década um forte interesse a respeito do gerenciamento das infraestruturas de provedores considerando métricas de negócios. Com o surgimento do mercado de Computação na Nuvem, novos modelos de serviços de computação despontaram no mercado. Dentre tais modelos destaca-se o modelo de Aplicação como Serviço (Software-as-a-Service, SaaS) que abrange uma grande variedade de aplicações como gerenciadores de tarefas, editores de documento e aplicações de comércio eletrônico. O objetivo do trabalho é avaliar técnicas de planejamento de capacidade orientadas a negócio para aplicações de comércio de eletrônico no contexto de SaaS.

quarta-feira, 6 de julho de 2011

Conversa LSD: Automatic Suggestion of Efficiency Improvements on Database Routines

Olá Pessoal,

hoje, às 16h, Dimas Cassimiro, aluno de mestrado em ciência da computação da UFCG orientado pelos professores Carlos Eduardo Pires e Tiago Massoni, gentilmente apresentará sua pesquisa sobre como automatizar a detecção de melhorias no desempenho de rotinas de banco de dados. 



Assim falou Dimas sobre seu trabalho -- "An efficient and common way to allow data manipulation in databases by applications is implementing database routines. However, if such implementations present inefficient programming logic or data manipulation, excessive delays are provided to the client application layers. Such delays can cause, among other problems, expressive financial losses. To solve this problem, the database routines must undergo a tuning process. Since the tuning process involves manual analysis of source code, its implementation usually becomes too much expensive. In order to reduce the cost of the tuning process, we present an approach based on static analysis of source code to perform automatic detection of potential efficiency improvements on database routines."

Antes da palestra haverá um coredump (Linux Tracing Capabilities) que será apresentado por Thiago Emmanuel.

quarta-feira, 8 de junho de 2011

Conversa LSD: Eficiência de download em comunidades BitTorrent


Hoje, às 16 horas, teremos mais uma edição da Conversa LSD. O trabalho será apresentado por Jaindson Santana. Esta mesma apresentação foi feita no VII Workshop de Redes Dinâmicas e Sistemas P2P (WP2P 2011), fórum realizado no XXIX Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC 2011). Segue título e resumo do que será discutido.

Título: Eficiência de download em comunidades BitTorrent
Resumo: Bittorrent é o sistema de compartilhamento de arquivos mais utilizado atualmente. Uma prática comum entre os usuários deste sistema é a criação das comunidades Bittorrent. Diversos estudos já mediram a velocidade de download dos usuários destas comunidades. No entanto, estes estudos não fornecem evidências conclusivas sobre que características dos usuários e dos enxames determinam os resultados observados. Trabalhos anteriores não examinaram o efeito destas características, examinaram o efeito de apenas uma característica, ou usaram um espaço amostral pequeno de enxames e usuários. Este artigo apresenta os resultados de um trabalho em andamento para analisar a velocidade de download dos usuários de comunidades Bittorrent, utilizando um espaço amostral significativamente maior que os trabalhos anteriores, e examinando o efeito de múltiplas características de enxames, usuários e comunidades na velocidade de download.

segunda-feira, 7 de fevereiro de 2011

Processamento de fluxo de eventos

Eventos são mensagens que não são explicitamente endereçadas e que sinalizam a ocorrência de alguma mudança de estado em um sistema. Os eventos propriamente ditos podem de uma simples lista de nomes de atributos e valores associados até mesmo um objeto serializado de uma linguagem tipo Java.

Quando os componentes de um sistema se comunicam apenas através da geração e recebimento de eventos, diz-se que o sistema possui uma arquitetura orientada a eventos (EDA – Event Driven Architecture). Como os eventos não são explicitamente endereçados, um sistema orientado a eventos requer um canal de comunicação de eventos. Esse canal funciona da seguinte forma: (a) os componentes geradores de eventos registram no sistema de comunicação os tipos de eventos que serão gerados; (b) por sua vez, os componentes interessados em monitorar eventos de certo tipo, registram o seu interesse em receber eventos daquele tipo; (c) finalmente, quando um evento é de fato gerado, o sistema de comunicação entrega o evento a todos os componentes interessados naquele tipo de evento. Observe que o componente gerador dos eventos não conhece os componentes que receberão o evento. Esse isolamento faz com que sistemas orientados a eventos sejam fracamente acoplados.

Arquitetura orientada a eventos é muito comum em sistemas de monitoramento, pois a adição de mais monitores não influencia o sistema monitorado. Em um sistema de monitoramento, um sistema monitor observa o comportamento de outro sistema, o monitorado. O monitor precisa então observar os eventos gerados pelo sistema monitorado e interpretá-los, de forma a detectar se algo relevante aconteceu no sistema monitorado. Desta forma, é preciso primeiro coletar os eventos que este sistema observado produz e depois processar esses eventos de forma a determinar se eles sinalizam situações de interesse. Um exemplo de situação de interesse é uma queda brusca de preço em uma ação no mercado de ações. Neste caso, o sistema monitorado é o mercado de ações e o sistema monitor pode ser uma aplicação que detecta oportunidades de negócios no mercado de ações. Quando uma situação de interesse é detectada, neste caso, uma oportunidade de negócio, o sistema de monitoramento pode acionar uma atividade de resposta, por exemplo, uma compra de ações cujos preços estão atraentes.

O exemplo acima é conhecido como negociação de alta frequência (High Frequency Trading). Observe que em uma aplicação como o mercado de ações, eventos de compra ou venda acontecem constantemente, milhares de vezes por segundo. O sistema de monitoramento recebe então eventos continuamente. Por essa razão, sistemas de monitoramento baseados em eventos são também conhecidos como sistemas de processamento de fluxos de eventos. Sistemas de processamento de fluxos de eventos (no inglês, ESP – Event Stream Processing) são tipicamente compostos por um grafo de operadores. Cada operador executada parte da tarefa de processar os eventos. Exemplos de operadores são os seguintes:

  • Filtros (descartam ou repassam eventos de acordo com atributos do mesmo);
  • Conversores (aplicam uma função a um evento, gerando um evento de saída que possui, por exemplo, um formato diferente);
  • Agregadores (combinam vários eventos, gerando um evento de saída que agrega informações de todos eles como, por exemplo, a média aritmética).

Observe que alguns dos tipos de operações acima requerem que o operador mantenha algum estado local. Por exemplo, para calcular uma média, é preciso considerar não somente o último evento, mas também os eventos anteriores (normalmente, operações de agregação são feitas considerando uma janela de eventos, por exemplo, os eventos dos últimos 10 minutos). Quando operações não tem estado, é fácil paralelizá-las, basta criar várias cópias do mesmo operador e dividir o fluxo de eventos entre eles. No entanto, quando o operador mantem um estado (no caso da média, uma janela com um determinado número de eventos), as várias cópias do operador precisam coordenar de que forma elas acessam o estado do mesmo.

Infelizmente, coordenar o acesso de várias cópias do operador a um só estado não é fácil. Se travas forem utilizadas, ou a área de código coberta por uma trava é minimizada ou pouco paralelismo será alcançado. No entanto, minimizar a área de cobertura de uma trava é difícil e é uma causa frequente para bugs não determinísticos no código. Além do problema da paralelização correta, aplicações de processamento de eventos têm frequentemente outro requisito, a ordem de processamento dos eventos é importante. Quando um operador é paralelizado com travas, a ordem de processamento dos eventos não é necessariamente a mesma de uma execução sequencial.

Durante meu trabalho de doutorado, investiguei formas de prover paralelização automática que preservam a ordem do fluxo de eventos. O resultado foi um sistema de paralelização especulativa baseado em memórias transacionais em software (STM – Software Transactional Memory). Este sistema processa eventos em paralelo de forma especulativa e monitora os acessos ao estado do operador. Quando o processamento de dois eventos não acessa posições de memória em comum, a execução paralela especulativa funcionou e a ordem foi garantida. Caso contrário, quando há interferências, o processamento do evento que deveria ser processado primeiro é confirmado e o processamento do segundo evento é repetido para considerar as modificações no estado causadas pelo processamento do primeiro. Um exemplo de interferência é quando o processamento dos dois eventos exige o incremento de um mesmo contador, neste caso, se nenhuma abordagem especial (específica para o incremento de variáveis) for utilizada, os eventos precisam ser processados sequencialmente para que o segundo considere o incremento feito durante o processamento do primeiro.

Por fim, investiguei formas de tolerância a falhas em sistemas de processamento de eventos. Como resultado, propus abordagens para a implantação de replicação ativa e passiva que aproveita os mecanismos de especulação providos pelo esquema de paralelização especulativa para reduzir o custo em desempenho da replicação.

Slides: http://www.lsd.ufcg.edu.br/~andrey/ConversaLSD_IntroESP.pdf


quarta-feira, 7 de julho de 2010

Conversa LSD com Elizeu: "Assessing the Value of Contributions in Tagging Systems"

Nesta sexta-feira, às 14 horas, teremos Conversa LSD com o palestrante Elizeu Santos-Neto. O tema da palestra é "Assessing the Value of Contributions in Tagging Systems". Elizeu é candidato ao título de PhD no NetSysLab (University of British Columbia). Sua área de pesquisa se concentra na caracterização e projeto de sistemas em redes entre-pares (peer-to-peer) e em comunidades de anotação colaborativa (collaborative tagging communities). Outras informações sobre Elizeu podem ser encontradas no seu site pessoal. Segue abaixo o resumo da palestra.

Assessing the Value of Contributions in Tagging Systems
by Elizeu Santos-Neto

Assessing the value of individual user contributions in peer-production systems is paramount to the design of mechanisms that support collaboration and improve users’ experience. For instance, to incentivize contributions, file sharing systems based on the BitTorrent protocol equate value with volume of contributed content and use a prioritization mechanism to reward users who contribute more. This approach and similar techniques used in resource sharing systems rely on the fact that the physical resources shared among users are easily quantifiable.

In contrast, information-sharing systems, like social tagging systems, lack the notion of a physical resource unit (e.g., content size, bandwidth) that facilitates the task of evaluating user contributions. For this reason, the issue of estimating the value of user contributions in information sharing systems remains largely unexplored. In this talk I introduce this problem, present a framework to guide the design of algorithms that estimate the value of user contributions in tagging systems, discuss three complementary success criteria for potential solutions, and outlines the methodological evaluation challenges.

quarta-feira, 30 de junho de 2010

Conversa LSD com Flavio e Jaindson

Nesta quinta-feira (01/07), na Conversa LSD, teremos duas palestras: "Assessing the Quality of Textual Features in Social Media" que será proferida por Flavio Vinicius (Peruca) e "Análise da Eficiência em termos de Velocidade de Download em Comunidades BitTorrent" que será proferida por Jaindson Santana. Abaixo os resumos das apresentações.


Assessing the Quality of Textual Features in Social Media
by Flavio Vinicius

Social media is increasingly becoming a significant fraction of the content retrieved daily by Web users. However, the potential lack of quality of user generated content poses a challenge to information retrieval services, which rely mostly on textual features (particularly tags) commonly associated with the multimedia objects. This paper presents what, to the best of our knowledge, is the currently most comprehensive study of the quality of textual features in social media. We analyze four different features, namely, title, tags, description and comments posted by users, in four popular applications, namely, YouTube, Yahoo! Video, Last.FM and CiteULike. Our study is based on an extensive characterization of data we crawled from the four applications with respect to usage, amount and semantics of content, descriptive and discriminative power as well as content and information diversity across features. It also includes a series of object classification and content recommendation experiments as case studies of two important information retrieval tasks. Classification and recommendation effectiveness is analyzed in light of our characterization results. Our findings provide valuable insights for future research and design of Web 2.0 applications and services.


Análise da Eficiência em termos de Velocidade de Download em Comunidades BitTorrent
Por Jaindson Santana

Pesquisas recentes tem mostrado que, embora tenha ocorrido um decréscimo no tráfego de sistemas de compartilhamento P2P na Internet em relação a outros serviços, ainda é possível observar um aumento de seu tráfego em valores absolutos. Dentre os sistemas utilizados, o BitTorrent se apresenta como o mais utilizado.

Uma das práticas utilizadas por alguns usuários BitTorrent consiste em criar ou se unir ao que chamamos de comunidades. Elas são criadas visando: amenizar problemas encontrados no sistema como poluição de conteúdo, unir usuários com interesses em comum, estabelecer uma rede social que agregue serviços além da distribuição de conteúdo, melhorar a qualidade de serviço, etc. Além disso, normalmente elas utilizam regras/políticas de conduta que seus usuários devem obedecer para fazer parte dela.

Como foi dito, a qualidade de serviço é uma das preocupações que levam os usuários a participarem de uma comunidade. No caso do BitTorrent, a qualidade de serviço pode ser vista em termos da velocidade de download experimentada por seus usuários.

O objetivo deste trabalho consiste na investigação de que fatores externos ao protocolo BitTorrent, mas presentes nestas comunidades, influenciam a qualidade de serviço experimentada pelos usuários das comunidades BitTorrent. Neste contexto, a Conversa LSD terá como objetivo realizar uma explanação em detalhes sobre este trabalho e seus resultados preliminares.

sábado, 19 de setembro de 2009

Conversa LSD - MAS-SCM

Transparências da apresentação realizada por Carla Souza sobre o projeto MAS-SCM, desenvolvido em parceria com as universidades UFCG, UFF e UTFPR para o Centro de Pesquisas e Desenvolvimento Leopoldo Américo Miguez de Mello - Cenpes - da Petrobrás.


terça-feira, 25 de agosto de 2009

segunda-feira, 11 de maio de 2009

Técnicas de Modelagem e Predição de Comportamentos em Arquiteturas Paralelas (Conversa LSD 13/05/2009)


Algumas vezes, ao realizar uma pesquisa, sentimos a necessidade de modelar a carga de trabalho de um sistema real. Isso ocorre, por exemplo, quando desejamos realizar simulações e análises em um ambiente controlado e, para isso, precisamos reproduzir uma carga real. Diversas técnicas de caracterização foram desenvolvidas para auxiliar nessa tarefa -Raj Jain (1991) apresenta algumas. No entanto, seja pela complexidade do comportamento do sistema ou em razão de alguma peculiaridade do trabalho, gerar um modelo condizente com a carga real torna-se uma tarefa muito difícil. E se, além de modelar adequadamente a carga, também estivermos interessados em utilizar o modelo para predizer a carga de um período futuro? Nesse caso trata-se de uma Técnica de Modelagem e Predição de Comportamentos. Você já vivenciou uma situação semelhante a essa? Pois é exatamente sobre isso que vamos conversar na próxima quarta-feira na tradicional Conversa LSD.

Nesse contexto, vou falar um pouco sobre o trabalho “Modelagem e Predição de Jobs em Arquiteturas Paralelas”. Esse trabalho teve como objetivo prover informações sobre o comportamento dos jobs ao Algoritmo Reconfigurável de Escalonamento Gangues (Reconfigurable Gang Scheduling Algorithm – RGSA). O uso de conceitos de computação reconfigurável em algoritmos de escalonamento paralelo de tarefas visa aumentar a flexibilidade e adaptabilidade deles às variações nas arquiteturas paralelas e cargas de trabalho.

Até quarta-feira às 14 horas na Conversa LSD.