Pensadouro LSD

quinta-feira, 30 de janeiro de 2014

Contribuição de voluntários em projetos científicos que utilizam computação por humanos

Sistemas de computação por humanos permitem que pessoas executem tarefas que os computadores de silício ainda não são capazes de executar de forma satisfatória, mas que seres humanos são capazes de executar com eficiência e corretude. Muitas destas tarefas são ligadas à criatividade, processamento de linguagem natural, extração de informação em imagens, vídeo e áudio. Exemplos de sistemas de computação por humanos são Amazon Mechanical Turk, que permite que seres humanos executem tarefas que não estão relacionadas a um tema ou propósito específico, e a plataforma Zooniverse, que se dedica às tarefas relacionadas a projetos científicos.

Exemplo de tarefa de classificação de galáxias no projeto Galaxy Zoo
hospedado na plataforma Zooniverse

Tarefas de computação por humanos são frequentes em pesquisas científicas que envolvem o processamento de grande bases de dados de imagens, por exemplo: pesquisas biológicas que trabalham com grande base de imagens coletadas do monitoramento de um dado ecossistema e pesquisas em astronomia que utilizam grande quantidade de imagens coletadas por telescópios. Em sistemas de computação por humanos com propósito científico, geralmente os seres humanos executam tarefas como um trabalho voluntário. Esse é o caso, por exemplo, dos projetos hospedados na plataforma Zooniverse.

Naturalmente, a participação dos voluntários executando tarefas nesses sistemas é fundamental para que os cientistas obtenham as informações que eles necessitam para conduzir suas pesquisas. Diversos estudos têm mostrado que os voluntários que contribuem executando tarefas nesses sistemas possuem diferente motivações, que vai desde curiosidade em computação humana de forma geral até um interesse específico em algum tópico científico, como astronomia, biologia, arqueologia. A motivação mais reportada pelos voluntários é o desejo de contribuir para ciência. Dessa forma, a motivação é um fator fundamental para levar o voluntário ao sistema e/ou mantê-lo contribuindo. Entretanto, os sistemas de computação por humanos precisam ser projetados de modo a permitir que essa motivação se converta em contribuição efetiva, por exemplo, permitindo que o voluntário tenha fácil acesso às tarefas e implementando recursos que façam com que a execução das tarefas seja uma atividade prazerosa e não entediante.

Diversas pesquisas têm sido desenvolvidas no LSD com o objetivo de entender como os voluntários realizam suas contribuições em sistemas de computação por humanos e como esses sistemas podem ser projetados de modo a serem satisfatórios tanto para os cientistas como para os voluntários. Um resultado recente dessas pesquisas é o artigo “Volunteers' Engagement in Human Computation Astronomy Projects”. Este artigo foi aceito para publicação na revista Computing in Science and Engineering do IEEE Computer Society. A pesquisa foi conduzida no LSD por Lesandro Ponciano e Francisco Brasileiro em cooperação com Robert Simpson que é membro da equipe que desenvolve e mantém o sistema Zooniverse na Oxford University, na Inglaterra, e Arfon Smith que é membro da equipe que desenvolve e mantém o sistema Zooniverse no Adler Planetarium, nos Estados Unidos.

A pesquisa é baseada em dados de aproximadamente 10 milhões de tarefas executadas por mais de 100 mil voluntários ao longo de dois anos em dois projetos de astronomia hospedados no Zooniverse: Galaxy Zoo e The Milky Way Project. A pesquisa se concentrou em analisar quatro características da contribuição dos voluntários: (i) frequência, que é o número de dias que o voluntário visitou o sistema para executar tarefas; (ii) produtividade diária, que é o número de tarefas que o voluntário executou nos dias em que ele esteve ativo no sistema; (iii) tamanho típico da sessão de contribuição, que é o tempo contínuo que o voluntário permaneceu executando tarefas em cada dia que esteve ativo; e (iv) tempo dedicado, que é o tempo total que o voluntário ficou executando tarefas no sistema, somados todos os dias em que ele visitou o sistema.

Além de definir essas características de engajamento, a pesquisa também focou em identificar distribuições de probabilidade que descrevem o comportamento dos voluntários no sistema em cada uma dessas características e as correlações entre as características. As distribuições de probabilidade e correlações foram obtidas com um claro propósito de servir como informação para que novos estudos possam ser conduzidos. Por exemplo, as distribuições podem ser usadas para gerar dados a serem utilizados em simulações que focam no estudo mais específico de algum comportamento dos voluntários.

O estudo também permite entender os padrões de contribuição dos voluntários e propor intervenções na forma como os sistemas são projetados de modo a torná-los mais efetivos. Por exemplo, o estudo mostra que de uma forma geral os voluntários exibem dois comportamentos: transiente e regular. Os voluntários transientes são aqueles que executam tarefas nos projetos um único dia e não retornam para executar mais tarefas. A maioria dos voluntários exibe esse comportamento. Os voluntários regulares são mais engajados em termos da frequência no projeto e da contribuição agregada (número de tarefas e tempo dedicado). Entretanto, a minoria dos voluntários exibe esse perfil. Embora significativamente diferente dos transientes, os grupo de voluntários regulares é bastante heterogêneo. Essa heterogeneidade também é analisada no artigo. Naturalmente, a contribuição de todos os voluntários (regulares e transientes) é importante para os projetos. Entretanto, o sistema pode ser ainda mais eficaz se projetado de forma que os voluntários se sintam mais dispostos a exibir um comportamento regular do que um comportamento transiente. Nesse sentido, os autores discutem como estratégias de recrutamento de voluntários, encorajamento de contribuição e design de tarefas podem ser desenvolvidas de modo a contribuir para que esse objetivo seja atingido.

Os trabalhos desenvolvidos no LSD na área de computação por humanos são apresentados nas Conversas LSD que ocorrem ao longo do ano. O conteúdo do artigo discutido neste post e outros trabalhos sobre engajamento e eficiência de voluntários em projetos científicos serão apresentados ainda no primeiro trimestre deste ano. A data e horário serão posteriormente definidos e divulgados aqui no blog.

segunda-feira, 17 de junho de 2013

Uma nuvem privada oportunista para execução de aplicações Bag-of-Tasks

Este trabalho é o resultado de pesquisa e desenvolvimento realizado no LSD por Abmar Barros, Patrícia Alanis, Francisco Brasileiro e Marcos Nóbrega. Foi publicado no XXXI Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC 2013).

Atualmente a Computação na Nuvem (Cloud Computing) é um dos principais paradigmas da computação, no qual recursos computacionais são oferecidos como serviços. Considerando o modelo de Infraestrutura como Serviço (IaaS), motivações distintas levam o usuário a utilizar nuvens públicas, onde solicita máquinas, redes e armazenamento sob demanda de provedores, ou implantar uma nuvem privada, que requer um investimento em infraestrutura para a aquisição de datacenters próprios e faz sentido para aplicações corporativas que necessitam de uma alta garantia do serviço. Existem classes de aplicações que se beneficiariam de uma infraestrutura não dedicada de nuvem, que é o caso de aplicações BoT (Bag-of-Tasks), que são aplicações paralelas que as tarefas são independentes entre si.

O paradigma de nuvens públicas, que oferece baixa QoS, não encontra uma analogia no cenário típico de implantação de nuvem privada. Além disso, os usuários finais, de uma forma geral, não estão acostumados com a interface da nuvem, que, a priori, se resume a uma coleção de instâncias com acesso SSH.

Este trabalho apresenta uma abordagem baseada em uma nuvem privada utilizando o software Eucalyptus, porém de uma forma oportunista, que permite descobrir e utilizar recursos ociosos que pertencem a uma infraestrutura física local, para isso reimplementamos o Node Controller (NC), um componente responsável por executar ações sobre os recursos físicos, que em sua implementação original limita o uso para os hipervisores XEN e KVM, e impõe uma série de requisitos de sistema para sua implantação que em um ambiente heterogêneo se torna inviável. O componente foi reimplementado em Java, uma vez que este dependeria apenas de uma JVM, e utiiliza o VirtualBox como hipervisor, já que seus executáveis estão disponíveis para uma série de sistema operacionais (Linux, Windows e MacOS) e não têm requisitos de hardware. A figura a seguir apresenta a arquitetura do NC oportunista apresentado neste trabalho.

O segundo problema citado refere-se a dificuldade de adaptação de usuários finais com a interface de nuvem, e para viabilizar a utilização da nuvem oportunista por pesquisadores de diferentes áreas, este trabalho apresenta um broker de nuvem, capaz de executar aplicações BoT na nuvem de forma transparente. A arquitetura do broker é constituída por dois componentes: o broker deamon, uma aplicação REST que executa em segundo plano e é responsável por escalonar tarefas, requisitar instâncias, transferir arquivos e executar comandos, e o broker client, uma interface onde o usuário pode submeter tarefas e recuperar informações de estados. A figura a seguir mostra um exemplo de aplicação BoT que pode ser submetida ao broker.

Para mais detalhes sobre a arquitetura da solução, e sobre o funcionamento do broker de nuvem veja o nosso artigo Uma nuvem privada oportunista para execução de aplicações Bag-of-Tasks.

quarta-feira, 5 de junho de 2013

Estratégias de Obtenção de um Item Máximo em Computação por Humanos

Este trabalho foi publicado no XXXI Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC 2013). É resultado da pesquisa de Iniciação Científica de Jeymisson Oliveira, desenvolvida com o auxílio de Lesandro Ponciano, Nazareno Andrade e Francisco Brasileiro.

Existem problemas que não são bem resolvidos com os sistemas computacionais atuais, por exemplo, encontrar onde está o wally na imagem abaixo é uma tarefa que não é resolvida de forma satisfatória (em termos de tempo e precisão) por computadores. Sistemas de computação por humanos tratam justamente desses problemas e visam orquestrar o trabalho de um grupo de trabalhadores com o objetivo de resolver um problema que não poderia ser resolvido de forma satisfatória com os sistemas computacionais atuais.

Dentre os diversos problemas que a computação por humanos lida um problema bastante comum é a escolha de um item máximo. Como, por exemplo, a escolha de uma melhor tradução em um conjunto de traduções candidatas. Esse problema torna-se mais complexo na medida em que a quantidade de frases aumenta. A solução mais simples para esse problema é comparar todos os candidatos e o candidato que for dito como máximo no maior número das comparações que participou é o item máximo. O problema dessa solução é que à medida em que os itens candidatos aumentam, são necessárias muitas comparações para se obter o item máximo.

O objetivo do nosso trabalho é tornar mais eficiente em termos de quantidade de tarefas necessárias para a obtenção do item máximo. Para isso nós propomos uma estratégia de eliminação múltipla de itens candidatos que objetiva eliminar múltiplos itens candidatos em uma comparação e com isso reduzir a quantidade de comparações necessárias para se obter o item máximo.

Quantidade de tarefas para se obter o item máximo

Economia de tarefas com eliminação múltipla

Para avaliar os benefícios da estratégia de eliminação múltipla nós analisamos três algoritmos de obtenção de um item máximo existentes na literatura, o Tournament Selection(TS), 2-Max, e Tournament Max, e modelamos a quantidade de tarefas necessárias para a obtenção de um item máximo com a estratégia e sem a estratégia de eliminação múltipla. Nesse caso obtivemos a quantidade de tarefas necessárias para se obter o item máximo para cada um dos algoritmos 2-Max, TM e TS, e a quantidade de tarefas necessárias com os algoritmos modificados 2-Max2 e TM2 para utilizarem a estratégia de eliminação múltipla. Portanto pudemos observar que a economia obtida com relação ao número de tarefas quando utilizamos o algoritmo modificado 2-max2 no lugar do algoritmo do estado da arte 2-Max chega à níveis maiores que 50% à medida em que o número de itens candidatos |S| aumenta.

Por fim para avaliar a utilização da estratégia de eliminação múltipla, nós desenvolvemos uma aplicação de obtenção de um item máximo que foi realizada por 108 trabalhadores, e possuía 520 comparações. Cada comparação deveria ser realizada no mínimo 3 vezes. Nessa aplicação os trabalhadores deveriam selecionar qual das imagens possui a grade vermelha que melhor se encaixa entre as linhas e colunas das tabelas ou optar pela utilização da eliminação múltipla selecionando um botão que eliminaria as duas imagens. Com os resultados desse experimento, pudemos concluir que os trabalhadores convergem com relação à utilização da eliminação múltipla quando os itens não se adequam como item máximo (grades vermelhas que não se encaixam de maneira alguma entre as linhas e colunas das tabelas) e que eles também convergem em escolher um dos itens quando ele atende aos requisitos de um item máximo. Portanto há evidências de que a estratégia de eliminação múltipla proposta além de gerar uma economia com relação a quantidade de tarefas necessárias não insere erros na computação de obtenção de um item máximo.

A aplicação utilizada para experimento nesse trabalho está acessível aqui. Para mais detalhes veja nosso artigo Estratégias de Obtenção de um Item Máximo em Computação por Humanos.

terça-feira, 21 de maio de 2013

Planejamento de Capacidade a Longo Prazo Dirigido por Métricas de Negócio para Aplicações SaaS

Este artigo é resultado da pesquisa de mestrado de David Candeia, com a colaboração da professora Dra. Raquel Lopes e de Ricardo Araújo. O artigo foi recentemente publicado no XXXI Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC 2013). A seguir, um resumo do trabalho:

No universo de Gerência de Recursos existe uma atividade estratégica de planejamento denominada de Planejamento de Capacidade. Esta atividade considera previsões de uma carga de trabalho futura de modo a estimar a quantidade de recursos computacionais que é necessária para atender esta demanda. De acordo com a duração do intervalo de tempo que se está planejando o artigo considera dois tipos de planejamento de capacidade: um planejamento de curto prazo (também denominado de Provisão Dinâmica de Recursos) busca estimar a quantidade de recursos computacionais (ou instâncias de máquinas virtuais) necessária em um curto intervalo de tempo (e.g. uma hora); um planejamento de longo prazo busca estimar a quantidade de recursos computacionais necessária em um longo intervalo de tempo (e.g. um ano).

O planejamento de capacidade no ambiente de Computação na Nuvem se faz necessário uma vez que provedores de Infraestrutura como Serviço (i.e. provedores de IaaS) oferecem instâncias de máquinas virtuais em diferentes mercados, dos quais consideramos dois: o mercado sob demanda, no qual instâncias podem ser obtidas no momento em que forem necessárias sem uma garantia de que o pedido por estas instâncias será atendido; o mercado de reserva, no qual instâncias podem ser reservadas com antecedência (e.g., 1 ou 3 anos) e com uma garantia por parte do provedor de IaaS que tais instâncias estarão disponíveis sempre que forem requisitadas. Com a existência do mercado de reserva o planejamento de capacidade a longo prazo é responsável por determinar a quantidade de instâncias que devem ser reservadas.

Nós consideramos o cenário no qual um provedor de Software como Serviço (SaaS) monta sua infraestrutura computacional adquirindo instâncias de máquinas virtuais junto a provedores de Infraestrutura como Serviço. Neste cenário, avaliamos duas heurísticas de planejamento de capacidade a longo prazo considerando o impacto que cada uma destas heurísticas tem no lucro de um provedor de SaaS. A busca pela melhor heurística de planejamento, bem como o aperfeiçoamento das heurísticas avaliadas, fazem parte das próximas etapas do trabalho. As duas heurísticas avaliadas foram:

Heurística baseada em Rede de Filas (RF) - esta heurística faz uso de conceitos de Teoria das Filas (e.g., taxa média de chegada, tempo médio de serviço) para estimar a quantidade de instâncias necessária para processar a carga de trabalho estimada. De posse da quantidade de instâncias estimada, RF avalia qual reserva de recursos fornece o maior lucro para o provedor de SaaS e implementa esta reserva.
Heurística baseada em Taxa de Utilização (UT) - esta heurística simula a execução da carga de trabalho estimada utilizando apenas recursos obtidos no mercado sob demanda. Após a simulação, UT calcula a taxa de utilização de cada instância utilizada na simulação e considera que as instâncias que apresentaram uma taxa de utilização superior ao limiar definido pelos preços das instâncias no provedor de IaaS deveriam ter sido reservadas.

As heurísticas acima foram avaliadas através de simulações e foram comparadas com três estratégias de referência: uma estratégia que não realiza reserva de recursos (ON), utilizando apenas recursos do mercado sob demanda; uma estratégia que realiza superprovisionamento da infraestrutura (SUPER); uma estratégia ótima (OP) que conhece o futuro e implanta o melhor plano de reserva possível.

Avaliando os resultados dos testes estatísticos realizados podemos concluir (com um nível de 95% de confiança) que as heurísticas RF e UT fazem com que o provedor de SaaS obtenha um lucro maior do que o lucro que seria obtido usando as estratégias ON e SUPER. A Figura 1 nos apresenta a variação no lucro do provedor de SaaS (métrica denominada de ganho em nosso trabalho) ao utilizar as heurísticas/estratégias RF, UT e SUPER em relação à estratégia ON .

Inicialmente percebemos que superprovisionar a infraestrutura reduziu consideravelmente o lucro do provedor de SaaS, logo seria mais vantajoso para o provedor não ter realizado um planejamento de longo prazo. Para as heurísticas RF e UT, apesar do ganho apresentar valores baixos (em torno de 7% para RF no melhor cenário) é importante destacar que financeiramente este valor é mais significativo quão maior for a receita do provedor de SaaS. Além disso, a estratégia OP apresenta um ganho em torno de 11%, demonstrando que existe margem para melhoria e aperfeiçoamento das heurísticas avaliadas no artigo.

Realizamos, ainda, uma análise de sensibilidade com o fator denominado de erro de predição, que indica um erro na estimativa da quantidade de clientes de SaaS que compõe a carga de trabalho. Foram utilizados 7 níveis para este fator e analisando os resultados apresentados na Figura 2 percebemos que:

Quando a quantidade de clientes de SaaS é subestimada (e.g., a carga real possui 100 clientes e a carga prevista possui 80) a heurística UT apresenta os melhores resultados.
Quando a quantidade de clientes de SaaS é superestimada (e.g., a carga real possui 100 clientes e a carga prevista possui 120) a heurística RF apresenta os melhores resultados.

Logo, as principais conclusões deste trabalho para o escopo avaliado foram:

Não se deve superprovisionar uma infraestrutura de TI dado que o superprovisionamento pode ser mais deficitário que não realizar um planejamento de capacidade a longo prazo. Além disso, heurísticas cujas tomadas de decisão são relativamente simples permitem ganhos em torno de 3.77% para RF e de 3.19% para UT.
O erro de predição da carga de trabalho influencia fortemente os ganhos que podem ser obtidos ao se utilizar uma das heurísticas de planejamento de capacidade avaliadas. Além disso, o erro de predição influencia na escolha de qual a melhor heurística a ser utilizada.

Para mais detalhes, veja nosso artigo "Planejamento de Capacidade a Longo Prazo Dirigido por Métricas de Negócio para Aplicações SaaS."

Autoflex: Service Agnostic Auto-scaling Framework for IaaS Deployment Models

Este trabalho é resultado da pesquisa de mestrado realizada por Fábio Morais, decorrente de uma cooperação entre o Laboratório de Sistemas Distribuídos (LSD) da UFCG e a Hewlett-Packard (HP). Essa pesquisa contou com a parcipação de Fábio Morais, Francisco Brasileiro, Raquel Lopes, Ricardo Santos (representantes do LSD), Wade Satterfield (HP Fort Collins) e Leandro Rosa (HP Brasil). Uma versão resumida desse trabalho de mestrado foi publicada no 13th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid 2013), realizado na cidade de Delft, Holanda.

Figura 1. Variação de carga de utilização no tempo.

O trabalho concentra-se no cenário atual do paradigma de Computação na Nuvem, que corresponde, em essência, na provisão de Tecnologia da Informação (TI) como serviço. Esse paradigma carrega consigo o conceito de elasticidade, que consiste na provisão de recursos computacionais sob demanda. A elasticidade é uma das principais propriedades usadas na redução de custos derivados da execução de serviços em ambientes de Infraestrutura como Serviço (IaaS). No entanto, essa propriedade só pode ser inteiramente explorada se os clientes dos serviços de IaaS forem capazes de estimar futuras demandas de suas aplicações no curto prazo, de forma que apenas a infraestrutura necessária para manter as aplicações seja requisitada a cada instante de tempo. Deste modo, os acordos de nível de serviço (SLAs) firmados entre o cliente do serviço de IaaS e os usuários de suas aplicações são sempre honrados e o super provisionamento é evitado. No entanto, para aplicações que apresentam grandes variações de carga de utilização essa atividade de provisionamento torna-se uma tarefa não trivial. Um exemplo de aplicação com intensa variação de carga pode ser observado na Figura 1.

Figura 2. Abordagem de provisionamento reativo.

A técnica de provisionamento automático consiste no processo de modificar automaticamente a quantidade de recursos disponíveis para manter e executar uma aplicação em um ambiente de IaaS, dependendo da demanda da aplicação. O mercado de Computação na Nuvem apresenta soluções de provisionamento automático que utilizam abordagens reativas, que em geral não conseguem evitar violações de SLO e que por consequência são insuficientes para minimizar os custos de quebras de SLA, embora possam reduzir os custos do super provisionamento. Um exemplo do comportamento do provisionamento reativo pode ser observado na Figura 2. Para reduzir os custos devido a violações de SLA são necessárias abordagens proativas.

O trabalho desenvolvido propõe um framework para provisionamento automático de recursos não intrusivo, ou seja, que não necessita de informações específicas da aplicação, apenas informações de utilização de recursos no nível de máquina virtual. O framework realiza o provisionamento a partir das abordagens reativa e proativa, baseadas no uso de um conjunto configurável de preditores de demandas dos serviços, além de usar um mecanismo de seleção que decide, periodicamente, o melhor preditor a ser usado. Também é proposta uma nova maneira de corrigir predições subestimadas, reduzindo por consequência o número de violações de SLO.

O framework proposto foi avaliado através de simulações baseadas em traces de utilização de aplicações em produção de clientes da HP. Os resultados evidenciam o trade-off entre redução de custo e garantias de qualidade de serviço (QoS), uma vez que a configuração do framework pode priorizar redução de custo ou manutenção de QoS. Esse trade-off pode ser observado em maiores detalhes na Figura 3. Através de configurações mais conservadoras (C8) foi possível obter uma economia de até 37% em relação ao cenário super provido, enquanto a probabilidade de quebra de SLO é mantida em média em 0,008% e limitada superiormente a 0,036%.

Figura 3. Trade-off entre redução de custo e garantias de QoS.

Além do mais, a flexibilidade do framework permite que, através da utilização de diferentes configurações, seja possível alcançar economias adicionais apenas com um pequeno aumento no número de violações de SLO.

quinta-feira, 4 de abril de 2013

LSD no SBRC 2013

O Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC) é o principal evento brasileiro na área de Sistemas Distribuídos e Sistemas. A edição deste ano acontecerá em Brasília, em maio, e o LSD orgulhosamente participará com 6 artigos elaborados com diversos parceiros. Segue abaixo a lista. Parabéns aos autores!

Na Trilha Principal:

Estratégias de Obtenção de um Item Máximo em Computação por Humanos
Jeymisson Barreto e Oliveira, Lesandro Ponciano, Nazareno Andrade, Francisco Brasileiro

Planejamento de Capacidade a Longo Prazo Dirigido por Métricas de Negócio para Aplicações SaaS
David Candeia, Raquel Lopes, Ricardo Araújo Santos

Um Arcabouço Para Provisionamento Automático de Recursos em Provedores de IaaS Independente do Tipo de Aplicação
Fabio Morais, Francisco Brasileiro, Raquel Lopes, Ricardo Araújo Santos, Augusto Macedo (UFCG), Wade Satterfield (HP labs), Leandro Rosa (Hewlett-Packard, Brazil Lab).

Sobre o Uso de Dispositivos de Alta Granularidade, Alta Volatilidade e Alta Dispersão em Just in Time Clouds
Rostand Costa, Diénert Vieira, (UFPB) Francisco Brasileiro (UFCG) Dênio Mariz Sousa IFPB,
Guido Lemos Filho (UFPB)

No Salão de ferramentas:

Uma nuvem privada oportunista para execução de aplicações Bag-of-Tasks
Patricia Alanis, Abmar Barros, Marcos Nóbrega, Francisco Brasileiro (UFCG)

Just-in-Time Clouds: Uma abordagem para Federação de Clouds PrivadasEdigley Fraga, Jonathan Brilhante, Rostand Costa, Francisco Brasileiro, Marco Spohn, Reinaldo Gomes, Universidade Federal de Campina Grande
Pedro Bignatto, Diego Desani, Hermes Senger, Universidade Federal de São Carlos
Airton Pereira, Vinícius Garcia, Universidade Federal de Pernambuco
Fernando Trinta, Universidade Federal do Ceará
Ana Cristina Oliveira, Henryson Chagas, Aleciano Ferreira, Instituto Federal de Ensino, Ciência e Tecnologia da Paraíba
Philippe Navaux, Eduardo Roloff, Otávio Carvalho, Universidade Federal do Rio Grande do Sul
Raimundo Macêdo, Alírio Sá, Universidade Federal da Bahia

segunda-feira, 18 de março de 2013

Contributor Profiles, their Dynamics, and their Importance in Five Q&A Sites

Este artigo foi desenvolvido no mestrado de Adabriand Furtado, com a participação de Nazareno Andrade, Nigini Oliveira e Francisco Brasileiro, e foi recentemente publicado na conferência Computer Supported Cooperative Work (CSCW '13), da ACM. A seguir, um resumo do trabalho:

Sites de perguntas e respostas (Q&A) têm se mostrado um recurso valioso em ajudar pessoas a resolverem seus problemas do dia-a-dia. Atualmente, os sites Yahoo! Answers e StackOverflow têm atraído números massivos de contribuidores voluntários para trocar conhecimento através de atividades como criar perguntas, respostas, comentários e avaliar o conteúdo gerado.

Como efeito do tamanho considerável destas comunidades, é de se esperar que contribuidores nestes sites exibam comportamentos diversos na criação de conteúdo – seja dando preferência à criação de um determinado tipo de contribuição (e.g. somente respostas) ou demostrando alguma habilidade em criar conteúdo. Nosso trabalho foca em analisar a diversidade de comportamento dos contribuidores em sites de Q&A. Entender como cada tipo de contribuidor colabora para o funcionamento de sistemas de Q&A ajuda a gerenciar estes sites. Por exemplo, este conhecimento pode informar o desenvolvimento de estratégias para promover ou inibir certos comportamentos na comunidade.

Página de uma pergunta no site de Q&A Super User

Para examinar o comportamento típico dos contribuidores nestes sites, utilizamos dados históricos de cinco sites da plataforma de Q&A Stack Exchange – Super User, Server Fault, Programmers, Ask Ubuntu e Mathematics – e derivamos um conjunto de perfis que descrevem a motivação e habilidade dos contribuidores em perspectivas de longo e curto prazo. Na perspectiva de longo prazo, aplicamos a análise de agrupamento nos dados completos de atividade dos usuários. Esta análise revelou dez perfis comportamentais, os quais foram resumidos em quatro tipos:

Sem habilidade marcante, usuários de baixa a média atividade e habilidade;

Imperitos, usuários com contribuições mal avaliadas;

Experts, contribuidores hábeis em realizar um tipo de atividade; e

Ativistas, contribuidores de alta atividade.

Curiosamente, experts e contribuidores de alta atividade formam grupos disjuntos em nossos resultados. Mecanismos de alocação de tarefas podem se beneficiar desta evidência, direcionando experts para responder respostas difíceis, ou uma combinação de experts e ativistas para aumentar as chances de obter uma resposta rapidamente.

Usando estes perfis, analisamos a composição dos sites e observamos que as distribuições dos perfis são notavelmente semelhantes nos cinco sites. Além disso, observamos que imperito em respostas é o segundo perfil mais comum nestes sites. Este dado indica a necessidade de oferecer orientação a estes usuários para melhorar a qualidade de suas contribuições.

Distribuição dos perfis de contribuidor nas cinco comunidades

Ainda na análise de perfis de longo prazo, examinamos o papel de cada perfil na produção de conteúdo para os sites. Esta caracterização descreve ativistas e contribuidores sem habilidade marcante produzindo a maioria das contribuições em todos os cinco sites, enquanto que experts e imperitos coletivamente produzem uma fração pequena das contribuições. Observar que experts são de pequena importância para a criação de conteúdo pode motivar os gerentes destes sites a buscarem meios para promover a participação destes usuários.

Na perspectiva de perfis de curto prazo, nossa análise objetiva entender como o comportamento dos contribuidores e propriedades estruturais do site mudam ao longo do tempo. Para tal, selecionamos o maior dos cinco sites estudados, o Super User, e conduzimos uma versão longitudinal da nossa análise em seus dados históricos. Os perfis descobertos nesta análise de agrupamento, considerando janelas de 2 meses, são notavelmente similares aos perfis encontrados na análise usando toda a atividade do site.

Usando a categorização dos perfis em cada janela, examinamos a evolução da distribuição dos perfis no Super User e identificamos que sua composição é estável. Contudo, a análise de dinâmica dos perfis mostra que os usuários mudam de perfil com certa frequência. O resultado desta análise mostra que todos os perfis, exceto ativistas, tendem a mudar para perfis de menor atividade nas janelas seguintes. Além disso, usuários imperitos em respostas e experts tendem a abandonar a comunidade dentro de pouco tempo.

Por fim, nosso último experimento relacionado à dinâmica de comportamento compara a probabilidade de um usuário atuar de acordo com um dado perfil, caso este usuário seja novato ou experiente. Sem muita surpresa, esta análise aponta que novatos são mais propensos a atuar como imperitos em respostas, enquanto que usuários experientes tendem a atuar em perfis mais ativos. No entanto é interessante que usuários experientes não possuem uma maior chance de se comportar como experts. Isto sugere que experts agem como tal desde seu início no site, mas ativistas tendem a se desenvolver com o tempo.

Para mais detalhes, veja nosso artigo Contributor Profiles, their Dynamics, and their Importance in Five Q&A Sites.