Wikipédia:Projetos/Wikipédia/Reuniões/Reunião IRC 16-02-2013

As primeiras falas da reunião se perderam pois o log não estava ligado.

<Alchimista> n sei se será fácil de portar, a ideia é que seja, mas pelo menos as ligações às bases de dados têm de ser alteradas

<everton137> Alchimista, eita

<HenriqueCrang> Alchimista, de onde veio esse informação que não será possível fazer joins no labs? isso de fato limitaria MUITO nossa atuação

<everton137> Alchimista, o script que estamos fazendo será facilmente portavel, segundo o Jonathan Morgan

<Ocastro> Acabo de ver um protótipo de resposta à minha pergunta: https://labsconsole.wikimedia.org/wiki/Help:Move_your_bot_to_Labs

<Alchimista> já foram trocados mtos mails o ano passado, a coisa ficou acesa, com um conflito silencioso entre o labs e os gestores do ts

<Ocastro> Onde esses emails são trocados? na lista tech?

<Alchimista> a "alma" do ts, aquele que melhor conhece todo o sistema, esteve p abandonar a gestão do ts em dezembro, pq n há investimento, e o ts está a abarrotar pelas costuras

<Alchimista> pera, vou procurar os mails

<everton137> probably na do toolserver

<everton137> alias, Ocastro, recomendo entrar nessa lista e tb abrir uma conta no toolserver

<everton137> o DaB

<everton137> eu vi, Alchimista, foi um baita quebra pau :/

<Alchimista> só dão novas contas p mais uns dois ou três meses, p isso é aproveitar agora

<Ocastro> pode ser, penso na serventia

<Ocastro> sou uma analfabeta nisso

<Ocastro> Mas analfabetos tb aprendem assim, né?

<Alchimista> Ocastro: eu tb era no início, ninguém nasce ensinado :P

<Ocastro> Sim,

<Ocastro> então, parece que Jonas não conseguirá vir

<everton137> A todos: http://lists.wikimedia.org/pipermail/toolserver-l/2012-September/005275.html

<everton137> se acompanharem esse topico, verao o que ocorreu

<Alchimista> alguém consegue encontrar na net esta discussão entre mails: Re: [Toolserver-l] Future of the toolserver  ?

<everton137> é longo

<Alchimista> hehe, é isso ai everton

<Alchimista> essa é uma discussão entre membros do ts. dps tem mtas outras, na wikitech e labs

<Ocastro> Queria 1. Apresentar as pessoas; (isso será feito a cada reunião que aparecer alguém que ainda não os conheceu); 2) dizer um pouquinho do que queremos fazer; 3) ouvir de vcs ideias de como integrar o que já tem sido feito aos esforços e o que de novo precisa ser feito

<Alchimista> deixa só fazer uma pergunta antes. HenriqueCrang, sentes-te confortável com py?

<Ocastro> ((offtopic)) Sobre financiamento do toolserver, eu tentei doar e não consegui

<everton137> http://imasters.com.br/noticia/ja-estao-abertas-as-inscricoes-para-o-i-encontro-nacional-de-mulheres-na-tecnologia/

<Alchimista> everton137: sobre isso, podemos marcar tb algo pelo irc, mulheres a criar bots e tools

<HenriqueCrang> Alchimista yep

<everton137> Alchimista, boa, mas antes editar, que é mais facil rs

<everton137> :P

<Alchimista> :D

<Ocastro> Fiquem à vontade pra entrar na parte técnica - Alchimista e OTAVIO1981 querem dar fazer um apanhado do que já fizeram e no que têm trabalhado em termos de análise de dados?

<Ocastro> Algumas coisas o HenriqueCrang já viu, mas seria legal vocês falarem também. Eu mesma não vi tudo o que já fizeram

<Alchimista> bom, eu em termos públicos tenho isto: http://toolserver.org/~alchimista/wpstats/pagnovas.fcgi

<Alchimista> mas n está a ser actualizado, pq entretanto a bd da pt wikipédia teve problemas, só esta semana foram resolvidos, mas entretanto já surgiram novos problemas

<HenriqueCrang> quais tipos de problemas?

<Alchimista> dps têm um output cvs -> http://toolserver.org/~alchimista/wpstats/out.csv

<OTAVIO1981> As análises que fiz estão em algum canto da wikipédia.

<OTAVIO1981> Na minha PU e provavelmente na discussão do teste de reversores

<Alchimista> HenriqueCrang: o dump ficou corrompido, p exemplo, n tabela de onde estava a retirar esses dados, começaram a faltar dados. a utlima vez que verifiquei, poucos dados tinha a n ser os de 2012

<OTAVIO1981> pelo que me lembro a única informação que não foi disponibilizada foi um excel que o Rjclaudio compilou com mais dados

<OTAVIO1981> foi até útil pra mim, mas não sei se ele colocou na wiki

<Ocastro> OTAVIO1981, essa o HenriqueCrang com certeza viu, até usou durante a tarefa. E a linha do tempo feita pelo rjclaudio tb foi usada pelo Jonas ;-)

<OTAVIO1981> menos mal o arquivo circulou no e-mail e o Henrique recebeu

<OTAVIO1981> Sim, a linha do tempo eu mostrei pro jonas.

<OTAVIO1981> pq ele ia fazer algo muito parecido

<HenriqueCrang> Alchimista esse dump costuma ser atualizado com qual periodicidade?

<HenriqueCrang> OTAVIO1981, essa planilha? https://docs.google.com/spreadsheet/ccc?key=0Ana67p3_nCPVdDhkZUx0TUZzRUxTVmlPaVQ4TVRPV2c#gid=0

<Alchimista> instantâneamente, mas como deu o berro, teve de ser feito um novo dump, e recomeçar a sincronização

<OTAVIO1981> essa mesma

<Alchimista> HenriqueCrang: ^

<HenriqueCrang> Alchimista, e quem está cuidando disso é o povo do ts e nos resta apenas esperar ou podemos ajudar em algo?

<HenriqueCrang> OTAVIO1981, essa eu vi e fiz até alguns comentários lá na tarefa http://br.wikimedia.org/wiki/Usu%C3%A1rio:Crang115/tarefa

<OTAVIO1981> então...

<OTAVIO1981> depois disso não teve mais nada

<OTAVIO1981> o bloqueio por reversores foi aprovado sem nenhum resultado conclusivo.

<Alchimista> HenriqueCrang: creio que já foi actualizada. hoje esteve um pouco em baixo, pq foi actualizado um software qqr. mas é mantida pelos sysops do ts. Até porque é um sistema que foi sendo adaptado ás necessidades específicas, com o tempo deixou de ser algo padrão

<Ocastro> a essa altura, me diga se estiver errada, não vale a pena refazer um teste, certo?

<OTAVIO1981> acho que foi aprovado por causa do script que impede bloqueios indevidos de contas antigas ou com o prazo superior ao especificado.

<HenriqueCrang> OTAVIO1981 bem, espero que daqui pra frente possamos ter resultados mais claros :)

<OTAVIO1981> mas isto é outra história.

<HenriqueCrang> OTAVIO1981, caso seja de interesse geral da comunidade voltar a esse assunto, eu já rascunhei algumas formas de tentar olhar para o experimento com mais critério

<OTAVIO1981> acho difícil pq está aprovado e funcionando sem criar problemas

<HenriqueCrang> então vamos para o próximo assunto

<HenriqueCrang> :)

<Ocastro> é, me parece desnecessário em face e outras possíveis necessidades

<OTAVIO1981> mas fique a vontade para perguntar para a galera se conseguir uma informação nova que ajude...

<HenriqueCrang> sempre!

<Ocastro> Porque, a essa altura, me parece complexo refazer (teríamos que tirar de alguns e testar dois grupos - e isso o povo de tech da WMF diz que é super "perigoso" pro site)

<Ocastro> O Henrique pode contar um pouquinho do que pensamos e de nossas limitações e oportunidades

<HenriqueCrang> vamos lá

<HenriqueCrang> conversei com algumas pessoas do time nos EUA e eles se mostraram com experimentos que necessitem rodar no servidor de produção (exemplo: um javascript que divide pessoas entre grupo de teste e grupo de controle e exibe coisas diferentes)

<Ocastro> se mostraram preocupados

<HenriqueCrang> mas eles apontaram que costumam fazer isso na en.wiki , e que podemos "pegar carona" em experimentos que eles forem realizar por lá, e usarmos a mesma base de código homologada para rodar na pt.wiki

<HenriqueCrang> isso Ocastro , obrigado por achar minha palavra comida :)

<OTAVIO1981> mas os experimentos seria com os parametros que eles utilizam na en.wiki?

<HenriqueCrang> de modo geral, nós teremos acesso mais confortavel mesmo a dumps

<everton137> dumps do que? db da pt.wiki?

<HenriqueCrang> OTAVIO1981, pelo que eu entendi, seria com o mesmo código de obtenção de dados, mas imagino eu que possamos mudar parâmetros

<everton137> seria bom se pudessemos

<everton137> seria, nao, será

<OTAVIO1981> é um tanto limitado, mas com certeza uma opção.

<HenriqueCrang> eles tem receio de fazermos algo (seja atraves de extension, gadget, js) que crash a wp

<everton137> HenriqueCrang, esses JS estao online somewhere?

<everton137> é, cair a WP nao é nada bom

<HenriqueCrang> imagino que conforme nós incorparmos nosso trabalho de metrics, e mostrarmos que estamos organizados e fazendo as coisas corretamente possamos ganhar mais confiança deles e mais espaço

<HenriqueCrang> everton137, estão em uma wiki fechada. O Dario disse que deve ser aberto em breve

<everton137> acho que o trabalho do Jonas em construir o portal ajudará nisso

<everton137> HenriqueCrang, legal

<everton137> imagino (espero) que esteja fechado agora por causa de eventuais exploits de seguranca

<HenriqueCrang> maybe, ele não me falou o motivo

<Alchimista> jonas_agx: aproveitamos agora, já estive a dar algumas indicações ao HenriqueCrang, assim falamos todos

<jonas_agx> Alchimista: tudo bem. Na minha página de requisição no jira consta como Resolved

<jonas_agx> Alchimista: mas não recebi nenhuma notificação por email

<HenriqueCrang> eu tb nao recebi nenhuma mailnotification

<jonas_agx> Aqui está apágina: https://jira.toolserver.org/browse/ACCAPP-605

<Alchimista> deixem ver..

<Alchimista> Ocastro: consegues uma tabela com os dados de visualisações de páginas p localização tipo esse que mandas-te?

<Alchimista> tb dava um belo heat map p vermos a penetração da utilização da wp

<HenriqueCrang> Alchimista a principio teremos que desenvolver a pescaria dessas tabelas

<Alchimista> já tenho os vossos tickes como vigiados. entretanto n sei se disse aqui, mas normalmente demora um ou dois dias a poderem entrar normalmente, após receberem o mail

<Alchimista> HenriqueCrang: n temos acesso a esses dados. como os dados do squid contêm os ip's, são dados privados, e só em condições mto especiais entregam assim. normalment têm de anonimizar antes

<Ocastro> oi Alchimista, pageviews?

<Alchimista> jonas_agx: o canal do ts é este: #wikimedia-toolserver

<Ocastro> posso perguntar, mas duvido um pouco

<Ocastro> pedi ano passado tb, não fizeram

<jonas_agx> Alchimista: vc já conversou com o Diederik sobre esses dados -- ele me mostrou um canal de requisição desses dados para pesquisa

<Ocastro> e recentemente perguntei sobre tracking de acessos

<HenriqueCrang> Alchimista, esse é o tipo de dado que não podemos exibir o bruto

<Alchimista> Ocastro: sim, mas lá está, anonimizados. bastaria algo como a quantidade total de visualizações da pédia, p qnt de visualisações p cidade

<Ocastro> lá onde?

<Ocastro> ts?

<Alchimista> jonas_agx: mta burocracia, teria de pedir autorização, apresentar comprovativos de dados pessoas, cartas de intenções, descrição d análise...

<Alchimista> não, "lá está" é uma expressão usada em portugual, n sei qual o equivalente no br :S precisamos de um tradutor

<Ocastro> hahaha

<Alchimista> algo como "portanto" :P

<Ocastro> como o ja esta do espanhol?

<Alchimista> provavelmente sim :P

<HenriqueCrang> mas nós da equipe podemos tentar passar essa barreira da burocracia e conseguir fazer uma aplicação que gere uma API para acesso aos dados anonimizados

<jonas_agx> aprendi uma esses dias de Portugal: Parvo -- pra ingênuo

<Alchimista> é uma das aplicações jonas_agx :P

<jonas_agx> HenriqueCrang: usando cidade como menor grão

<Ocastro> pra você ter uma ideia, eu já pedi dados de acessos totais por dia e não consegui

<Alchimista> o problema é que anonimizar esses dados n é algo fácil, e tem inclusivé uma discussão sobre esses dados. o próprio wikistats tem sido posto em causa, pq tem um overload de contgens de bots

<Ocastro> queria saber de variações semanais

<Alchimista> Ocastro: isso temos acesso

<Ocastro> NO total?

<Alchimista> n é preciso ts nem nada, só n faço isso em casa pq é um bruto de um ficheiro

<Ocastro> sempre me mandam pra groks

<Alchimista> não, p página, dps só se tem de somar o total de todas as páginas

<Alchimista> e até é fácil fazer isso, o problema mesmo é que n há ficheiro de pageviews p projecto, vem tudo junto

<Ocastro> "só se tem de somar o total de todas as páginas" - o que não dá pra fazer com meus métodos manuais, creio ;-)

<jonas_agx> Alchimista: vc manipula esses dumps views?

<Alchimista> dá, se a Ocastro desejar passar uns 200 ou 300 anos XD

<Ocastro> vou pedir para o HenriqueCrang fazer um teste

<HenriqueCrang> lol

<HenriqueCrang> beleza, onde eu encontro essas stats?

<Alchimista> jonas_agx: não, já fiz umas pesquisas à uns tempos, mas nada de regular

<Alchimista> HenriqueCrang: http://dumps.wikimedia.org/other/pagecounts-ez/

<Alchimista> ou então: http://dumps.wikimedia.org/other/pagecounts-raw/

<Alchimista> mas HenriqueCrang, são, como ei de dizer.. mtos ficheiros, e enoooormes

<Alchimista> p exemplo, ficheiros raw só de fev: http://dumps.wikimedia.org/other/pagecounts-raw/2013/2013-02/

<Ocastro> dá pra pegar do dia 03 de fevereiro, só pra dar um exemplo?

<HenriqueCrang> estou olhando

<jonas_agx> Alchimista: Por falar em acesso, está sendo implementada uma forma de diferenciar acessos mobile, api

<Alchimista> Ocastro: sim, eu posso fazer um script p contar p ficheiro, se alguém conseguir fazer o download. ou tb se pode fazer no ts mesmo

<Alchimista> jonas_agx: sim, através da UA, tenho acompanhado essa discussão, bem interessante

<Alchimista> Ah, tb convém subscreveres a lista do ts: https://lists.wikimedia.org/mailman/listinfo/toolserver-l

<HenriqueCrang> UA?

<Alchimista> user-agent

<HenriqueCrang> thanks :)

<Alchimista> aquilo que dá p o servidor saber qual o browser, modelo...

<HenriqueCrang> yep

<Ocastro> gente, vou sair um pouco daqui. Estou com uma dor de garganta há dias e agora dor de cabeça tb. Vou repousar um pouco porque acabei de tomar um remédio e ainda há muito por fazer até meia noite ;-)

<Alchimista> leite quente com mel faz milagres

<jonas_agx> Ocastro: Até mais -- recomendo mel tbm.

<Alchimista> e se quiser Ocastro, a partir de segunda lembre-me que faço um script p ler os pageviews e fazer as contas p si

<jonas_agx> Alchimista: via TS?

<HenriqueCrang> melhoras Ocastro !

<Alchimista> jonas_agx: como for preciso. no ts havia quem estava a fazer o download desses ficheiros, tenho de ver se ainda o fazem, p n haver duplicados

<Alchimista> até pq temos espaço limitado na nossa /home pessoal, tem de ir p um espaço público

<jonas_agx> Alchimista: adoraria ajudar no script

<Alchimista> jonas_agx, HenriqueCrang, conhecem os multi-maintainer-projects no ts?

<jonas_agx> Não conheço

<HenriqueCrang> nops

<jonas_agx> São os clusters to TS?

<Alchimista> bom, como vão ver, o ts funciona como um pc pessoal, cada user tem o seu espaço como se fossem várias instalações linux no mesmo pc

<Alchimista> dps há os MMP, para projectos partilhados, onde o acesso é permitido aos membros do projecto. isso e o que nos pode ser mto útil

<Alchimista> https://wiki.toolserver.org/view/Multi-maintainer_projects

<jonas_agx> acaba funcionando com uma forma de daemon?

<HenriqueCrang> pode mesmo

<HenriqueCrang> Alchimista, o que achas do seguinte

<Alchimista> a parte dos mmp's só sei mesmo em teoria, mas presumo que sim

<HenriqueCrang> o script a cada N hora e 1 minutos acessa a página e baixa o gz

<HenriqueCrang> extrair o arquivo, faz parse nas linhas

<HenriqueCrang> adiciona as informações num bd

<HenriqueCrang> e deleta os arquivos

<Alchimista> algo assim mesmo

<jonas_agx> é, isso ajuda a criar daemons sem precisar de acesso root, pelo que parece

<Alchimista> se bem que tb pode é correr 1x p dia, assim corre qnd houver menos tráfego no ts

<HenriqueCrang> qt espaço cada usuario tem no ts?

<Alchimista> 258 mb de espaço pessoal

<Alchimista> mas há uma partição pública com teras livres, p ficheiros grandes

<jonas_agx> o TS me lembra o FreeShell

<jonas_agx> uma comunidade unix, com terminais para acesso livre, mantida por doações

<HenriqueCrang> então se usarmos essa partição não teremos problemas

<Alchimista> sim. geralmente enquanto se puder, deixa-se lá os ficheiros originais, p quem mais quiser usar n precisar de fazer o download

<HenriqueCrang> oq são os numeros nesse arquivo?

<HenriqueCrang> visitas no periodo e visitas total?

<Alchimista> visitas p hora. há um que dá as visitas p hora, p projecto

<Alchimista> e outro visitas p página, p hora

<HenriqueCrang> sem querer apertei alguma tecla de atalho que limpou meu historico

<HenriqueCrang> alguem pode colar as msgs enviadas depois de minha ultima, por favor?

<Alchimista> [21:41] <HenriqueCrang> oq são os numeros nesse arquivo?

<Alchimista> [21:41] <HenriqueCrang> visitas no periodo e visitas total?

<Alchimista> [21:42] <Alchimista> visitas p hora. há um que dá as visitas p hora, p projecto

<Alchimista> [21:43] <Alchimista> e outro visitas p página, p hora

<Alchimista> [21:43] <HenriqueCrang> sem querer apertei alguma tecla de atalho que limpou meu historico

<Alchimista> [21:43] <HenriqueCrang> alguem pode colar as msgs enviadas depois de minha ultima, por favor?

<HenriqueCrang> obrigado

<HenriqueCrang> o arquivo que estou vendo

<HenriqueCrang> para cada linha

<HenriqueCrang> tem 2 numeros ao final

<HenriqueCrang> um pequeno, que imagino ser as visitas por hora

<HenriqueCrang> e um maior

<Alchimista> http://dumps.wikimedia.org/other/pagecounts-ez/projectcounts/readme.txt

<HenriqueCrang> agradecido

<HenriqueCrang> :)

<Alchimista> ou este: http://dumps.wikimedia.org/other/pagecounts-raw/

<Alchimista> dependendo de onde tiras-te

<HenriqueCrang> do segundo

<HenriqueCrang> The first entry in a line is the project name, the second is the number of non-unique views, and the third is the total number of bytes transferred.

<HenriqueCrang> o ultimo numero é total de bytes transferidos

<HenriqueCrang> não sei se para nós essa informação seria relevante

<Alchimista> estás a ver no pagecounts-raw?

<HenriqueCrang> sim

<jonas_agx> HenriqueCrang: essa informação do tamanho da página pode ser encontrada pela API, se não me engano

<HenriqueCrang> sim

<Alchimista> ah, está no final da página. mas tem +info esses ficheiros

<HenriqueCrang> estou pensando aqui que para nosso proposito nao seja necessario armazena-la

<Alchimista> jonas_agx: com conta no ts, a API pode ser posta de lado :P

<HenriqueCrang> o ficheiro que baixei tem apenas essas informações que colei

<HenriqueCrang> verei o que tem nos outros

<jonas_agx> Alchimista: eu imagino, eu penso em traduzir o manual da API para pt

<jonas_agx> acho que uma parte dele já foi

<Alchimista> jonas_agx: http://www.mediawiki.org/wiki/Manual:Page_table

<jonas_agx> Alchimista: ah conheço bem essas tabelas

<Alchimista> tendo a bd disponível, é sempre preferível a usar a API, assim poupa-se esforçar mais os servidores

<Alchimista> então estás à vontade, só n tens a tabela que contêm os textos dos artigos

<Alchimista> no ts: https://wiki.toolserver.org/view/Database_schema

<jonas_agx> Alchimista: a tabela que mais usei foi revision, é uma das que mais cresce

<jonas_agx> Alchimista: gostei dessa página sobre as tabelas, no TS

<Alchimista> jonas_agx: antes usava a recent_changes, mas como foi uma das afectadas e perdeu dados, passei a usar a revision

<Alchimista> aliás, a tool que estou a fazer já usa a revision: http://toolserver.org/~alchimista/test/ts.fcgi/oi?name=Alchimista&output=json

<HenriqueCrang> Alchimista, no toolserver podemos criar nossa própria base de dados?

<Alchimista> está algo abandalhado, mas estive a testar o bottlepy, e a tool serviu de teste mesmo hehe

<astroo-> jonas_agx HenriqueCrang ola

<Alchimista> HenriqueCrang: sim, há a possíbilidade de criar bd's pessoais

<HenriqueCrang> então pessoal, acho que podemos com certa facilidade pegar os dados de http://dumps.wikimedia.org/other/pagecounts-raw/ e criar uma interface de facil geração de graficos

<Alchimista> algum de vcs tem facilidade em desenvolver apps em js?

<HenriqueCrang> podemos deixar um daemon rodando no ts?

<jonas_agx> HenriqueCrang: mas o que faria esse app?

<HenriqueCrang> não mexo com js tem uns anos , mas sempre há tempo para voltar

<HenriqueCrang> jonas_agx, a ideia é a seguinte:

<Alchimista> daemon? o que pretendias com o daemon?

<jonas_agx> Alchimista: daemon é um serviço contínuo, rodando enquanto o OS roda

<jonas_agx> Alchimista: é isso?

<Alchimista> jonas_agx: sim, eu sei, mas depende sempre da finalidade e do daemon que for

<HenriqueCrang> um daemon que a cada N hora e 1 minuto, com N variando de 0 a 23, acessa o último arquivo gz postado com dados da ultima hora, descompacta, abre o arquivo texto, para cada linha que inicie com pt ele faz um insert num bd local, ao final dos inserts ele apaga o arquivo texto e o arquivo gz

<jonas_agx> Alchimista: ah sim, pelo que entendi a ideia é deixar uma visualização contínua dos acessos, na forma de gráficos

<HenriqueCrang> esse cara ficaria apenas alimentando essa base

<HenriqueCrang> em paralelo, fariamos um serviço web que acesso esse banco local e gera visualização dos dados

<jonas_agx> HenriqueCrang: qual a diferença disso para um Grok?

<jonas_agx> http://stats.grok.se/en/201302/Recife

<HenriqueCrang> existe grok com somatório da pt.wiki ?

<jonas_agx> O Grok oferece inclusive acesso ao json "bruto" com os http://stats.grok.se/json/pt/201302/Recife

<jonas_agx> com gráficos:http://stats.grok.se/pt/201302/Recife

<jonas_agx> Somatório diário

<HenriqueCrang> digo, acesso de todos os artigos somados

<Alchimista> Ah, p isso usa-se o SGE. programa-se p correr de x em x tempo

<jonas_agx> Isso pode esr feito usando a interface do Grok

<jonas_agx> vc quer dizer somar o acesso de todos os artigos da wp?

<Alchimista> jonas_agx: o problema é que seria uma carga extra p esse site, havendo a oportunidade de sacar directo os dados, é capaz de ser melhor

<HenriqueCrang> isso

<Alchimista> ao usar o ts, uma das regras é n sobrecarregar páginas externas

<Alchimista> nem se pode sequer, p exemplo, carregar partes de outros sites, como no caso de .js, usar o raw do site do script

<Alchimista> ui, agora ao ler a conversa, constacto que a Oona ainda tem um ataque de pánico se se puser a ler o que perdeu XD

<HenriqueCrang> haha, que nada. ela ficará é muito feliz de ver que o relatório que ela queria está a caminho

<Alchimista> HenriqueCrang: o que precisavas era disto: https://wiki.toolserver.org/view/Job_scheduling

<Alchimista> pegaram n cronie, fizeram uns hacks, e está uma beleza

<HenriqueCrang> perfeito

<HenriqueCrang> ainda tenho muito a aprender sobre o ts

<Alchimista> e dá p escolher p exemplo, o tempo máximo que o script pode correr, alocar a memória virtual máxima...

<HenriqueCrang> jonas_agx, quando eu listei o que o script tem que fazer esqueci de escrever "somar todas as entradas de cada wiki" antes de fazer o insert

<jonas_agx> HenriqueCrang: certo, então a ideia é criar um contador de acessos para toda a PT WP

<HenriqueCrang> acho que era disso que a oona falava inicialmente, não?

<HenriqueCrang> posso ter me enganado tb

<Alchimista> já há alguma página p coordenar as tarefas?

<HenriqueCrang> ainda não. essa é a primeira missão do jonas_agx!

<HenriqueCrang> mas podemos criar algo no meta para ir usando enquanto isso

<jonas_agx> Acho interessante avaliar isso ao longo do tempo, até porque por hora dá um treco tipo 3 trintrilhões de views

<Alchimista> ainda bem, é que detesto escrever docs XD

<HenriqueCrang> jonas_agx, como assim?

<jonas_agx> ah sim, eu vou postar as coisas no meta

<jonas_agx> Alchimista: prefiro Pad

<HenriqueCrang> inicialmente acho que a oona queria em daily basis, mas como os dados que temos acesso estão por hora, podemos levar essa informação

<jonas_agx> HenriqueCrang: falo da escala de acessos ao site da WP, um somatório disso dá um número astronômico

<HenriqueCrang> mas tb podemos programar para que todo dia após a meia noite seja realizada uma diaria, e esse valor seja inserido no banco de forma que não o sobrecarreguemos a cada nova consulta

<jonas_agx> Sendo um valor diário, podemos trabalhar a cada 24horas

<jonas_agx> rodando o script

<HenriqueCrang> jonas_agx, mas esse números "astronômicos" podem variar bastante, e é isso que queremos ver!

<HenriqueCrang> mas ai script vai ter que baixar 24 arquivos de uma vez

<HenriqueCrang> se os arquivos são disponibilizados de hora em hora, pq não importá-los logo?

<jonas_agx> HenriqueCrang: sim, é disso que tava falando, isso ao longo do tempo pode ser intersante

<jonas_agx> interessante*

<HenriqueCrang> essa é ideia! :D

<HenriqueCrang> alias, podemos ter que fazer um script que vá atras do legado, baixando dados do passado e jogando em nosso bf

<HenriqueCrang> bd

<Alchimista> HenriqueCrang: é capaz de dar mais problemas, pq ai é preciso então o script verificar sempre se os dumps anteriores já foram tratados

<Alchimista> como disse anteriormente, o ts n é propriamente um *production system*, tem alturas em que algo dá o berro

<jonas_agx> Podemos definir um início do tempo, a partir do qual contruímos nossa série temporal

<HenriqueCrang> não sempre, esse seria feito em separado com outra lógica

<HenriqueCrang> pensei em 2 script, o que vai atualizando

<HenriqueCrang> e um que vai atras do legado

<HenriqueCrang> e depois morre

<Alchimista> jonas_agx: eu sugiro que numa primeira fase, se trate de fazer a recolha e tratamento dos dados diários, e dps pega-se num dump anual, e saca-se a info anterior

<Alchimista> HenriqueCrang: aliás, pode-se usar o que estava a pensar p o projecto que eu estava a fazer, o script começa na bd, verifica qual a última hora que foi actualizada, e parte dai

<Alchimista> ai já n precisa de uma segunda ronda, p verificar se tudo foi tratado

<HenriqueCrang> boa lógica

<jonas_agx> Alchimista: sim, até porque essa serie leva tempo para ser processada

<Alchimista> e se escapar um dia, n próxima vez que rodar, será a primeira a ser processada

<HenriqueCrang> resolve problemas que poderiam advir de paralização no Job_scheduling

<HenriqueCrang> isso

<Alchimista> mas eu iria mesmo p rodar uma só vez p dia, marcar p ele rodar as 2.30 n quer dizer que ele rode mesmo ás 2.30

<HenriqueCrang> temos que ver quanto ele irá impactar na máquina virtual

<HenriqueCrang> mas é bom que já temos 2 possíveis arquiteturas para se adequar ao melhor cenário

<Alchimista> e corrigam-me se n estou enganado, mas bastaria fazer o download 1x p dia deste ficheiro: http://dumps.wikimedia.org/other/pagecounts-ez/projectcounts/

<Alchimista> no caso deste ano, fazer o download do projectcounts-2013.tar todos os dias

<jonas_agx> Isso pode funcionar, será uma carga maior, mas apenas uma vez

<Alchimista> pelo que se vê ai, um ano inteiro anda inferior a 200 M, se formos pelos outros, os valores são similares

<HenriqueCrang> mas isso é apenas dos projectos, não?

<Alchimista> apesar de ser sempre o mesmo ficheiro, mesmo que se opte pelo http://dumps.wikimedia.org/other/pagecounts-raw/2013/2013-02/ , o project ocupa menos espaço

<Alchimista> sim HenriqueCrang, só p cada projecto

<Alchimista> tb estavam a pensar p páginas?

<HenriqueCrang> realmente

<HenriqueCrang> para o objetivo final

<HenriqueCrang> nao faz o menor sentido termos o detalhamento por páginas

<HenriqueCrang> vc está certo sim

<Alchimista> p listar as + vistas já há varias ferramentas, a n ser que se pretenda algo mais

<HenriqueCrang> sim sim, por hora não se quer nada a mais

<HenriqueCrang> podemos fazer de forma muito mais simples do que eu havi apensado

<Alchimista> e aliás, se o script partir da bd, ai até se pode ajustar qnd corre, de acordo com as solicitações da página. Se virmos que n é mto solicitada, ou mais solicitada de x em x periodos, ajusta-se p ser actualizada menos vezes, poupando os servers

<HenriqueCrang> nesse caso nem precisamos. com esse arquivo por projetos a carga será pequena

<Alchimista> ao fim de algum tempo a mexer no ts, vão reparar que qqr migalha de esforço poupado lá vale a pena XD

<HenriqueCrang> xD

<Alchimista> são centenas de users, se todos tentarem ser um pouco poupados, as coisas correm melhor

<Alchimista> além do mais, agora é obrigatório usar o SGE, precisamente pq falhas de memória eram algo frequentes, é mta coisa a correr em servers que n estão a receber os upgrades necessários

<jonas_agx> Alchimista: Bom saber disso, poupar cada bit

<Alchimista> jonas_agx: se fores passando pelo canal do ts, vais ver que são poucas as pessoas a gerir o ts, no entanto são incansáveis, tanto a manter o ts saudável, como a ajudar quem precisa de ajuda

<jonas_agx> Alchimista: eu percebi disso, se parece muito com o projeto freeshell

<jonas_agx> é magnífico

<Alchimista> eu qnd pedi conta no ts, sabia somente o básico de linux, e essencialmente p mexer no meu pc, nada de coisas de servidores, sge's e afins. mas lá há sempre alguém pronto a ajudar