Wikipédia:Projetos/Wikipédia/Reuniões/Reunião IRC 16-02-2013
As primeiras falas da reunião se perderam pois o log não estava ligado.
<Alchimista> n sei se será fácil de portar, a ideia é que seja, mas pelo menos as ligações às bases de dados têm de ser alteradas
<everton137> Alchimista, eita
<HenriqueCrang> Alchimista, de onde veio esse informação que não será possível fazer joins no labs? isso de fato limitaria MUITO nossa atuação
<everton137> Alchimista, o script que estamos fazendo será facilmente portavel, segundo o Jonathan Morgan
<Ocastro> Acabo de ver um protótipo de resposta à minha pergunta: https://labsconsole.wikimedia.org/wiki/Help:Move_your_bot_to_Labs
<Alchimista> já foram trocados mtos mails o ano passado, a coisa ficou acesa, com um conflito silencioso entre o labs e os gestores do ts
<Ocastro> Onde esses emails são trocados? na lista tech?
<Alchimista> a "alma" do ts, aquele que melhor conhece todo o sistema, esteve p abandonar a gestão do ts em dezembro, pq n há investimento, e o ts está a abarrotar pelas costuras
<Alchimista> pera, vou procurar os mails
<everton137> probably na do toolserver
<everton137> alias, Ocastro, recomendo entrar nessa lista e tb abrir uma conta no toolserver
<everton137> o DaB
<everton137> eu vi, Alchimista, foi um baita quebra pau :/
<Alchimista> só dão novas contas p mais uns dois ou três meses, p isso é aproveitar agora
<Ocastro> pode ser, penso na serventia
<Ocastro> sou uma analfabeta nisso
<Ocastro> Mas analfabetos tb aprendem assim, né?
<Alchimista> Ocastro: eu tb era no início, ninguém nasce ensinado :P
<Ocastro> Sim,
<Ocastro> então, parece que Jonas não conseguirá vir
<everton137> A todos: http://lists.wikimedia.org/pipermail/toolserver-l/2012-September/005275.html
<everton137> se acompanharem esse topico, verao o que ocorreu
<Alchimista> alguém consegue encontrar na net esta discussão entre mails: Re: [Toolserver-l] Future of the toolserver ?
<everton137> é longo
<Alchimista> hehe, é isso ai everton
<Alchimista> essa é uma discussão entre membros do ts. dps tem mtas outras, na wikitech e labs
<Ocastro> Queria 1. Apresentar as pessoas; (isso será feito a cada reunião que aparecer alguém que ainda não os conheceu); 2) dizer um pouquinho do que queremos fazer; 3) ouvir de vcs ideias de como integrar o que já tem sido feito aos esforços e o que de novo precisa ser feito
<Alchimista> deixa só fazer uma pergunta antes. HenriqueCrang, sentes-te confortável com py?
<Ocastro> ((offtopic)) Sobre financiamento do toolserver, eu tentei doar e não consegui
<everton137> http://imasters.com.br/noticia/ja-estao-abertas-as-inscricoes-para-o-i-encontro-nacional-de-mulheres-na-tecnologia/
<Alchimista> everton137: sobre isso, podemos marcar tb algo pelo irc, mulheres a criar bots e tools
<HenriqueCrang> Alchimista yep
<everton137> Alchimista, boa, mas antes editar, que é mais facil rs
<everton137> :P
<Alchimista> :D
<Ocastro> Fiquem à vontade pra entrar na parte técnica - Alchimista e OTAVIO1981 querem dar fazer um apanhado do que já fizeram e no que têm trabalhado em termos de análise de dados?
<Ocastro> Algumas coisas o HenriqueCrang já viu, mas seria legal vocês falarem também. Eu mesma não vi tudo o que já fizeram
<Alchimista> bom, eu em termos públicos tenho isto: http://toolserver.org/~alchimista/wpstats/pagnovas.fcgi
<Alchimista> mas n está a ser actualizado, pq entretanto a bd da pt wikipédia teve problemas, só esta semana foram resolvidos, mas entretanto já surgiram novos problemas
<HenriqueCrang> quais tipos de problemas?
<Alchimista> dps têm um output cvs -> http://toolserver.org/~alchimista/wpstats/out.csv
<OTAVIO1981> As análises que fiz estão em algum canto da wikipédia.
<OTAVIO1981> Na minha PU e provavelmente na discussão do teste de reversores
<Alchimista> HenriqueCrang: o dump ficou corrompido, p exemplo, n tabela de onde estava a retirar esses dados, começaram a faltar dados. a utlima vez que verifiquei, poucos dados tinha a n ser os de 2012
<OTAVIO1981> pelo que me lembro a única informação que não foi disponibilizada foi um excel que o Rjclaudio compilou com mais dados
<OTAVIO1981> foi até útil pra mim, mas não sei se ele colocou na wiki
<Ocastro> OTAVIO1981, essa o HenriqueCrang com certeza viu, até usou durante a tarefa. E a linha do tempo feita pelo rjclaudio tb foi usada pelo Jonas ;-)
<OTAVIO1981> menos mal o arquivo circulou no e-mail e o Henrique recebeu
<OTAVIO1981> Sim, a linha do tempo eu mostrei pro jonas.
<OTAVIO1981> pq ele ia fazer algo muito parecido
<HenriqueCrang> Alchimista esse dump costuma ser atualizado com qual periodicidade?
<HenriqueCrang> OTAVIO1981, essa planilha? https://docs.google.com/spreadsheet/ccc?key=0Ana67p3_nCPVdDhkZUx0TUZzRUxTVmlPaVQ4TVRPV2c#gid=0
<Alchimista> instantâneamente, mas como deu o berro, teve de ser feito um novo dump, e recomeçar a sincronização
<OTAVIO1981> essa mesma
<Alchimista> HenriqueCrang: ^
<HenriqueCrang> Alchimista, e quem está cuidando disso é o povo do ts e nos resta apenas esperar ou podemos ajudar em algo?
<HenriqueCrang> OTAVIO1981, essa eu vi e fiz até alguns comentários lá na tarefa http://br.wikimedia.org/wiki/Usu%C3%A1rio:Crang115/tarefa
<OTAVIO1981> então...
<OTAVIO1981> depois disso não teve mais nada
<OTAVIO1981> o bloqueio por reversores foi aprovado sem nenhum resultado conclusivo.
<Alchimista> HenriqueCrang: creio que já foi actualizada. hoje esteve um pouco em baixo, pq foi actualizado um software qqr. mas é mantida pelos sysops do ts. Até porque é um sistema que foi sendo adaptado ás necessidades específicas, com o tempo deixou de ser algo padrão
<Ocastro> a essa altura, me diga se estiver errada, não vale a pena refazer um teste, certo?
<OTAVIO1981> acho que foi aprovado por causa do script que impede bloqueios indevidos de contas antigas ou com o prazo superior ao especificado.
<HenriqueCrang> OTAVIO1981 bem, espero que daqui pra frente possamos ter resultados mais claros :)
<OTAVIO1981> mas isto é outra história.
<HenriqueCrang> OTAVIO1981, caso seja de interesse geral da comunidade voltar a esse assunto, eu já rascunhei algumas formas de tentar olhar para o experimento com mais critério
<OTAVIO1981> acho difícil pq está aprovado e funcionando sem criar problemas
<HenriqueCrang> então vamos para o próximo assunto
<HenriqueCrang> :)
<Ocastro> é, me parece desnecessário em face e outras possíveis necessidades
<OTAVIO1981> mas fique a vontade para perguntar para a galera se conseguir uma informação nova que ajude...
<HenriqueCrang> sempre!
<Ocastro> Porque, a essa altura, me parece complexo refazer (teríamos que tirar de alguns e testar dois grupos - e isso o povo de tech da WMF diz que é super "perigoso" pro site)
<Ocastro> O Henrique pode contar um pouquinho do que pensamos e de nossas limitações e oportunidades
<HenriqueCrang> vamos lá
<HenriqueCrang> conversei com algumas pessoas do time nos EUA e eles se mostraram com experimentos que necessitem rodar no servidor de produção (exemplo: um javascript que divide pessoas entre grupo de teste e grupo de controle e exibe coisas diferentes)
<Ocastro> se mostraram preocupados
<HenriqueCrang> mas eles apontaram que costumam fazer isso na en.wiki , e que podemos "pegar carona" em experimentos que eles forem realizar por lá, e usarmos a mesma base de código homologada para rodar na pt.wiki
<HenriqueCrang> isso Ocastro , obrigado por achar minha palavra comida :)
<OTAVIO1981> mas os experimentos seria com os parametros que eles utilizam na en.wiki?
<HenriqueCrang> de modo geral, nós teremos acesso mais confortavel mesmo a dumps
<everton137> dumps do que? db da pt.wiki?
<HenriqueCrang> OTAVIO1981, pelo que eu entendi, seria com o mesmo código de obtenção de dados, mas imagino eu que possamos mudar parâmetros
<everton137> seria bom se pudessemos
<everton137> seria, nao, será
<OTAVIO1981> é um tanto limitado, mas com certeza uma opção.
<HenriqueCrang> eles tem receio de fazermos algo (seja atraves de extension, gadget, js) que crash a wp
<everton137> HenriqueCrang, esses JS estao online somewhere?
<everton137> é, cair a WP nao é nada bom
<HenriqueCrang> imagino que conforme nós incorparmos nosso trabalho de metrics, e mostrarmos que estamos organizados e fazendo as coisas corretamente possamos ganhar mais confiança deles e mais espaço
<HenriqueCrang> everton137, estão em uma wiki fechada. O Dario disse que deve ser aberto em breve
<everton137> acho que o trabalho do Jonas em construir o portal ajudará nisso
<everton137> HenriqueCrang, legal
<everton137> imagino (espero) que esteja fechado agora por causa de eventuais exploits de seguranca
<HenriqueCrang> maybe, ele não me falou o motivo
<Alchimista> jonas_agx: aproveitamos agora, já estive a dar algumas indicações ao HenriqueCrang, assim falamos todos
<jonas_agx> Alchimista: tudo bem. Na minha página de requisição no jira consta como Resolved
<jonas_agx> Alchimista: mas não recebi nenhuma notificação por email
<HenriqueCrang> eu tb nao recebi nenhuma mailnotification
<jonas_agx> Aqui está apágina: https://jira.toolserver.org/browse/ACCAPP-605
<Alchimista> deixem ver..
<Alchimista> Ocastro: consegues uma tabela com os dados de visualisações de páginas p localização tipo esse que mandas-te?
<Alchimista> tb dava um belo heat map p vermos a penetração da utilização da wp
<HenriqueCrang> Alchimista a principio teremos que desenvolver a pescaria dessas tabelas
<Alchimista> já tenho os vossos tickes como vigiados. entretanto n sei se disse aqui, mas normalmente demora um ou dois dias a poderem entrar normalmente, após receberem o mail
<Alchimista> HenriqueCrang: n temos acesso a esses dados. como os dados do squid contêm os ip's, são dados privados, e só em condições mto especiais entregam assim. normalment têm de anonimizar antes
<Ocastro> oi Alchimista, pageviews?
<Alchimista> jonas_agx: o canal do ts é este: #wikimedia-toolserver
<Ocastro> posso perguntar, mas duvido um pouco
<Ocastro> pedi ano passado tb, não fizeram
<jonas_agx> Alchimista: vc já conversou com o Diederik sobre esses dados -- ele me mostrou um canal de requisição desses dados para pesquisa
<Ocastro> e recentemente perguntei sobre tracking de acessos
<HenriqueCrang> Alchimista, esse é o tipo de dado que não podemos exibir o bruto
<Alchimista> Ocastro: sim, mas lá está, anonimizados. bastaria algo como a quantidade total de visualizações da pédia, p qnt de visualisações p cidade
<Ocastro> lá onde?
<Ocastro> ts?
<Alchimista> jonas_agx: mta burocracia, teria de pedir autorização, apresentar comprovativos de dados pessoas, cartas de intenções, descrição d análise...
<Alchimista> não, "lá está" é uma expressão usada em portugual, n sei qual o equivalente no br :S precisamos de um tradutor
<Ocastro> hahaha
<Alchimista> algo como "portanto" :P
<Ocastro> como o ja esta do espanhol?
<Alchimista> provavelmente sim :P
<HenriqueCrang> mas nós da equipe podemos tentar passar essa barreira da burocracia e conseguir fazer uma aplicação que gere uma API para acesso aos dados anonimizados
<jonas_agx> aprendi uma esses dias de Portugal: Parvo -- pra ingênuo
<Alchimista> é uma das aplicações jonas_agx :P
<jonas_agx> HenriqueCrang: usando cidade como menor grão
<Ocastro> pra você ter uma ideia, eu já pedi dados de acessos totais por dia e não consegui
<Alchimista> o problema é que anonimizar esses dados n é algo fácil, e tem inclusivé uma discussão sobre esses dados. o próprio wikistats tem sido posto em causa, pq tem um overload de contgens de bots
<Ocastro> queria saber de variações semanais
<Alchimista> Ocastro: isso temos acesso
<Ocastro> NO total?
<Alchimista> n é preciso ts nem nada, só n faço isso em casa pq é um bruto de um ficheiro
<Ocastro> sempre me mandam pra groks
<Alchimista> não, p página, dps só se tem de somar o total de todas as páginas
<Alchimista> e até é fácil fazer isso, o problema mesmo é que n há ficheiro de pageviews p projecto, vem tudo junto
<Ocastro> "só se tem de somar o total de todas as páginas" - o que não dá pra fazer com meus métodos manuais, creio ;-)
<jonas_agx> Alchimista: vc manipula esses dumps views?
<Alchimista> dá, se a Ocastro desejar passar uns 200 ou 300 anos XD
<Ocastro> vou pedir para o HenriqueCrang fazer um teste
<HenriqueCrang> lol
<HenriqueCrang> beleza, onde eu encontro essas stats?
<Alchimista> jonas_agx: não, já fiz umas pesquisas à uns tempos, mas nada de regular
<Alchimista> HenriqueCrang: http://dumps.wikimedia.org/other/pagecounts-ez/
<Alchimista> ou então: http://dumps.wikimedia.org/other/pagecounts-raw/
<Alchimista> mas HenriqueCrang, são, como ei de dizer.. mtos ficheiros, e enoooormes
<Alchimista> p exemplo, ficheiros raw só de fev: http://dumps.wikimedia.org/other/pagecounts-raw/2013/2013-02/
<Ocastro> dá pra pegar do dia 03 de fevereiro, só pra dar um exemplo?
<HenriqueCrang> estou olhando
<jonas_agx> Alchimista: Por falar em acesso, está sendo implementada uma forma de diferenciar acessos mobile, api
<Alchimista> Ocastro: sim, eu posso fazer um script p contar p ficheiro, se alguém conseguir fazer o download. ou tb se pode fazer no ts mesmo
<Alchimista> jonas_agx: sim, através da UA, tenho acompanhado essa discussão, bem interessante
<Alchimista> Ah, tb convém subscreveres a lista do ts: https://lists.wikimedia.org/mailman/listinfo/toolserver-l
<HenriqueCrang> UA?
<Alchimista> user-agent
<HenriqueCrang> thanks :)
<Alchimista> aquilo que dá p o servidor saber qual o browser, modelo...
<HenriqueCrang> yep
<Ocastro> gente, vou sair um pouco daqui. Estou com uma dor de garganta há dias e agora dor de cabeça tb. Vou repousar um pouco porque acabei de tomar um remédio e ainda há muito por fazer até meia noite ;-)
<Alchimista> leite quente com mel faz milagres
<jonas_agx> Ocastro: Até mais -- recomendo mel tbm.
<Alchimista> e se quiser Ocastro, a partir de segunda lembre-me que faço um script p ler os pageviews e fazer as contas p si
<jonas_agx> Alchimista: via TS?
<HenriqueCrang> melhoras Ocastro !
<Alchimista> jonas_agx: como for preciso. no ts havia quem estava a fazer o download desses ficheiros, tenho de ver se ainda o fazem, p n haver duplicados
<Alchimista> até pq temos espaço limitado na nossa /home pessoal, tem de ir p um espaço público
<jonas_agx> Alchimista: adoraria ajudar no script
<Alchimista> jonas_agx, HenriqueCrang, conhecem os multi-maintainer-projects no ts?
<jonas_agx> Não conheço
<HenriqueCrang> nops
<jonas_agx> São os clusters to TS?
<Alchimista> bom, como vão ver, o ts funciona como um pc pessoal, cada user tem o seu espaço como se fossem várias instalações linux no mesmo pc
<Alchimista> dps há os MMP, para projectos partilhados, onde o acesso é permitido aos membros do projecto. isso e o que nos pode ser mto útil
<Alchimista> https://wiki.toolserver.org/view/Multi-maintainer_projects
<jonas_agx> acaba funcionando com uma forma de daemon?
<HenriqueCrang> pode mesmo
<HenriqueCrang> Alchimista, o que achas do seguinte
<Alchimista> a parte dos mmp's só sei mesmo em teoria, mas presumo que sim
<HenriqueCrang> o script a cada N hora e 1 minutos acessa a página e baixa o gz
<HenriqueCrang> extrair o arquivo, faz parse nas linhas
<HenriqueCrang> adiciona as informações num bd
<HenriqueCrang> e deleta os arquivos
<Alchimista> algo assim mesmo
<jonas_agx> é, isso ajuda a criar daemons sem precisar de acesso root, pelo que parece
<Alchimista> se bem que tb pode é correr 1x p dia, assim corre qnd houver menos tráfego no ts
<HenriqueCrang> qt espaço cada usuario tem no ts?
<Alchimista> 258 mb de espaço pessoal
<Alchimista> mas há uma partição pública com teras livres, p ficheiros grandes
<jonas_agx> o TS me lembra o FreeShell
<jonas_agx> uma comunidade unix, com terminais para acesso livre, mantida por doações
<HenriqueCrang> então se usarmos essa partição não teremos problemas
<Alchimista> sim. geralmente enquanto se puder, deixa-se lá os ficheiros originais, p quem mais quiser usar n precisar de fazer o download
<HenriqueCrang> oq são os numeros nesse arquivo?
<HenriqueCrang> visitas no periodo e visitas total?
<Alchimista> visitas p hora. há um que dá as visitas p hora, p projecto
<Alchimista> e outro visitas p página, p hora
<HenriqueCrang> sem querer apertei alguma tecla de atalho que limpou meu historico
<HenriqueCrang> alguem pode colar as msgs enviadas depois de minha ultima, por favor?
<Alchimista> [21:41] <HenriqueCrang> oq são os numeros nesse arquivo?
<Alchimista> [21:41] <HenriqueCrang> visitas no periodo e visitas total?
<Alchimista> [21:42] <Alchimista> visitas p hora. há um que dá as visitas p hora, p projecto
<Alchimista> [21:43] <Alchimista> e outro visitas p página, p hora
<Alchimista> [21:43] <HenriqueCrang> sem querer apertei alguma tecla de atalho que limpou meu historico
<Alchimista> [21:43] <HenriqueCrang> alguem pode colar as msgs enviadas depois de minha ultima, por favor?
<HenriqueCrang> obrigado
<HenriqueCrang> o arquivo que estou vendo
<HenriqueCrang> para cada linha
<HenriqueCrang> tem 2 numeros ao final
<HenriqueCrang> um pequeno, que imagino ser as visitas por hora
<HenriqueCrang> e um maior
<Alchimista> http://dumps.wikimedia.org/other/pagecounts-ez/projectcounts/readme.txt
<HenriqueCrang> agradecido
<HenriqueCrang> :)
<Alchimista> ou este: http://dumps.wikimedia.org/other/pagecounts-raw/
<Alchimista> dependendo de onde tiras-te
<HenriqueCrang> do segundo
<HenriqueCrang> The first entry in a line is the project name, the second is the number of non-unique views, and the third is the total number of bytes transferred.
<HenriqueCrang> o ultimo numero é total de bytes transferidos
<HenriqueCrang> não sei se para nós essa informação seria relevante
<Alchimista> estás a ver no pagecounts-raw?
<HenriqueCrang> sim
<jonas_agx> HenriqueCrang: essa informação do tamanho da página pode ser encontrada pela API, se não me engano
<HenriqueCrang> sim
<Alchimista> ah, está no final da página. mas tem +info esses ficheiros
<HenriqueCrang> estou pensando aqui que para nosso proposito nao seja necessario armazena-la
<Alchimista> jonas_agx: com conta no ts, a API pode ser posta de lado :P
<HenriqueCrang> o ficheiro que baixei tem apenas essas informações que colei
<HenriqueCrang> verei o que tem nos outros
<jonas_agx> Alchimista: eu imagino, eu penso em traduzir o manual da API para pt
<jonas_agx> acho que uma parte dele já foi
<Alchimista> jonas_agx: http://www.mediawiki.org/wiki/Manual:Page_table
<jonas_agx> Alchimista: ah conheço bem essas tabelas
<Alchimista> tendo a bd disponível, é sempre preferível a usar a API, assim poupa-se esforçar mais os servidores
<Alchimista> então estás à vontade, só n tens a tabela que contêm os textos dos artigos
<Alchimista> no ts: https://wiki.toolserver.org/view/Database_schema
<jonas_agx> Alchimista: a tabela que mais usei foi revision, é uma das que mais cresce
<jonas_agx> Alchimista: gostei dessa página sobre as tabelas, no TS
<Alchimista> jonas_agx: antes usava a recent_changes, mas como foi uma das afectadas e perdeu dados, passei a usar a revision
<Alchimista> aliás, a tool que estou a fazer já usa a revision: http://toolserver.org/~alchimista/test/ts.fcgi/oi?name=Alchimista&output=json
<HenriqueCrang> Alchimista, no toolserver podemos criar nossa própria base de dados?
<Alchimista> está algo abandalhado, mas estive a testar o bottlepy, e a tool serviu de teste mesmo hehe
<astroo-> jonas_agx HenriqueCrang ola
<Alchimista> HenriqueCrang: sim, há a possíbilidade de criar bd's pessoais
<HenriqueCrang> então pessoal, acho que podemos com certa facilidade pegar os dados de http://dumps.wikimedia.org/other/pagecounts-raw/ e criar uma interface de facil geração de graficos
<Alchimista> algum de vcs tem facilidade em desenvolver apps em js?
<HenriqueCrang> podemos deixar um daemon rodando no ts?
<jonas_agx> HenriqueCrang: mas o que faria esse app?
<HenriqueCrang> não mexo com js tem uns anos , mas sempre há tempo para voltar
<HenriqueCrang> jonas_agx, a ideia é a seguinte:
<Alchimista> daemon? o que pretendias com o daemon?
<jonas_agx> Alchimista: daemon é um serviço contínuo, rodando enquanto o OS roda
<jonas_agx> Alchimista: é isso?
<Alchimista> jonas_agx: sim, eu sei, mas depende sempre da finalidade e do daemon que for
<HenriqueCrang> um daemon que a cada N hora e 1 minuto, com N variando de 0 a 23, acessa o último arquivo gz postado com dados da ultima hora, descompacta, abre o arquivo texto, para cada linha que inicie com pt ele faz um insert num bd local, ao final dos inserts ele apaga o arquivo texto e o arquivo gz
<jonas_agx> Alchimista: ah sim, pelo que entendi a ideia é deixar uma visualização contínua dos acessos, na forma de gráficos
<HenriqueCrang> esse cara ficaria apenas alimentando essa base
<HenriqueCrang> em paralelo, fariamos um serviço web que acesso esse banco local e gera visualização dos dados
<jonas_agx> HenriqueCrang: qual a diferença disso para um Grok?
<jonas_agx> http://stats.grok.se/en/201302/Recife
<HenriqueCrang> existe grok com somatório da pt.wiki ?
<jonas_agx> O Grok oferece inclusive acesso ao json "bruto" com os http://stats.grok.se/json/pt/201302/Recife
<jonas_agx> com gráficos:http://stats.grok.se/pt/201302/Recife
<jonas_agx> Somatório diário
<HenriqueCrang> digo, acesso de todos os artigos somados
<Alchimista> Ah, p isso usa-se o SGE. programa-se p correr de x em x tempo
<jonas_agx> Isso pode esr feito usando a interface do Grok
<jonas_agx> vc quer dizer somar o acesso de todos os artigos da wp?
<Alchimista> jonas_agx: o problema é que seria uma carga extra p esse site, havendo a oportunidade de sacar directo os dados, é capaz de ser melhor
<HenriqueCrang> isso
<Alchimista> ao usar o ts, uma das regras é n sobrecarregar páginas externas
<Alchimista> nem se pode sequer, p exemplo, carregar partes de outros sites, como no caso de .js, usar o raw do site do script
<Alchimista> ui, agora ao ler a conversa, constacto que a Oona ainda tem um ataque de pánico se se puser a ler o que perdeu XD
<HenriqueCrang> haha, que nada. ela ficará é muito feliz de ver que o relatório que ela queria está a caminho
<Alchimista> HenriqueCrang: o que precisavas era disto: https://wiki.toolserver.org/view/Job_scheduling
<Alchimista> pegaram n cronie, fizeram uns hacks, e está uma beleza
<HenriqueCrang> perfeito
<HenriqueCrang> ainda tenho muito a aprender sobre o ts
<Alchimista> e dá p escolher p exemplo, o tempo máximo que o script pode correr, alocar a memória virtual máxima...
<HenriqueCrang> jonas_agx, quando eu listei o que o script tem que fazer esqueci de escrever "somar todas as entradas de cada wiki" antes de fazer o insert
<jonas_agx> HenriqueCrang: certo, então a ideia é criar um contador de acessos para toda a PT WP
<HenriqueCrang> acho que era disso que a oona falava inicialmente, não?
<HenriqueCrang> posso ter me enganado tb
<Alchimista> já há alguma página p coordenar as tarefas?
<HenriqueCrang> ainda não. essa é a primeira missão do jonas_agx!
<HenriqueCrang> mas podemos criar algo no meta para ir usando enquanto isso
<jonas_agx> Acho interessante avaliar isso ao longo do tempo, até porque por hora dá um treco tipo 3 trintrilhões de views
<Alchimista> ainda bem, é que detesto escrever docs XD
<HenriqueCrang> jonas_agx, como assim?
<jonas_agx> ah sim, eu vou postar as coisas no meta
<jonas_agx> Alchimista: prefiro Pad
<HenriqueCrang> inicialmente acho que a oona queria em daily basis, mas como os dados que temos acesso estão por hora, podemos levar essa informação
<jonas_agx> HenriqueCrang: falo da escala de acessos ao site da WP, um somatório disso dá um número astronômico
<HenriqueCrang> mas tb podemos programar para que todo dia após a meia noite seja realizada uma diaria, e esse valor seja inserido no banco de forma que não o sobrecarreguemos a cada nova consulta
<jonas_agx> Sendo um valor diário, podemos trabalhar a cada 24horas
<jonas_agx> rodando o script
<HenriqueCrang> jonas_agx, mas esse números "astronômicos" podem variar bastante, e é isso que queremos ver!
<HenriqueCrang> mas ai script vai ter que baixar 24 arquivos de uma vez
<HenriqueCrang> se os arquivos são disponibilizados de hora em hora, pq não importá-los logo?
<jonas_agx> HenriqueCrang: sim, é disso que tava falando, isso ao longo do tempo pode ser intersante
<jonas_agx> interessante*
<HenriqueCrang> essa é ideia! :D
<HenriqueCrang> alias, podemos ter que fazer um script que vá atras do legado, baixando dados do passado e jogando em nosso bf
<HenriqueCrang> bd
<Alchimista> HenriqueCrang: é capaz de dar mais problemas, pq ai é preciso então o script verificar sempre se os dumps anteriores já foram tratados
<Alchimista> como disse anteriormente, o ts n é propriamente um *production system*, tem alturas em que algo dá o berro
<jonas_agx> Podemos definir um início do tempo, a partir do qual contruímos nossa série temporal
<HenriqueCrang> não sempre, esse seria feito em separado com outra lógica
<HenriqueCrang> pensei em 2 script, o que vai atualizando
<HenriqueCrang> e um que vai atras do legado
<HenriqueCrang> e depois morre
<Alchimista> jonas_agx: eu sugiro que numa primeira fase, se trate de fazer a recolha e tratamento dos dados diários, e dps pega-se num dump anual, e saca-se a info anterior
<Alchimista> HenriqueCrang: aliás, pode-se usar o que estava a pensar p o projecto que eu estava a fazer, o script começa na bd, verifica qual a última hora que foi actualizada, e parte dai
<Alchimista> ai já n precisa de uma segunda ronda, p verificar se tudo foi tratado
<HenriqueCrang> boa lógica
<jonas_agx> Alchimista: sim, até porque essa serie leva tempo para ser processada
<Alchimista> e se escapar um dia, n próxima vez que rodar, será a primeira a ser processada
<HenriqueCrang> resolve problemas que poderiam advir de paralização no Job_scheduling
<HenriqueCrang> isso
<Alchimista> mas eu iria mesmo p rodar uma só vez p dia, marcar p ele rodar as 2.30 n quer dizer que ele rode mesmo ás 2.30
<HenriqueCrang> temos que ver quanto ele irá impactar na máquina virtual
<HenriqueCrang> mas é bom que já temos 2 possíveis arquiteturas para se adequar ao melhor cenário
<Alchimista> e corrigam-me se n estou enganado, mas bastaria fazer o download 1x p dia deste ficheiro: http://dumps.wikimedia.org/other/pagecounts-ez/projectcounts/
<Alchimista> no caso deste ano, fazer o download do projectcounts-2013.tar todos os dias
<jonas_agx> Isso pode funcionar, será uma carga maior, mas apenas uma vez
<Alchimista> pelo que se vê ai, um ano inteiro anda inferior a 200 M, se formos pelos outros, os valores são similares
<HenriqueCrang> mas isso é apenas dos projectos, não?
<Alchimista> apesar de ser sempre o mesmo ficheiro, mesmo que se opte pelo http://dumps.wikimedia.org/other/pagecounts-raw/2013/2013-02/ , o project ocupa menos espaço
<Alchimista> sim HenriqueCrang, só p cada projecto
<Alchimista> tb estavam a pensar p páginas?
<HenriqueCrang> realmente
<HenriqueCrang> para o objetivo final
<HenriqueCrang> nao faz o menor sentido termos o detalhamento por páginas
<HenriqueCrang> vc está certo sim
<Alchimista> p listar as + vistas já há varias ferramentas, a n ser que se pretenda algo mais
<HenriqueCrang> sim sim, por hora não se quer nada a mais
<HenriqueCrang> podemos fazer de forma muito mais simples do que eu havi apensado
<Alchimista> e aliás, se o script partir da bd, ai até se pode ajustar qnd corre, de acordo com as solicitações da página. Se virmos que n é mto solicitada, ou mais solicitada de x em x periodos, ajusta-se p ser actualizada menos vezes, poupando os servers
<HenriqueCrang> nesse caso nem precisamos. com esse arquivo por projetos a carga será pequena
<Alchimista> ao fim de algum tempo a mexer no ts, vão reparar que qqr migalha de esforço poupado lá vale a pena XD
<HenriqueCrang> xD
<Alchimista> são centenas de users, se todos tentarem ser um pouco poupados, as coisas correm melhor
<Alchimista> além do mais, agora é obrigatório usar o SGE, precisamente pq falhas de memória eram algo frequentes, é mta coisa a correr em servers que n estão a receber os upgrades necessários
<jonas_agx> Alchimista: Bom saber disso, poupar cada bit
<Alchimista> jonas_agx: se fores passando pelo canal do ts, vais ver que são poucas as pessoas a gerir o ts, no entanto são incansáveis, tanto a manter o ts saudável, como a ajudar quem precisa de ajuda
<jonas_agx> Alchimista: eu percebi disso, se parece muito com o projeto freeshell
<jonas_agx> é magnífico
<Alchimista> eu qnd pedi conta no ts, sabia somente o básico de linux, e essencialmente p mexer no meu pc, nada de coisas de servidores, sge's e afins. mas lá há sempre alguém pronto a ajudar