Joaca cu numerele
Citam din personaje dubioase :
Eu am unul din cele mai comentate bloguri din rromânia. Din cele aproape 200 000 de comentarii, nu vă imaginaţi câtă ură am putut să cern.
Chestia m-a interesat, pentru ca tocmai ce-am publicat un articol cu prelucrari statistice pe comentariile de-aici de pe Trilema. Eu n-am doua sute de mii de comentarii, ci aproape cincizeci de mii. De fapt, daca va uitati la un comentariu mai recent vedeti in coada url-ului de-l identifica* (numit in limbaj de specialitate permalink) ceva precum #comment-52789 sa zicem. In realitate ele sunt ceva mai putine, pentru ca in cifra respectiva se numara si spamul, indiferent daca-l aprobati sau nu**. Pur si simplu numarul ala e un index, si se incrementeaza la fiecare comentariu primit, de orice fel.
Cetateanul a scos permalink-urile comentariilor de la el din tema, dar cum n-are suficienta pricepere cit sa le chiar scoata din matele wordpress-ului ele apar in continuare pe pagina, si daca va uitati la sursa vedeti ceva precum "<div id="comment-176492" class="comment-body">"***, care-i exact aceeasi chestie. Cu care ocazie observam ca nici vorba de 200,000 dat fiind ca-s 176 de mii cel mult. Da' sa zicem ca se mai plateste si TVA pe comentariile declarate, si blogeru' cu pretentii spune doua sute cind are o suta saptezeci si sase.
Totusi, chestia m-a facut curios, sa aflu anume oare cite comentarii adevarate se gasesc intre alea 176,492 de comentarii teoretice la om pe site ? Asa ca i-am facut un full site backup, ca doara de-aia exista wget pe lume, dupa care am trecut la a procesa gigabitul de cruft rezultat, ca doara de-aia exista awk si grep pe lume. Este cite chestii exista pe lume despre care nici nu stiati ?
mircea@inigo-montoya:~$ grep -c 'comment-' /home/mircea/random/arhiproc-n.txt
163762
Pentru verificari, aveti aici fisierul de baza, colectia integrala a comentariilor de pe site-ul omului de la facere si pina in prezent. 180369 comentarii nominale (acum vreo doua ceasuri), 163762 comentarii reale, adica aproximativ 90% (ceea ce-i chiar bine). Ca o paranteza, de pe 9 8 pina pe 29 Iunie curent a avansat nominal de la 176492 pina la 180369, adica aproape 4000 de comentarii, ceea ce revine spre 200 pe zi, ceea ce iarasi e bine (cam dublu fata de Trilema).
mircea@inigo-montoya:~$ wc /home/mircea/random/arhiproc-n.txt
163762 4375578 25854250 /home/mircea/random/arhiproc-n.txt
Adica 4,211,816 cuvinte (am scazut 163,762, rezultate din headerul fiecarei linii), iarasi dublu fata de Trilema.
Per total, omul tine blog din Mai 2007 (49 de luni), primeste cam de doua ori mai multe comentarii, si are cam de doua ori mai multe cuvinte-n total in comentarii decit Trilema (care exista din Ianuarie 2009, deci 30 de luni). Ce-i drept, comentariile aici sunt ceva mai lungi (noroc cu grid :p).
Cam asta. Nu intram in nici o discutie despre calitate, ca n-avem abordari numerice adecvate.
---------
* Pe care url il puteti obtine facind click dreapta pe data afisate sub numele comentatorului, "Miercuri, 29 Iunie 2011" sau ce-o fi, dupa caz.
** Pe Trilema numarul e ceva mai mic dar destul de aproape, in zona 90-95%, pentru ca eu folosesc niste metode antispam foarte eficiente. Pe alte bloguri comentariile reale pot fi 10% sau chiar sub din cifra respectiva.
*** Cu care ocazie, un pont : daca adaugati dupa url-ul paginii asa cum apare el #comment-176662, pagina se va incarca direct la comentariul identificat astfel, daca el exista pe pagina respectiva. Indiferent daca blogerul are sau n-are permalink-urile afisate.
Wednesday, 29 June 2011
Foarte tare! Nu ca ai depistat adevarul gol-golut ci ca te-ai gandit la asta :D
Wednesday, 29 June 2011
Merci. Ne straduim in aceasta directie, zi de zi.
Wednesday, 29 June 2011
eu sunt fascinat de ce i-ai dat numele de montoya pc-ului?!
Wednesday, 29 June 2011
It has killed my father. Prepare to die.
Wednesday, 29 June 2011
Formatul fiind comment-numar : comentariu, trebuia sa scazi 327524.
Wednesday, 29 June 2011
A, zici tu ceva.
Wednesday, 29 June 2011
ar fi interesantă o medie de cuvinte/comentariu comparată, dacă ai chef
Wednesday, 29 June 2011
12740082
2157106
12740082 / 2157106 = 5.90609919
25854250 - (163,762 x 15) / 4211816 = 23397820 / 4211816 = 5.555280668
N-am scazut a doua oara headerele (cum recomanda anonimosu) pentru ca din cite inteleg eu din documentatie wc nu considera stringul " : " drept un cuvint si deci nu-i cazul.
O sursa de erori ar fi faptul ca-n baza mea de date apar si entitati html, in timp ce-n fisierul procesat cu care compar nu apar nici un fel de entitati html. Estimativ impactul n-ar trebui sa fie mai mare de 0,01.
Wednesday, 29 June 2011
decat ~6 cuvinte per comentariu pe Trolema? mi se părea mult mai mare ...
Wednesday, 29 June 2011
Pai banuiesc ca tu esti de vina : ia dinsus 5 + 2 + 7 + 3 + 10 + 2 + 8 + 2 + 2 + 5 + 4 + 3 + 4 => 4.38.
A, stai. Eu am calculat lungimea medie a cuvintului in cele doua.
Altminteri, ca numar de cuvinte per comentariu, avem :
2157106 / 47875 = 45.08
4211816 / 163762 = 25.72.
Deci cam dublu, doar ca-n sensul celalalt.
Wednesday, 29 June 2011
Dacă menţii paradigma că e nevoie de cantitate înainte de a avea calitate .. o primă aproximare a meritelor celor două medii de exprimare se decantează.
Wednesday, 29 June 2011
Pai io mentin, da' care medii ? Ca nu urmaresc rationamentu'.
Wednesday, 29 June 2011
Mo! Am priceput bine că un comentariu mediu pe Trolema are spre 45 de cuvinte, spre deosebire de un comentariu mediu la Arhi care are 26 de cuvinte? La alea mă refer.
Că-n comentarii scurte gen "muu" a la dadatroll nu prea ai ce să înghesui.
Wednesday, 29 June 2011
Da, ai priceput bine. Comentariul mediu pe Trilema are ~45 de cuvinte, si aceste cuvinte au aproximativ 5 litere, comentariul mediu dincolo are ~26 de cuvinte, si aceste cuvinte au aproximativ 4 litere juma'.
Wednesday, 29 June 2011
deci esti winrar.
Wednesday, 29 June 2011
Pai depinde de criterii buei.