Joaca cu numerele

Wednesday, 29 June, Year 3 d.Tr. | Author: Mircea Popescu

Citam din personaje dubioase :

Eu am unul din cele mai comentate bloguri din rromânia. Din cele aproape 200 000 de comentarii, nu vă imaginaţi câtă ură am putut să cern.

Chestia m-a interesat, pentru ca tocmai ce-am publicat un articol cu prelucrari statistice pe comentariile de-aici de pe Trilema. Eu n-am doua sute de mii de comentarii, ci aproape cincizeci de mii. De fapt, daca va uitati la un comentariu mai recent vedeti in coada url-ului de-l identifica* (numit in limbaj de specialitate permalink) ceva precum #comment-52789 sa zicem. In realitate ele sunt ceva mai putine, pentru ca in cifra respectiva se numara si spamul, indiferent daca-l aprobati sau nu**. Pur si simplu numarul ala e un index, si se incrementeaza la fiecare comentariu primit, de orice fel.

Cetateanul a scos permalink-urile comentariilor de la el din tema, dar cum n-are suficienta pricepere cit sa le chiar scoata din matele wordpress-ului ele apar in continuare pe pagina, si daca va uitati la sursa vedeti ceva precum "<div id="comment-176492" class="comment-body">"***, care-i exact aceeasi chestie. Cu care ocazie observam ca nici vorba de 200,000 dat fiind ca-s 176 de mii cel mult. Da' sa zicem ca se mai plateste si TVA pe comentariile declarate, si blogeru' cu pretentii spune doua sute cind are o suta saptezeci si sase.

Totusi, chestia m-a facut curios, sa aflu anume oare cite comentarii adevarate se gasesc intre alea 176,492 de comentarii teoretice la om pe site ? Asa ca i-am facut un full site backup, ca doara de-aia exista wget pe lume, dupa care am trecut la a procesa gigabitul de cruft rezultat, ca doara de-aia exista awk si grep pe lume. Este cite chestii exista pe lume despre care nici nu stiati ?

mircea@inigo-montoya:~$ grep -c 'comment-' /home/mircea/random/arhiproc-n.txt
163762

Pentru verificari, aveti aici fisierul de baza, colectia integrala a comentariilor de pe site-ul omului de la facere si pina in prezent. 180369 comentarii nominale (acum vreo doua ceasuri), 163762 comentarii reale, adica aproximativ 90% (ceea ce-i chiar bine). Ca o paranteza, de pe 9 8 pina pe 29 Iunie curent a avansat nominal de la 176492 pina la 180369, adica aproape 4000 de comentarii, ceea ce revine spre 200 pe zi, ceea ce iarasi e bine (cam dublu fata de Trilema).

mircea@inigo-montoya:~$ wc /home/mircea/random/arhiproc-n.txt
163762 4375578 25854250 /home/mircea/random/arhiproc-n.txt

Adica 4,211,816 cuvinte (am scazut 163,762, rezultate din headerul fiecarei linii), iarasi dublu fata de Trilema.

Per total, omul tine blog din Mai 2007 (49 de luni), primeste cam de doua ori mai multe comentarii, si are cam de doua ori mai multe cuvinte-n total in comentarii decit Trilema (care exista din Ianuarie 2009, deci 30 de luni). Ce-i drept, comentariile aici sunt ceva mai lungi (noroc cu grid :p).

Cam asta. Nu intram in nici o discutie despre calitate, ca n-avem abordari numerice adecvate.

---------
* Pe care url il puteti obtine facind click dreapta pe data afisate sub numele comentatorului, "Miercuri, 29 Iunie 2011" sau ce-o fi, dupa caz.

** Pe Trilema numarul e ceva mai mic dar destul de aproape, in zona 90-95%, pentru ca eu folosesc niste metode antispam foarte eficiente. Pe alte bloguri comentariile reale pot fi 10% sau chiar sub din cifra respectiva.

*** Cu care ocazie, un pont : daca adaugati dupa url-ul paginii asa cum apare el #comment-176662, pagina se va incarca direct la comentariul identificat astfel, daca el exista pe pagina respectiva. Indiferent daca blogerul are sau n-are permalink-urile afisate.

Category: Meta psihoza
Comments feed : RSS 2.0. Leave your own comment below, or send a trackback.

16 Responses

  1. Foarte tare! Nu ca ai depistat adevarul gol-golut ci ca te-ai gandit la asta :D

  2. Mircea Popescu`s avatar
    2
    Mircea Popescu 
    Wednesday, 29 June 2011

    Merci. Ne straduim in aceasta directie, zi de zi.

  3. eu sunt fascinat de ce i-ai dat numele de montoya pc-ului?!

  4. Mircea Popescu`s avatar
    4
    Mircea Popescu 
    Wednesday, 29 June 2011

    It has killed my father. Prepare to die.

  5. anonimosu`s avatar
    5
    anonimosuinsigna de prim sositinsigna de tehnolog 
    Wednesday, 29 June 2011

    Formatul fiind comment-numar : comentariu, trebuia sa scazi 327524.

  6. Mircea Popescu`s avatar
    6
    Mircea Popescu 
    Wednesday, 29 June 2011

    A, zici tu ceva.

  7. ar fi interesantă o medie de cuvinte/comentariu comparată, dacă ai chef

  8. Mircea Popescu`s avatar
    8
    Mircea Popescu 
    Wednesday, 29 June 2011

    SELECT SUM( LENGTH( comment_content ) ) FROM comments WHERE comment_approved =1

    12740082

    SELECT SUM( LENGTH( comment_content ) - LENGTH( REPLACE( comment_content, ' ', '' ) ) +1 ) FROM comments WHERE comment_approved =1

    2157106

    12740082 / 2157106 = 5.90609919

    25854250 - (163,762 x 15) / 4211816 = 23397820 / 4211816 = 5.555280668

    N-am scazut a doua oara headerele (cum recomanda anonimosu) pentru ca din cite inteleg eu din documentatie wc nu considera stringul " : " drept un cuvint si deci nu-i cazul.

    O sursa de erori ar fi faptul ca-n baza mea de date apar si entitati html, in timp ce-n fisierul procesat cu care compar nu apar nici un fel de entitati html. Estimativ impactul n-ar trebui sa fie mai mare de 0,01.

  9. decat ~6 cuvinte per comentariu pe Trolema? mi se părea mult mai mare ...

  10. Mircea Popescu`s avatar
    10
    Mircea Popescu 
    Wednesday, 29 June 2011

    Pai banuiesc ca tu esti de vina : ia dinsus 5 + 2 + 7 + 3 + 10 + 2 + 8 + 2 + 2 + 5 + 4 + 3 + 4 => 4.38.

    A, stai. Eu am calculat lungimea medie a cuvintului in cele doua.

    Altminteri, ca numar de cuvinte per comentariu, avem :

    2157106 / 47875 = 45.08
    4211816 / 163762 = 25.72.

    Deci cam dublu, doar ca-n sensul celalalt.

  11. Dacă menţii paradigma că e nevoie de cantitate înainte de a avea calitate .. o primă aproximare a meritelor celor două medii de exprimare se decantează.

  12. Mircea Popescu`s avatar
    12
    Mircea Popescu 
    Wednesday, 29 June 2011

    Pai io mentin, da' care medii ? Ca nu urmaresc rationamentu'.

  13. Mo! Am priceput bine că un comentariu mediu pe Trolema are spre 45 de cuvinte, spre deosebire de un comentariu mediu la Arhi care are 26 de cuvinte? La alea mă refer.

    Că-n comentarii scurte gen "muu" a la dadatroll nu prea ai ce să înghesui.

  14. Mircea Popescu`s avatar
    14
    Mircea Popescu 
    Wednesday, 29 June 2011

    Da, ai priceput bine. Comentariul mediu pe Trilema are ~45 de cuvinte, si aceste cuvinte au aproximativ 5 litere, comentariul mediu dincolo are ~26 de cuvinte, si aceste cuvinte au aproximativ 4 litere juma'.

  15. deci esti winrar.

  16. Mircea Popescu`s avatar
    16
    Mircea Popescu 
    Wednesday, 29 June 2011

    Pai depinde de criterii buei.

Add your cents! »
    If this is your first comment, it will wait to be approved. This usually takes a few hours. Subsequent comments are not delayed.