Extractie din wordpress.com

Monday, 06 February, Year 4 d.Tr. | Author: Mircea Popescu

Una dintre intrebarile mai interesante ar fi "care-s blogurile romanesti de pe wordpress.com" ?

Poate ca nu-i o intrebare interesanta pentru toata lumea, da' e interesanta pentru mine. Asa ca le-am scris acum vreo doua saptamini cetatenilor, sa vedem daca ne intelegem cumva sa-mi dea o lista. Nu mi-au raspuns, ca asta te face o companie mare, sa nu le raspunzi alora mai destepti decit tine cind te intreaba ceva. Da' nu e problema, ca nu degeaba suntem mai destepti decit ei : ne raspundem si singuri la o adica.

Tineti minte ca nu demult am publicat un articol cu norul de etichete de-aici, plingindu-ma ca nu foloseste la nimic pina la urma ? Ei, ca sa vezi chestie : e adevarat ca nu a folosit la ce intentionam eu initial sa-l folosesc, da' uite ca a ajuns sa foloseasca la altceva. Am luat lista cu cuvintele respective (toate), si am creat un ditamai fisier de ~95`000 de rinduri, plin cu http://en.wordpress.com/tag/{cuvint}/ si respectiv http://ro.wordpress.com/tag/{cuvint}/. Dupa care l-am taiat in opt si-am executat un wget -i -O pentru fiecare bucata in parte (ca paralelizare, sa nu dureze o saptamina sau ceva). Iar apoi am reunit cele opt fisiere astfel rezultate intr-o imensitate de 2 Gbi pe care tocmai lucreaza grep acum.

Cum lucreaza ? Pai sa vedeti risul lumii... wordpress au mare grija sa puna rel="nofollow" pe toate blogurile utilizatorilor si numai pe ele. Deci...

Ca rezultat am o lista cvasi completa cu blogurile romanesti cit de cit active (cel putin, atit de active cit sa puna un tag) pe wordpress.comii. Amanuntul amuzant este ca ea are 92`486 de linii, ceea ce-ar indica la prima vedere ca toata lumea subestimeaza de fapt numarul de bloguri romanesti (o presupunere mai veche de-a mea, doar ca-n versiunea canonica era ca "toata lumea in afara de mine subestimeaza numarul de bloguri romanesti"). Pe de cealalta parte e cert ca au mai scapat in lista diverse chestii care nu-s romanesti (in virtutea faptului ca unele cuvinte din lista initiala nu erau strict romanesti, fiind folosite drept taguri si de catre vorbitorii altor limbi).

In tot cazul, am sa parcurg lista (manual!) sa vedem ce minuni mai descopar pe-acolo.iii

Mai tirziu : Deci m-am uitat la primele 106 link-uri si-am introdus in fain 16 dintre ele (vreo douazeci si ceva erau romanesti, daca procentul asta se pastreaza lista de 92k nu mai suna asa impresionant). Totusi din cele 16 nu mai putin de 12 erau noi (adica nemaivazute pe fain niciodata), ceea ce-i promitator. In alta ordine de idei, realitatea.net apare prin rezultate ?!

———
  1. Unul dintre avantajele importante ale linux este ca proceseaza fara probleme si fara emotii fisiere de gigabiti, chestie care prinde bine te miri cind. []
  2. Daca va pasioneaza detaliile tehnice, grep -o "http://[0-9a-zA-Z\-\_\.]*/" alege exclusiv url-urile si awk 'a[$0]!=1;{a[$0]=1}' scoate duplicatele. []
  3. Daca e cineva curios, se poate consulta aici, format zip. []
Category: Meta psihoza
Comments feed : RSS 2.0. Leave your own comment below, or send a trackback.

10 Responses

  1. Pai si cate crezi ca sunt? Peste 20k active tot or fi ... Oricum, multi mai putine decat pe blogspot. In sensul ca cine a vrut blog si nu stia cum sa gaseasca unul, Google il dadea pe al lui.

    Tisoreni nebuni. Cine are curaj sa manance o ciocolata lasata pe strada? Daca are etnobotanice in ea? Sau banane. http://www.evz.ro/detalii/stiri/un-nou-tip-de-lant-uman-niste-necunoscuti-lasa-cadouri-in-spatii-publice-din-timisoara-9645.html

  2. Mircea Popescu`s avatar
    2
    Mircea Popescu 
    Monday, 6 February 2012

    Pe-acolo, sa vedem ca-n a doua parte a listei sunt de pe ro.wordpress, se mai schimba proportiile. La ora actuala as estima ca oriunde intre 15 si 45k.

    Cine are nevoie. Vezi sa n-aiba etnobotanice, chiar cunosc multi tipi ce baga prafuri dispusi sa arunce cu ele. Si in loc de ps, ieu las maruntisul prin locuri accesibile copiilor de minim zece ani.

  3. În Statele Unite, acum câțiva ani a apărut un curent social aparte: persoane care au rămas în anonimat au început să lase mici ”cadouri” în comunitate.

    Protestanti anyone?

  4. Eheeei...vremuri. Cand era Gramo pe locul I in wordpress (habar n-am ce si daca mai scrie), urmat de Luciat (a cedat presiunii psihice) si de mine (si la scurta vreme de Demaio). 2007 man, vremuri de invitat bloggeri la tv de parca sa postezi clipuri pe o platforma online inseamna sa dai de mancare saracilor.

  5. Mircea Popescu`s avatar
    5
    Mircea Popescu 
    Monday, 6 February 2012

    @Freud Crezi ca are legatura ?

    @krossfire Alte timpuri.

  6. Apropo nu stiti poate este vreun motor de cautare mai bun ca google la capitolul bloguri wordpress care au cel putin un articol despre pariuri. mar interesa sa gasesc cumva. Am incercat pe google insa imi afiseaza prea putine rezultate, dintre care nici jumatate nu corespund. As vrea sa aflu mai multe despre asta si sa comentez in acelasi timp. iata de unde a izvorat interesul:pariuri sportive. Cine ma poate ajuta? vreo lista ceva?

  7. Mircea Popescu`s avatar
    7
    Mircea Popescu 
    Friday, 24 February 2012

    Poti incerca sistemul lor de taguri, ca de exemplu
    http://ro.wordpress.com/tags/pariuri
    eventual si cu variatiuni.

  1. [...] noi, dar nici macar unul sa chiar vreau sa-l adaug in reader. Nu glumesc, am luat pur si simplu o lista cu bloguri pe wordpress si am luat la rand ce era acolo. Am citit cel putin cate un articol complet de la [...]

  2. [...] umple bufferele cu liste de lecturi. In Februarie am adaugat pentru prima oara un sorb, o pompa, un model activ. Nu m-am prins atunci de ce exact am facut asta, eu fac multe lucruri pe care nu le inteleg la [...]

  3. [...] pe care o vom procesa se gaseste, cum am mai zis, in a treia nota a articolului Extractie din wordpress.com. Salvati respectivul fisier .zip undeva si extrageti-l dintru-ndesine afara la [...]

Add your cents! »
    If this is your first comment, it will wait to be approved. This usually takes a few hours. Subsequent comments are not delayed.