Extractie din wordpress.com
Una dintre intrebarile mai interesante ar fi "care-s blogurile romanesti de pe wordpress.com" ?
Poate ca nu-i o intrebare interesanta pentru toata lumea, da' e interesanta pentru mine. Asa ca le-am scris acum vreo doua saptamini cetatenilor, sa vedem daca ne intelegem cumva sa-mi dea o lista. Nu mi-au raspuns, ca asta te face o companie mare, sa nu le raspunzi alora mai destepti decit tine cind te intreaba ceva. Da' nu e problema, ca nu degeaba suntem mai destepti decit ei : ne raspundem si singuri la o adica.
Tineti minte ca nu demult am publicat un articol cu norul de etichete de-aici, plingindu-ma ca nu foloseste la nimic pina la urma ? Ei, ca sa vezi chestie : e adevarat ca nu a folosit la ce intentionam eu initial sa-l folosesc, da' uite ca a ajuns sa foloseasca la altceva. Am luat lista cu cuvintele respective (toate), si am creat un ditamai fisier de ~95`000 de rinduri, plin cu http://en.wordpress.com/tag/{cuvint}/ si respectiv http://ro.wordpress.com/tag/{cuvint}/. Dupa care l-am taiat in opt si-am executat un wget -i -O pentru fiecare bucata in parte (ca paralelizare, sa nu dureze o saptamina sau ceva). Iar apoi am reunit cele opt fisiere astfel rezultate intr-o imensitate de 2 Gbi pe care tocmai lucreaza grep acum.
Cum lucreaza ? Pai sa vedeti risul lumii... wordpress au mare grija sa puna rel="nofollow" pe toate blogurile utilizatorilor si numai pe ele. Deci...
Ca rezultat am o lista cvasi completa cu blogurile romanesti cit de cit active (cel putin, atit de active cit sa puna un tag) pe wordpress.comii. Amanuntul amuzant este ca ea are 92`486 de linii, ceea ce-ar indica la prima vedere ca toata lumea subestimeaza de fapt numarul de bloguri romanesti (o presupunere mai veche de-a mea, doar ca-n versiunea canonica era ca "toata lumea in afara de mine subestimeaza numarul de bloguri romanesti"). Pe de cealalta parte e cert ca au mai scapat in lista diverse chestii care nu-s romanesti (in virtutea faptului ca unele cuvinte din lista initiala nu erau strict romanesti, fiind folosite drept taguri si de catre vorbitorii altor limbi).
In tot cazul, am sa parcurg lista (manual!) sa vedem ce minuni mai descopar pe-acolo.iii
Mai tirziu : Deci m-am uitat la primele 106 link-uri si-am introdus in fain 16 dintre ele (vreo douazeci si ceva erau romanesti, daca procentul asta se pastreaza lista de 92k nu mai suna asa impresionant). Totusi din cele 16 nu mai putin de 12 erau noi (adica nemaivazute pe fain niciodata), ceea ce-i promitator. In alta ordine de idei, realitatea.net apare prin rezultate ?!
———- Unul dintre avantajele importante ale linux este ca proceseaza fara probleme si fara emotii fisiere de gigabiti, chestie care prinde bine te miri cind. [↩]
- Daca va pasioneaza detaliile tehnice, grep -o "http://[0-9a-zA-Z\-\_\.]*/" alege exclusiv url-urile si awk 'a[$0]!=1;{a[$0]=1}' scoate duplicatele. [↩]
- Daca e cineva curios, se poate consulta aici, format zip. [↩]
Monday, 6 February 2012
Pai si cate crezi ca sunt? Peste 20k active tot or fi ... Oricum, multi mai putine decat pe blogspot. In sensul ca cine a vrut blog si nu stia cum sa gaseasca unul, Google il dadea pe al lui.
Tisoreni nebuni. Cine are curaj sa manance o ciocolata lasata pe strada? Daca are etnobotanice in ea? Sau banane. http://www.evz.ro/detalii/stiri/un-nou-tip-de-lant-uman-niste-necunoscuti-lasa-cadouri-in-spatii-publice-din-timisoara-9645.html
Monday, 6 February 2012
Pe-acolo, sa vedem ca-n a doua parte a listei sunt de pe ro.wordpress, se mai schimba proportiile. La ora actuala as estima ca oriunde intre 15 si 45k.
Cine are nevoie. Vezi sa n-aiba etnobotanice, chiar cunosc multi tipi ce baga prafuri dispusi sa arunce cu ele. Si in loc de ps, ieu las maruntisul prin locuri accesibile copiilor de minim zece ani.
Monday, 6 February 2012
Protestanti anyone?
Monday, 6 February 2012
Eheeei...vremuri. Cand era Gramo pe locul I in wordpress (habar n-am ce si daca mai scrie), urmat de Luciat (a cedat presiunii psihice) si de mine (si la scurta vreme de Demaio). 2007 man, vremuri de invitat bloggeri la tv de parca sa postezi clipuri pe o platforma online inseamna sa dai de mancare saracilor.
Monday, 6 February 2012
@Freud Crezi ca are legatura ?
@krossfire Alte timpuri.
Friday, 24 February 2012
Apropo nu stiti poate este vreun motor de cautare mai bun ca google la capitolul bloguri wordpress care au cel putin un articol despre pariuri. mar interesa sa gasesc cumva. Am incercat pe google insa imi afiseaza prea putine rezultate, dintre care nici jumatate nu corespund. As vrea sa aflu mai multe despre asta si sa comentez in acelasi timp. iata de unde a izvorat interesul:pariuri sportive. Cine ma poate ajuta? vreo lista ceva?
Friday, 24 February 2012
Poti incerca sistemul lor de taguri, ca de exemplu
http://ro.wordpress.com/tags/pariuri
eventual si cu variatiuni.