TRIP - Discutie pe algoritm
Topul Romanilor Influenti pe Twitter, prescurtat TRIP nu fara oarecare malitie se bazeaza pe niste asumptii teoretice si niste alegeri specifice la implementare, pe care as dori sa le discutam putin.
I. Limba Romana. Nu incape discutie pentru mintea mea ca o astfel de unealta are utilitate strict pentru vorbitorii de limba romana. Aceasta lipsa de indoiala e rezultatul unor alegeri strategice facute de mine, pentru mine, si ca atare nu are neaparat sens sau utilitate pentru alte persoane. Totusi, discutia in afara ei nu are utilitate pentru mine, asa ca suntem siliti de imprejurari sa ne supunem acestei limitari.
In ce priveste implementarea practica, spider-ul TRIP citeste fluxul unui utilizator de twitter si incearca sa discearna ce limba vorbeste acesta. Alegerea nu se face nici dupa declaratia utilizatorului (de exemplu Location:) nici dupa alte criterii. In acest sens, daca scrieti in limba engleza sunteti, pentru TRIP.spider un englez, si daca scrieti in limba romana, chiar si in Angola sau Indochina, sunteti roman. Cred ca aceasta alegere e destul de bine justificabila prin recurs la rolul limbii ca suport principal al influentei culturale, si astfel, privind oricat de adanc la radacinile filosofice ale problemei, tot nu vom putea discerne notiunea de influenta de limba in care ea se petrece. Totusi, indiferent de credinta mea, acesta e un prim punct deschis discutiei.
II. Re-tweets ca unica baza de masura. De departe cea mai controversata alegere. S-o luam la pas : cam ce s-ar putea folosi pentru a construi o ierarhie intre diversii utilizatori de twitter ?
In mod evident, nu inaltimea sau culoarea ochilor, pentru ca sunt dificil de masurat in cadrul sistemului. In mod evident nu calificarea academica sau parerea prietenilor de-o bere, nu doar pentru ca sunt dificil de masurat in cadrul sistemului, dar mai ales pentru ca nu prezinta multa diversitate. Toata lumea are o diploma si bea bere cu oameni care-l cred destept, ca asta-i cursul lumii.
Poate parea ridicol a lua in considerare asemenea chestiuni, pana realizam ca de fapt aici este asumptia numarul 1 a oricarei incercari de ierarhizare : se va putea ea face folosind strict masuri din cadrul sistemului ? Eu propun ca da, dar mi se pare ca este, sau ar putea sa fie discutabil.
Dar daca admitem asumptia II.1, ramane sa alegem ce masuri din cadrul sistemului vom folosi. Ele ar putea fi : numarul de followeri (adica persoanele care urmaresc un utilizator anumit) ; numarul de tweeturi emise ; numarul de mentiuni ale numelui de catre altii ( @user) si respectiv numarul de re-tweets, (RT @user). Si asa ajungem sa facem si asumptia II.2, si anume, ca nu mai exista altele. Sa le luam pe acestea la rand :
- numarul de followeri. In principiu, toti cei care subscriu la lista de distributie sunt interesati de continut, ca altfel n-ar face-o, si reprezinta o potentiala piata pe care emisiile fiecarui utilizator se lupta pentru atentie.
Problema este ca nu te obliga nimeni sa-ti citesti twitturile. Daca ar exista un sistem prin care sa fii obligat sa citesti tot ce te-ai abonat sa primesti, atunci sigur ca oamenii ar fi foarte atenti unde subscriu (se vede in indarjirea cu care majoritatea lumii isi apara adresa de email. Ce-i o adresa de email decat un @nume, pana la urma ?).
A doua problema este faptul ca numarul de foloweri se afla pe aceasta lista. Acest numar fiind pasibil de-a fi folosit in evaluarea si ierarhizarea conturilor de twitter, si posesorii lor fiind vanitosi ca toti oamenii (ba poate chiar ceva pe deasupra), fiecare unitate capata o valoare pentru cel urmarit. De-aici si pana la schimb nu mai este decat un pas, pentru ca traim in capitalism, si iata deci ca exista o valoare de schimb pentru a urmari pe cineva.
Intrucat costul urmaririi e minim, si exista o valoare reziduala, vor aparea (si deja au aparut) oameni specializati in a urmari (fara a citi). Sigur, n-o fac cu mana, dar de facut tot o fac. Acest fapt imi spune mie ca in sine, numarul de urmaritori e complet lipsit de valoare pentru scopurile noaste.
Bine-bine, imi veti spune, o fi "in sine" lipsit de valoare, dar se poate proceda la "rafinarea" lui, alegand spamerii de oamenii reali etc. Sigur ca se poate, discretionar. Singura metoda non-discretionara care poate fi aplicata e descrisa mai jos (si iata si asumptia II.3) - numarul de tweets. Avand in vedere ca exista servicii care muta fluxuri rss pe twitter, precum si jocurile acelea tampe ("x a vanat o caprioara! vino si tu sa-ti spamezi urmaritorii cu mesajele noastre tampe!"), precum si tot soiul de aplicatii dubioase ("X asculta melodia Y") tot la 3-4 minute cat dureaza o melodie fac acest punct complet ridicol pentru scopurile noastre . Asumptia II.4
- numarul de mentiuni. Twitter poate fi folosit ca un fel de chat, in care X se adreseaza @Y si Y inapoi @X. In principiu, aceste mentiuni ar putea avea valoare pentru scopul nostru, dar intervine o singura problema : oamenii percep in majoritate ca e nepoliticos sa ignori aceste mesaje (cand au sens, sigur ca spamul, adica mesajele fara context discernibil se ignora cu veselie). Intr-un sens, o @replica nu-i un act al vointei celui ce-o trimite, ci un rezultat al vointei celui ce-o primeste.
Astfel, daca am pune valoare pe aceste mentiuni, ar fi foarte simplu pentru o persoana interesata sa manipuleze rezultatele sa trimita cate o intrebare de bun simt pe zi catre fiecare din cei aflati pe primele 100 de pozitii. Si-aici deci asumptia II.4, ca a numara @replicile n-ar aduce servicii. - Re-tweets. Diferenta intre o @replica si-un retweet este ca prima se distribuie doar listei comune, in timp ce ultimul se distribuie listei proprii. Ca sa ne intelegem : Daca Y este urmarit de 500 de persoane, iar X este urmarit de 400, din care 45 il urmaresc si pe Y, atunci textul "@X Salut mei!" emis de Y, precum si textul "@Y Salut, ce mai faci." sunt distribuite unui numar de 45 de oameni : aceia care-i urmaresc pe ambii. Asta in timp ce textele "RT @X : Buna idee" emis de Y respectiv "RT: @Y Beau lapte" emis de X sunt distribuite catre 500 si 400 de persoane respectiv.
Pe langa aceasta, nu exista o atat de mare asteptare din partea emitentilor ca un mesaj anumit va fi preluat si re-trimis, ceea ce inseamna ca agentii au o mult mai mare libertate in a-si manifesta alegerea.
III. Sistemul nou de RT. Noul sistem introdus recent de platforma ingaduie RT-ul ca functie programatica. Problema cu el este ca pune mai mult accent pe sursa originala, si foarte putin accent pe conducatorii mesajului, ori succesul ideii de RT e tocmai accentul pus pe transmitatori, adesea in detrimentul originatorului. In plus, se limiteaza semnificativ modificarile pe care un transmitator le poate aduce mesajului, care erau al doilea factor major in succesul sistemului. Chestia e un bun exemplu de gresala inspirata de niste idei putrede (alea cu copyrightul), si eu sunt convins ca nu va cunoaste o larga folosire, si va disparea in negura uitarii. Asumptia II.5, pentru ca TRIP nu le ia in considerare (deloc).
In loc de concluzie, pentru ca m-am intins destul de mult la vorba, va poftesc la comentarii, sa disecam problema pe mai departe, pana la satisfacere sau extenuare.
Update, 22 nov : Am implementat o sugestie foarte buna venita din partea lui Catalin, de-a lua in considerare si "via @".
Friday, 20 November 2009
Tehnic, o rugaminte de tip ''Please RT'' iti poate genera o ''influenta'' bunicica dupa criteriul asta.
Friday, 20 November 2009
Ce-i drept.
Friday, 20 November 2009
Bene, nu ca influenta pe Twitter te-ar face cine stie ce mare stab dar vezi sa nu generezi un RT mania :)
Friday, 20 November 2009
Modul in care tratezi RT-ul nou e ca si cum ai da toate premiile oscar baietilor de la piratesbay sau Cinema Patria.
Friday, 20 November 2009
@krossfire Ma gandesc ca ma salveaza structura de costuri : A cere un RT costa mai mult, si a primi un RT valoreaza mai mult decat prezenta in acest top : insasi valoarea intrinseca a RT-ului respectiv, care-i practic o inchiriere de lista de distributie.
Cel putin teoretic vorbind, cred ca e ok.
@Dr.A Nu stiu, mie mi se pare c-ai mai aproape de a spune, filmele sunt filme, n-am sa ma duc la asta pentru ca asa imi spune mr Holywood, doar e mult mai mare lumea decat vrea sa-ti arate o corporatie.
Friday, 20 November 2009
Suna frumos ... nu e frumos locul pe care ma aflu! :D
Friday, 20 November 2009
nimic despre dezbatere? am cautat si nu gasesc pe nicaieri decat mici schite!
Friday, 20 November 2009
@Ionut Esti tanar, ai vreme.
@fanitza Ce dezbatere ?
Friday, 20 November 2009
aia de pe la parlament. ce a inceput pe 19 si a durat doua ore. cu principalii contracandidati la presedintie.
Friday, 20 November 2009
@fanita
pai dezbaterea e pentru nehotarati. Daca stii cu cine votezi la ce sa mai pierzi vremea ?
@mircea
poate ar fi interesant sa pui data ultimei actualizari la top
Friday, 20 November 2009
am vrut sa aud despre prestatie, dar nu numai. m-ar interesa mai mult despre subiectul asta. m-a dezamagit toata clasa politica. toti cei care au fost acolo, inafara de participantii la confruntare si sotia lui basescu, care a avut decenta sa stea cuminte si probabil a lui antonescu, pe care nu au prea aratat-o.
niste porci si niste nesimtiti. parca nu au fost la socala. se foiau, sopteau, radeau, vorbeau, ca si niste prescolari. nesimtita de eba se juca la telefon, a lui geoana citea mesaje si colectiona biletele in timp ce unul pe acolo prin spate dormea(l-au aratat camerele). liniste sa faca?! nici vorba, l-au si intrerupt la un moment dat pe geoana ca sa ceara liniste salii. niste nesimtiti! porci!
Friday, 20 November 2009
@fanita
Terorista mica ce esti tu. Cautai o ocazie, un pretext, ceva sa dai afara tot ce aveai pe suflet, asai ?
Friday, 20 November 2009
@Dr.A Va avea actualizare continua, dar deocamdata se mai munceste la spideri, asa ca-s cand cu roatele la deal, cand fac tampenii si trebe rollback etc.
Sunday, 22 November 2009
Mi-a venit o idee. Faza e ca unele mesaje cu @ nu sunt mesaje de chat, dar nu ai cum sa le identifici pe cele valoroase. Insa mi s-ar parea relevant sa introduci in algoritm si "via @x" - asta chiar are sens si tine de influenta lui x. Ce parere ai?
Sunday, 22 November 2009
Posibil, eventual inteles ca diversitate, nu volum.
De asemenea, as putea adauga toate RT-urile factuale, adica mesajele precum de exemplu "Da ? Si ? @nume bla bla" care se comporta ca un RT chiar daca lumea nu le numeste asa. Totusi, se pierde ceva prin diluare, tocmai datorita faptului ca lumea nu le-a numit intentionat RT-uri.
Sunday, 22 November 2009
"via" e altceva, nu e un retweet in sine. E cand pui un link de care ai aflat prin x sau cand pui link la un articol al lui x. Asta inseamna ca x e influent..
Chiar mi se pare relevant "via @" - o sa dau, de curiozitate un search, sa vad daca exista foarte multe contexte in care nu e semnificativ..
Sunday, 22 November 2009
wtf.. gasesc doar update-uri de la japonezi. Ceva e in neregula cu searchul ala..
Sunday, 22 November 2009
Search-ul twitter zici ? Nici eu nu-l prea folosesc ca-i cam confuz.
Via, da, asta-i drept. Hmm.
Sunday, 22 November 2009
Am implementat si via, si-am mai introdus cateva mici schimbari/rafinamente de algoritm.
Sunday, 22 November 2009
Foarte tare. :)
Asta e motivul ptr care ai dat tweetul cu chinezu? http://twitter.com/#search?q=via%20%40chinezu
Daca tot mi-ai acceptat propunerea, as mai avea una legata de estetica:
sa aliniezi coloanele. Asta poti s-o faci fara mari batai de cap daca tii cont de faptul ca exista maxim 15 (parca) caractere intr-un username de twitter. Poti sa bagi un font gen courier new si afisezi prima coloana pe 15 spatii.
La fel si cu scorul: sa fie afisat tot cu un font de-asta, cu un numar fixed de zecimale.
Si ar merge si un spatiu intre prima coloana (cu numarul curent) si username. :D
Sunday, 22 November 2009
Problema cu astea e una de spatiu. La ora actuala pagina aia are 2000 de oameni pe ea, si se incarca acceptabil de repede (zic eu). Tine cont ca fiecare spatiu adauga inca 2kb. Fiecare tag, fiecare caracter costa.
Sunday, 22 November 2009
Pai nu e un cost atat de mare in comparatie cu versiunea de acum cateva ore, cand se afisau toti referrerii din oficiu. :)
Monday, 30 November 2009
Si iata ca twitter renunta la noul RT. A supravietuit vreo 10 zile, o saptamana mai mult decat era nevoie. Duca-se.
Monday, 30 November 2009
Poate e ceva temporar. Au anuntat asta oficial? M-ar enerva sa scoata listele. De RT nu-mi pasa asa mult..
Monday, 30 November 2009
Listele ziceau ca le aduc inapoi.
Thursday, 3 December 2009
MODIFICARE IMPORTANTA
Revizuind datele colectate (care se apropie binisor de un milion de tweeturi) am tras concluzia ca principala eroare sistematica care afecteaza la ora actuala procesarea algoritmica a datelor survine din interpretarea gresita a RT-urilor date de "grupurile de prietenie".
Aceasta descoperire nu-i neaparat surprinzatoare, in principiu, orice algoritm iterativ pe graful conexiunilor e vulnerabil la un atac al unui grup oarecare de noduri care isi acorda link-uri in cerc inchis (circle-jerk in limba engleza). In economie, problema e descrisa de bancul cu tabloul. Toate sistemele de evaluare a importantei bazate pe aceasti teorie matematica (ca de exemplu Google) folosesc penalizari pentru a impiedica acest abuz. Astfel, avem mai degraba confirmarea implementarii corecte pana la acest punct, in sensul ca n-am introdus surse mai importante de erori, care s-o eclipseze.
De acum incolo am introdus sisteme corective, pentru a impiedica reprezentarea disproportionata a acestui tip de "influenta" mai degraba conventionala decat reala, si am recompilat intreaga baza de date. Este probabil sa apara cateva modificari importante in clasament fata de versiunile anterioare.