Cum ne protejam de scraperi ?
Sa incepem cu ilustrarea problemei :
Ce este info.multicast.ro ala ? Pai ce sa fie, iaca un site de continut care parseaza feed-uri si le republica.
Eu n-am lasat niciodata un comentariu la ei pe site, eu i-am scris lui Dan Popa, aka hymerion. Nu ma intereseaza sa-mi vad numele asociat cu cine stie ce porcarie de site doar in virtutea faptului ca stiu si ei parsa XML, si inca mai important de atit, ma gindesc ca nici Dan Popa nu-i prea incintat de faptul ca altii ies in Google pe continutul lui, daca-si cunoaste interesul. Nu-i de altfel el singurul care infrunta problema asta.
Ce-i de facut ? Pai, o solutie simpla ar fi urmatoarea :
Pasul I : Modificati /wp-includes/feed-rss2.php asa incit acolo unde scrie la ora actuala
<?php if (get_option('rss_use_excerpt')) : ?>
<description><![CDATA[<?php the_excerpt_rss() ?>]]></description>
<?php else : ?>
<description><![CDATA[<?php the_excerpt_rss() ?>]]></description>
sa scrie in loc
<?php if (get_option('rss_use_excerpt')) : ?>
<description><![CDATA[<?php echo $_SERVER['REMOTE_ADDR']," "; the_excerpt_rss() ?>]]></description>
<?php else : ?>
<description><![CDATA[<?php echo $_SERVER['REMOTE_ADDR']," "; the_excerpt_rss() ?>]]></description>
Pasul II : Ori de cite ori va gasiti continutul publicat pe cite un site care nu va incalzeste, adaugati un Deny from IP-ul respectiv in .htaccess si s-a terminat cu ei.
Simplu, nu ?
UPDATE, dupa citeva zile :
Wednesday, 22 December 2010
off topic: am postat ceva cu "recunştinţă", ce-am cîştigat? :D
Wednesday, 22 December 2010
Pai ce sa cistigi... tocmai aia :D
Thursday, 23 December 2010
Înseamnă că am cîştigat tot!
Saturday, 25 December 2010
Updated.
Sunday, 26 December 2010
Ca 'proprietar' al unui modest agregator de stiri din psihologie (nu-i mai dau adresa, ca sa nu ne mai complicam) in timp ce citeam ce ai scris am simtit un fior (recunosc, cam nepotrivit) de solidaritate cu scraperii :)
Asa ca ma intreb daca metoda asta cu adaugat IP-ul in textul feed-ului, pe care am mai vazut-o recomandata si prin alte locuri nu are totusi un leac foarte simplu: eu ca (posibil) scraper odios ce sunt pun un pic de regex care sterge IP-urile din textele furate de la tine, iar apoi pot sa le afisez dupa pofta inimii. :)
In alta ordine de idei, ca tot veni vorba sarbatori fericite si spor la ce mai faci si pe 2011.
Monday, 27 December 2010
In principiu nu poate avea leac. Daca intr-adevar pui un regex care sa stearga IP-urile eu pot sa le adaug un ip2num() care le tipareste numeric, nu in formatul clasic. Sau un char() pe fiecare block, si obtin 4 caractere. Sau un base64_encode(), si rezulta un string alfanumeric ca orice text. Sau pot sa-mi scriu o functie de codificare proprie, dupa cum doresc.
Pe scurt, atita timp cit tu preiei continutul meu, nu poti sa ma impiedici pe mine sa aflu cum l-ai cerut, asta-i o chestie fundamentala in insasi arhitectura internetului.
Monday, 27 December 2010
da, corect, nu m-am gandit la alte forme de encodare ale IP-ului, hm, tre' sa mai lucrez la regex-ul ala care o sa fure de la tine :)
Pe vremuri, intr-un moment de ratacire dat de revolta impotriva celor care "preluau" texte de la mine fara sa se sinchiseasca de dorintele mele am aplicat alta metoda, simpla dar functionala: am pus un script care filtra mai multe 'stopwords' (google le ignora oricum) si le inlocuia cu poze ale cuvintelor respective. Textul la mine arata corect insa la cei care il 'preluau' arata neplacut la citit (fara punctuatie, negatii, etc.).
Pot sa iti spun ca rata hobbystilor cu copy&paste a scazut dramatic (practic ar fi trebuit sa rescrie textele) iar google le vede in continuare cu ochi buni.
Monday, 27 December 2010
E un mod dubios pentru ca nu porteaza corect. Eu citesc vasta majoritate a paginilor de pe internet la 150%, citeva la 120 sau 133%. Pozele tale arata destul de urit in conditiile astea.
Monday, 27 December 2010
pe chrome (ce folosesc eu) la marire/micsorare arata la fel, browserul mareste/micsoreaza pozele&textul proportional, am verificat.
Monday, 27 December 2010
A, pai daca ai verificat pe Chrome atunci nu pot sa apara probleme. Nu-i ca si cum Internet Exploder 6 inca mai serveste ceva procente din populatia internauta, Doamne-feri.
:D