Cum ne protejam de scraperi ?

Wednesday, 22 December, Year 2 d.Tr. | Author: Mircea Popescu

Sa incepem cu ilustrarea problemei :

scraperi

Ce este info.multicast.ro ala ? Pai ce sa fie, iaca un site de continut care parseaza feed-uri si le republica.

scraperi-2s

Eu n-am lasat niciodata un comentariu la ei pe site, eu i-am scris lui Dan Popa, aka hymerion. Nu ma intereseaza sa-mi vad numele asociat cu cine stie ce porcarie de site doar in virtutea faptului ca stiu si ei parsa XML, si inca mai important de atit, ma gindesc ca nici Dan Popa nu-i prea incintat de faptul ca altii ies in Google pe continutul lui, daca-si cunoaste interesul. Nu-i de altfel el singurul care infrunta problema asta.

Ce-i de facut ? Pai, o solutie simpla ar fi urmatoarea :

Pasul I : Modificati /wp-includes/feed-rss2.php asa incit acolo unde scrie la ora actuala

<?php if (get_option('rss_use_excerpt')) : ?>
<description><![CDATA[<?php the_excerpt_rss() ?>]]></description>
<?php else : ?>
<description><![CDATA[<?php the_excerpt_rss() ?>]]></description>

sa scrie in loc

<?php if (get_option('rss_use_excerpt')) : ?>
<description><![CDATA[<?php echo $_SERVER['REMOTE_ADDR']," "; the_excerpt_rss() ?>]]></description>
<?php else : ?>
<description><![CDATA[<?php echo $_SERVER['REMOTE_ADDR']," "; the_excerpt_rss() ?>]]></description>

Pasul II : Ori de cite ori va gasiti continutul publicat pe cite un site care nu va incalzeste, adaugati un Deny from IP-ul respectiv in .htaccess si s-a terminat cu ei.

Simplu, nu ?

UPDATE, dupa citeva zile :

scraperi-f

Category: Meta psihoza
Comments feed : RSS 2.0. Leave your own comment below, or send a trackback.

11 Responses

  1. off topic: am postat ceva cu "recunştinţă", ce-am cîştigat? :D

  2. Mircea Popescu`s avatar
    2
    Mircea Popescu 
    Wednesday, 22 December 2010

    Pai ce sa cistigi... tocmai aia :D

  3. Înseamnă că am cîştigat tot!

  4. Mircea Popescu`s avatar
    4
    Mircea Popescu 
    Saturday, 25 December 2010

    Updated.

  5. Dorin Victor Vasile`s avatar
    5
    Dorin Victor Vasile 
    Sunday, 26 December 2010

    Ca 'proprietar' al unui modest agregator de stiri din psihologie (nu-i mai dau adresa, ca sa nu ne mai complicam) in timp ce citeam ce ai scris am simtit un fior (recunosc, cam nepotrivit) de solidaritate cu scraperii :)

    Asa ca ma intreb daca metoda asta cu adaugat IP-ul in textul feed-ului, pe care am mai vazut-o recomandata si prin alte locuri nu are totusi un leac foarte simplu: eu ca (posibil) scraper odios ce sunt pun un pic de regex care sterge IP-urile din textele furate de la tine, iar apoi pot sa le afisez dupa pofta inimii. :)

    In alta ordine de idei, ca tot veni vorba sarbatori fericite si spor la ce mai faci si pe 2011.

  6. Mircea Popescu`s avatar
    6
    Mircea Popescu 
    Monday, 27 December 2010

    In principiu nu poate avea leac. Daca intr-adevar pui un regex care sa stearga IP-urile eu pot sa le adaug un ip2num() care le tipareste numeric, nu in formatul clasic. Sau un char() pe fiecare block, si obtin 4 caractere. Sau un base64_encode(), si rezulta un string alfanumeric ca orice text. Sau pot sa-mi scriu o functie de codificare proprie, dupa cum doresc.

    Pe scurt, atita timp cit tu preiei continutul meu, nu poti sa ma impiedici pe mine sa aflu cum l-ai cerut, asta-i o chestie fundamentala in insasi arhitectura internetului.

  7. Dorin Victor Vasile`s avatar
    7
    Dorin Victor Vasile 
    Monday, 27 December 2010

    da, corect, nu m-am gandit la alte forme de encodare ale IP-ului, hm, tre' sa mai lucrez la regex-ul ala care o sa fure de la tine :)

    Pe vremuri, intr-un moment de ratacire dat de revolta impotriva celor care "preluau" texte de la mine fara sa se sinchiseasca de dorintele mele am aplicat alta metoda, simpla dar functionala: am pus un script care filtra mai multe 'stopwords' (google le ignora oricum) si le inlocuia cu poze ale cuvintelor respective. Textul la mine arata corect insa la cei care il 'preluau' arata neplacut la citit (fara punctuatie, negatii, etc.).

    Pot sa iti spun ca rata hobbystilor cu copy&paste a scazut dramatic (practic ar fi trebuit sa rescrie textele) iar google le vede in continuare cu ochi buni.

  8. Mircea Popescu`s avatar
    8
    Mircea Popescu 
    Monday, 27 December 2010

    E un mod dubios pentru ca nu porteaza corect. Eu citesc vasta majoritate a paginilor de pe internet la 150%, citeva la 120 sau 133%. Pozele tale arata destul de urit in conditiile astea.

  9. Dorin Victor Vasile`s avatar
    9
    Dorin Victor Vasile 
    Monday, 27 December 2010

    pe chrome (ce folosesc eu) la marire/micsorare arata la fel, browserul mareste/micsoreaza pozele&textul proportional, am verificat.

  10. Mircea Popescu`s avatar
    10
    Mircea Popescu 
    Monday, 27 December 2010

    A, pai daca ai verificat pe Chrome atunci nu pot sa apara probleme. Nu-i ca si cum Internet Exploder 6 inca mai serveste ceva procente din populatia internauta, Doamne-feri.

    :D

  1. [...] cel mai genial spamsite din istorie, a inceput ca scraper in cel mai nesimtit mod, lumea n-a stiut sa se apere - experti online, deh - asa ca a crescut pe continutul ziarelor si-acum face interviuri cu [...]

Add your cents! »
    If this is your first comment, it will wait to be approved. This usually takes a few hours. Subsequent comments are not delayed.