Jump to content
php.lv forumi

Par crawling, datascrape legalitāti


Zefirs

Recommended Posts

Cik legāli ir izmantot crawleri interneta veikalu preču cenu apkopošanai?

Ideja sekojoša:
Veikt vairāku veikalu preču cenu ievākšanu, salīdzināt tālāk cenas starp tiem, tālāk atskaiti ar cenu atšķirībām pārdot kā pakalpojumu.

Vai kādam ir pieredze cik šis ir legāli pēc Latvijas likumdošanas?

Edited by Zefirs
Link to comment
Share on other sites

Tik pat legāli, cik staigāt gar veikalu skatlogiem un norakstīt cenas. Protams, ja vien tu nescrapo ar tādu intensitāti, ka veikalam jāmet vēl 10 serveri lai tavus botus apkalpotu. Tad gan vari nedaudz norauties (darbības traucēšana). 

 

Un pieņemu, ka veikali nebūs ar tevi īpaši priecīgi. Mainīsi IP reizi dienā. :) 

Link to comment
Share on other sites

Uztaisi ļoti apmeklētu saitu. Ieliec javaskriptu, kas no klienta pieprasa veikala linku un nosūta uz tavu serveri. Neviens admin neizkodīs no kādas ip tu krawlē veikalu :)

Man šķiet, ka lv ir tikai daži veikali, kuriem ir dedicated progrmmētājs. Pārējiem veiklu īpašniekiem īsti pat nav veidu kā uzzināt krwlētājus

Link to comment
Share on other sites

Problēmas ar IP risināt var izmantojot Tor.

 

Nē, nevar gan.

  • visas TOR exit nodes ir pieejamas DNSBL.
  • tādu pilsoņu, kā Tu, dēļ TOR nav iespējams leģitīmi lietot tiem, kam tas tiešām nepieciešams jo pretty much visi bloķē TOR trafiku tieši šādu tizlu izdarību dēļ. 

Uztaisi ļoti apmeklētu saitu. Ieliec javaskriptu, kas no klienta pieprasa veikala linku un nosūta uz tavu serveri. Neviens admin neizkodīs no kādas ip tu krawlē veikalu :)

Man šķiet, ka lv ir tikai daži veikali, kuriem ir dedicated progrmmētājs. Pārējiem veiklu īpašniekiem īsti pat nav veidu kā uzzināt krwlētājus

Cross origin, referrer? Erm... Diez vai... Edited by F3llony
Link to comment
Share on other sites

Tīri teorētiski man jau mētājas gatavs node projekts, kas dara tieši šo, tikai ar to atšķirību, ka konkrētiem veikaliem - monitorē konkurentu cenas. Rakstīts ar PhantomJS un darbojās tīri adekvāti, kamēr admini otrā pusē neuzķēra dīvainu trafiku un nesāka bloķēt. Nav jau gluži tā, ka dienas laikā vairākus desmitus tūkstošus hitu pret preču lapām neviens nepamanīs. 

Link to comment
Share on other sites

Uztaisi ļoti apmeklētu saitu. Ieliec javaskriptu, kas no klienta pieprasa veikala linku un nosūta uz tavu serveri. Neviens admin neizkodīs no kādas ip tu krawlē veikalu :)

Man šķiet, ka lv ir tikai daži veikali, kuriem ir dedicated progrmmētājs. Pārējiem veiklu īpašniekiem īsti pat nav veidu kā uzzināt krwlētājus

 

Nezinu gan kā tu tiksi galā ar cross-domain problēmām. Normāls pārlūks neļaus fetchot ārējo lapu un dabūt tās saturu, ja vien tā lapa to nav atļāvusi.

Link to comment
Share on other sites

Nezinu, kam būs vajadzīgs pakalpojums par cenu atšķirību, jo lielākā daļa veikalu preces ņem no vieniem un tiem pašiem piegādātājiem.

Ir arī softs ext.site.lv, kas veikaliem atjauno datus par precu pieejamību, cenu un laikam arī pieliek automātiski veikala komisiju.

Link to comment
Share on other sites

Pārdomājot F3llony teikto izdomāju citu veidu IP ban risinājumam:

Izmantojot DigitalOcean API veidot droplets katrā reģionā, kurus izmantot kā proxy crawlerim. Līdz ko dropleta ip tiek banota un pieprasījumi atgriež kļūdu, droplets tiek automātiski dzēsts, tā vietā izveido jaunu ar citu ip jau.
Katrs nākamais droplet būtu citā reģionā (ip range mainās), katram droplet būtu unikāla ip adrese.

Šo visu var automatizēt un veikt droplet rotāciju sistemātiski vai pacelt vairākus droplets un rotēt starp tiem.

Varbūt kādam ir pieredze DigitalOcean API v2? Cik saprota tā vēl ir betas stadijā.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
×
×
  • Create New...