Kavacky Posted May 31, 2013 Report Share Posted May 31, 2013 Jā, baigi vajag. Quote Link to comment Share on other sites More sharing options...
jurchiks Posted May 31, 2013 Author Report Share Posted May 31, 2013 Izveido .js pusē cilvēka validāciju. Piem., skaiti peles nobrauktos mm ,ja touch, tad touch eventos start end nobraukto distanci. Šifrē saites, lai nav atklātā veidā pieejamas pirmkodā. Idejas vairāk kā vajag.. :D Traks neesi? Tas jau nu ir galīgi priekš paranoiķiem. Man vajag, lai search crawleri neuzrādās, ne jau burtiski visi eksistējošie boti, neiešu tak laiku tērēt. Ar rel="nofollow" pietiek redirektiem uz ārējām lapām, bet vēl jāatrisina tas pats, kad crawleris meklē kaut ko manā lapā - meklējamais kritērijs un rezultātu skaits saglabājas datubāzē, bet vajag, lai crawleru meklējumi neskaitās. Quote Link to comment Share on other sites More sharing options...
daGrevis Posted May 31, 2013 Report Share Posted May 31, 2013 Labiem botiem `nofollow` un `robots.txt` palīdzēs. Quote Link to comment Share on other sites More sharing options...
jurchiks Posted May 31, 2013 Author Report Share Posted May 31, 2013 (edited) Šajā gadījumā nofollow neder, search crawleris crawlo viņam zināmos URLus, kas ir meklējumi manā saitā vai "others searched for" linki rezultātu apakšā. Man vajag, lai bots šīs lapas indeksē, bet man nevajag, lai logos uzrādītos visi bota radītie meklējumi, tikai tie, kurus veikuši reāli cilvēki. Tāpēc arī JS čekošana neder, jo reāli tas pieprasījums tiek ielogots jau pirms tiek parādīta lapa. Edited May 31, 2013 by jurchiks Quote Link to comment Share on other sites More sharing options...
Zefirs Posted May 31, 2013 Report Share Posted May 31, 2013 Un kas traucē js ielogot vai tas ir cilvēks vai or bots pēc lapas ielādes? Quote Link to comment Share on other sites More sharing options...
404 Posted May 31, 2013 Report Share Posted May 31, 2013 Vienkāršs bet pietiekami efektīvs variants varētu būt sesijas uzsetošana ar last_visited laiku un čekot pieprasījumu intervālu. Ja iet zem pāris sekundēm,tad ielogo kā botu. Savukārt nekādas user agent listes vai javascripti nepalīdzēs,ja tavs saturs ir tik vērtīgs ka kāds būs nopietni nolēmis to iegūt. Tādus botus raksta uz pasūtījumu,un neatšķirsi no parasta usera tāpat. Quote Link to comment Share on other sites More sharing options...
jurchiks Posted May 31, 2013 Author Report Share Posted May 31, 2013 (edited) Saturs nav vērtīgs, par to var neuztraukties. Parasts search engine. @Zefirs - vai visiem populārajiem crawleriem/botiem vispār palaižās JS? Es par botiem zinu gaužām maz. Bet anyway, topika jautājums ir "bota atpazīšana PHP pusē", nafig visi man grūž JS? Tā nav atbilde uz jautājumu, tā ir alternatīva, par kuru es nevēlos domāt. Es client-side vispār neuzticos. Edited May 31, 2013 by jurchiks Quote Link to comment Share on other sites More sharing options...
rpr Posted June 2, 2013 Report Share Posted June 2, 2013 Baidos, ka PHP pusē tikai var atpazīt pēc kaut kādiem IP range zināmajiem botiem, bet pārējiem diez vai būs iespējams noteikt. Quote Link to comment Share on other sites More sharing options...
Mr.Key Posted June 13, 2013 Report Share Posted June 13, 2013 Filtrē pēc UA. Quote Link to comment Share on other sites More sharing options...
Kavacky Posted June 14, 2013 Report Share Posted June 14, 2013 wget -U 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0'Ko nu, Mr.Key? Quote Link to comment Share on other sites More sharing options...
jurchiks Posted June 14, 2013 Author Report Share Posted June 14, 2013 Es filtrēju ļoti primitīvi, jo filtrēt pēc IP range katru meklējumu patērē nevajadzīgi daudz laika: if (preg_match('/crawler|bot|spider|http:/iu', $_SERVER['HTTP_USER_AGENT'])) { // ir bots vai kkāds parseris } Logoju visus user agentus, kas tiek šim cauri, pagaidām izskatās, ka pietiek, bijuši tikai pāris dīvaiņi: "Java 1.7.0_01", "python-urllib", "siclab (cboc-test@lab.ntt.co.jp)" un "VB Project" + vēl "Mozilla/4.0" bez nekā cita. Quote Link to comment Share on other sites More sharing options...
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.