vitalja Posted April 24, 2013 Report Share Posted April 24, 2013 (edited) $file=@file_get_contents($url); if ($file == false) { echo 'File does not exist.'; } else {preg_match("#<title\b[^>]*>(.*?)</title>#i",$file,$match);...} Pirmā problēma ir tāda, ka gadijumā ja $url=http://www.facebook.com; ,tad $file == FALSE , bet, piemēram, http://www.facebook.com/find-friends/browser/ $file != FALSE vai kāds var paskaidrot kāpēc facebook, index.php failu, neizdodas nolasīt! Un otrā problēma ir tāda, ka, piemēram, http://www.facebook.com/find-friends/browser/ lapai $match[0] ir tukš, un $match[1] == 'Update Your Browser | Facebook'; Edited April 24, 2013 by vitalja Quote Link to comment Share on other sites More sharing options...
rATRIJS Posted April 24, 2013 Report Share Posted April 24, 2013 Izmanto curl un uzstādi normālu User Agent: http://uk3.php.net/curl Iespējams arī ka FB nepieciešams JS. Un vispār ko tu vēlies panākt - API nevar izmantot? Quote Link to comment Share on other sites More sharing options...
vitalja Posted April 24, 2013 Author Report Share Posted April 24, 2013 (edited) Iespējams arī ka FB nepieciešams JS. Un vispār ko tu vēlies panākt - API nevar izmantot? Tas ko māģinu panākt ir dabūt title ievadītajam linkam, Īsti nesaprotu, kā API palīdzēs to atrisināt. Paldies par linku palasīšu šobrīd vel nezinu, kā izpaužās User Agent. Vel varu pieminēt, ka manas funkcijas sākumā https://www.facebook.com/ tiek pārveidots uz http://www.facebook.com/, jo ar protokolu https vispār nevienu failu nevar atvert, piemēram, https://www.google.lv/ lapai protokola maiņa uz http atrisina problēmu un izdodas atvert lapas pirmkodu, bet neizdodas tieši https://www.facebook.com/, kautgan FB sadaļu pirmkodus izdodas atvēr. Edited April 24, 2013 by vitalja Quote Link to comment Share on other sites More sharing options...
404 Posted April 24, 2013 Report Share Posted April 24, 2013 (edited) Ja vēlies spert pirmos soļus iekš web scraping,tad bez cURL varēsi nolasīt tikai saitus,kurus nesatrauc milzīgā botu populācija,un feisbuks pie tiem nepieder. Visu var risināt ar pareizi nosimulētiem headeriem (un cepumiem ja prasa),bet ne jau ar failu operācijām kas labākajā gadījumā saņems ignoru vai arī dabusi ip banu beigās vēl :) Edited April 24, 2013 by 404 Quote Link to comment Share on other sites More sharing options...
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.