Jump to content
php.lv forumi

Bots


emsy

Recommended Posts

Man pirms dažām dienām ienāca prātā, nezinu vai laba vai sūdīga, ideja, izveidot botu kurš ptas staigā pa lapām un ievāc simbolus, storējot tos SQL tabulā, bet es nesaprotu kā izdarīt tā, lai bots pats automātiski staigātu pa interneta vidi nolasot HTML rezultātu un izanalizētu katru doto simbolu, tā saglabāšana reāli ir sīkums. Varbūt kāds var palīdzēt vai kko ieteikt! =]

Edited by emsy
Link to comment
Share on other sites

Noteikti ka ir vairāki veidi kā to var izdarit, bet te ir viens. Neteikšu ka viņš automātiski līstu cauri lapām un to linkiem, bet gan lien cauri noteiktiem linkiem no .txt faila

 

Ideja šāda:

Izveido .txt failu ar vairākiem linkiem. Izveidolai bots nolasa šo failu pa rindiņām un katras rindiņas laikā iegūst atiecīgās lapas saturu (file_get_contents()). Kad tas ir darīts, ja gribi, vari vienkārši viņu pievienot datubāzei. Ja gribi izvilkt kādu attiecīgu keyword vai kko, tad izmanto funkciju strpos().

Link to comment
Share on other sites

Ar regulāru izteiksmi izvelkam visus a tagad linkus no lapas, kaut kur pieglabājam, apstaigājam. Un tā tālāk... Gūglē noteikti vari atrast tādu crawleru piemērus..

 

Reku kaut kāds piemērs....

 

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,"http://www.urlyourstart.com");
curl_setopt($ch, CURLOPT_TIMEOUT, 30); //timeout after 30 seconds
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result=curl_exec ($ch);
curl_close ($ch);
// Search The Results From The Starting Site
if( $result )
{
// I LOOK ONLY FROM TOP domains change this for your usage
preg_match_all( '/<a href="(http:\/\/www.[^0-9].+?)"/', $result, $output, PREG_SET_ORDER );

foreach( $output as $item )

{
// ALL LINKS DISPLAY HERE
print_r($item);

// NOW YOU ADD IN YOU DATABASE AND MAKE A LOOP TO ENGINE NEVER STOP


}

}

Edited by briedis
Link to comment
Share on other sites

Fatal error: Call to undefined function curl_int()

Itkā php.ini ir extension=php_curl.dll ieslēgts :s

 

restartēji apači?

Pameklē vai vēl kādā mapē nav php.ini, es izmantoju xmapp, un man jālabo bija apache/bin/php.ini, nevis php/php.ini

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
×
×
  • Create New...