Jump to content
php.lv forumi

Skriptam nepatīk vāciešu burti


Bunkertor 7

Recommended Posts

Sveiki,

 

Man te kaut kas tāds kā crawler robots top. Viņš staigā pēc noteikta maršruta pa webu un ievāc tekstu un parametrus no lapām un saglabā iekš MySQL tabulas.

 

Uzstādīju tabulām Collation us ASCII, jo domāju, ka tā būs labāk. Rezultātā robots apjūk uz vāciešu un austriešu lapām, tur kur ir visādi ķeburi, umlauti un citādas neizprotamas un neizrunājams lietas. Tabulā nonāk tikai "?????????"

 

Toties nav nekādu problēmu ar skandināvu un krievu lapām (tur arī ir ķeburi, tikai citādāki) un viņš pat vienu otru ķīniešu hieroglifu atpazīst.

 

Kaut kā man tā vāciešu problēma ir jāatrisina. Ko labāk darīt? Uzrakstīt skriptu, kas atpazīst oriģinālo Encoding un pārkonvertē to? Īsti negribās - iedomājieties, ja es to robotu palaižu uz pilnu klapi, viņš apmeklēs 100-us tūkstošus lapu vai pat miljonus. Droši vien uzkārsies, ja katrai lapai vēl konvertēs kodējumu.

 

Kādas ir jūsu domas?

Edited by Bunkertor 7
Link to comment
Share on other sites

Njā - nu skaidrs ASCII bija galīgi garām, bet ar unicode sanāk vēl sliktāk. Ok, vācu teksts tagad saglabājas, bet skandināvu un krievu pārvēršas par очныÐ... Bez tam, skripts nojūk, ja, piemēram, Meta Description atrodas vai nu domu zīme - , vai '

 

Laikam būs tomēr kaut kāds knovertieris jāraksta :(

Link to comment
Share on other sites

1. pirms liec kko datubaze, vajag parliecināties par to datu validumu, šaja gadijuma tev derēs mysql_real_escape_string() funkcija, ja lieto MySQL..

2. lieto utf8_unicode_ci datubazes tabulai kur šos daudzvalodu datus glabā..

3. iespējams ka palīdzēs arī izpildīt pirms visām darbībām ar db šo kvēriju: "SET NAMES UTF8"

Link to comment
Share on other sites

Toties nav nekādu problēmu ar skandināvu un krievu lapām (tur arī ir ķeburi, tikai citādāki) un viņš pat vienu otru ķīniešu hieroglifu atpazīst.

Tas skaitās nav nekādu problēmu?:)

Kaut kā man tā vāciešu problēma ir jāatrisina. Ko labāk darīt? Uzrakstīt skriptu, kas atpazīst oriģinālo Encoding un pārkonvertē to?

Jāa! Tikai dari to operējot ar konvertēšanu uz utf-8.

Vispār besis ir, ka to nelieto visi, kam ar pliku ASCII nepietiek.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
×
×
  • Create New...