Distributed search engine

codez · November 22, 2008

Šodien radās ideja.

Ir desktopa softs, kuru uzinstalē lietotāji.

Tāpat ir centrālais serveris, kurš koordinē klientus.

desktopa softs nodarbojas ar web spaiderēšanu, indeksu būvēšanu un kveriju apstrādi.

Centrālais serveris koordinē, kuram klientam kas jāindeksē, kontrolē pret indeksu un lapu reitingu viltošanu un koordinē, lai indeksi vienmēr būtu onlainā, izvietojot tos tā uz dažādiem klientiem.

Pēc kāda laika, kad būs uzinstalēts softs uz vairākiem desmitiem miljonu lietotāju datoriem un onlainā vidēji būs, piemēram, 10M datoru,

tad search engines jauda būs krietni lielāka par google 500k mazjaudīgajiem serveriem.

Search engini varēsizmantot tikai tie, kuri dod savu artavu indeksēšanā (ir uzinstalējuši desktopu).

Tā kā Aleksejs ieteica dalīties ar idejām, tad es padalos.

Kā jums škiet, googli varētu izkonkurēt?

Atbildes tikai nopietnas.

Edited November 22, 2008 by codez

bubu · November 22, 2008

Jauda, protams, 10M būtu vairāk nekā gūglei. A ko tev tā jauda dos?

Es arī īsti nesaprotu - ja jau yahoo un msn, kuriem aizmugurē ir multi-miljonu kompānijas, neizdodas izkonkurēt gūgli, tad kāpēc tavi tie 10M datori to spētu? Nedomāju, ka viņiem trūkst naudas nopirkt vēl dažus simtus tūkstošu serverīšu. Manuprāt ne jau jaudas ziņā slēpjas uzticēšanās servisam. Bet gan vairāk uz pieredzi un zināšanām velk. Ko tu vari izdomāt labāku/efektīvāku par gūgles patreiz izdomātu - imho tāds ir jautājums.

Aleksejs · November 22, 2008

Ideja ir interesanta, taču saredzu problēmas, kuras nebūtu viegli pārvarēt:

1) Cilvēku uzticēšanās - "a kāpēc man uz sava datora jādarbina kaut kāds softs, kurš darīs nezin ko"? Uzņēmums, kas jau ilgāku laiku veiksmīgi ir darbojies var panākt cilvēku uzticēšanos, bet nevienam nezināms uzņēmums varētu nelikties pietiekami uzticams.

2) Drošība un informācijas uzticamība - ja desktopa aplikācija tiek kontrolēta attālināti (un viņa nevar netikt kontrolēta jo pēc vienas no drošības maksimām: Tos resursus, ko nespēj apzināt, tu nespēj vadīt. -> Tos resursus, ko tu nespēj vadīt, tu nespēj kontrolēt -> Tos resursus, ko tu nespēj kontrolēt, tu nespēj padarīt drošus - tātad, ja vēlies integritāti saņemtajiem datiem un reitingiem ir jāvar kontrolēt šī attālinātā aplikācija), tad drošības caurumiem klienta aplikācijā ir ļoti nopietnas sekas.

3) Un, protams, arī tāds "sīkums" kā meklēšanas/vērtēšanas/šķirošanas/rangošanas/glabāšanas/atlasīšanas algoritmi.

Vēl jāapsver šāds scenārijs: Ja mans dators desktopa softa vadībā "iespaiderē" bērnu pornogrāfijas saitā... Kas tad? Stāstīšu tiesā citātus no "Briljanta rokas" - "Neesmu vainīga - viņš pats atnāca"?

P.S. Ja vien forumā patiešām nav uzradies Aleksandrs, tad mani vēl aizvien sauc Aleksejs ;)

bubu · November 22, 2008

1) un 2) punktu varētu novērst klienta softa daļu izplatot kā open-sourci.

codez · November 22, 2008

Jauda, protams, 10M būtu vairāk nekā gūglei. A ko tev tā jauda dos?
Es arī īsti nesaprotu - ja jau yahoo un msn, kuriem aizmugurē ir multi-miljonu kompānijas, neizdodas izkonkurēt gūgli, tad kāpēc tavi tie 10M datori to spētu? Nedomāju, ka viņiem trūkst naudas nopirkt vēl dažus simtus tūkstošu serverīšu. Manuprāt ne jau jaudas ziņā slēpjas uzticēšanās servisam. Bet gan vairāk uz pieredzi un zināšanām velk. Ko tu vari izdomāt labāku/efektīvāku par gūgles patreiz izdomātu - imho tāds ir jautājums.

Protams algoritmiem ir liela nozīme, bet arī serveriem ir.

Nesen parādījās tāda search engine - cuil.com, kurā tika investēti 39 miljoni.

Viņu pamatproblēma ir tāda, ka nevar uzreiz iveidot pietiekami lielu spaiderēšanas serveru tīklu, tāpēc viņiem bija kaut kāds alternatīvais algoritms, kuram it kā vajag mazāk serverus, kurš tāpat ne pārāk labi strādāja.

1) Cilvēku uzticēšanās - "a kāpēc man uz sava datora jādarbina kaut kāds softs, kurš darīs nezin ko"? Uzņēmums, kas jau ilgāku laiku veiksmīgi ir darbojies var panākt cilvēku uzticēšanos, bet nevienam nezināms uzņēmums varētu nelikties pietiekami uzticams.

Uzticēšanos varētu panākt ar daudziem rakstiem lielos blogos. Ja tehnoloģija pus līdz strādātu, tad lielie blogi par to rakstītu bez papildus samaksas.

2) Drošība un informācijas uzticamība - ja desktopa aplikācija tiek kontrolēta attālināti (un viņa nevar netikt kontrolēta jo pēc vienas no drošības maksimām: Tos resursus, ko nespēj apzināt, tu nespēj vadīt. -> Tos resursus, ko tu nespēj vadīt, tu nespēj kontrolēt -> Tos resursus, ko tu nespēj kontrolēt, tu nespēj padarīt drošus - tātad, ja vēlies integritāti saņemtajiem datiem un reitingiem ir jāvar kontrolēt šī attālinātā aplikācija), tad drošības caurumiem klienta aplikācijā ir ļoti nopietnas sekas.

Es domāju, ka šādas šaubas pirmkārt rodas tikai tiem, kuri to saprot, bet viņu ir maz.

Labi viņi protams caur mēdijiem iespaido citus, bet ir daudzas citas aplikācijas, kuras tāpat ikdienā sazinās ar serveriem: dažādi update pārbaudītāji, tas pats skype, u.c.

3) Un, protams, arī tāds "sīkums" kā meklēšanas/vērtēšanas/šķirošanas/rangošanas/glabāšanas/atlasīšanas algoritmi.

Jā, šī ir tā vieta, kur ir nepieciešamas investīcijas un izstrāde un kāpēc šo sistēmu nevar uzreiz tā uztaisīt.

Vēl jāapsver šāds scenārijs: Ja mans dators desktopa softa vadībā "iespaiderē" bērnu pornogrāfijas saitā... Kas tad? Stāstīšu tiesā citātus no "Briljanta rokas" - "Neesmu vainīga - viņš pats atnāca"?

Centrālajā serverī glabātos koordinācijas informācija par to, kur un kurš ir spaiderējis un indeksējis. Tāpat šāda informācija varētu glabātos

P.S. Ja vien forumā patiešām nav uzradies Aleksandrs, tad mani vēl aizvien sauc Aleksejs ;)

Atvainojos, 3-jos naktī sajaucu. :)

Īstenībā šāda sistēma varētu strādāt arī bez centrālā servera. Katrs klients zin vismaz 100 citu klientu adreses. Un, ja vidēji vizmaz 10 ir onlainā, tad vairākās pakāpēs var sakonektēties ar jebkuru citu klientu. Protams šādā gadījumā ir vēl grūtāk realizēt indeksācijas un rankošanas pretviltošanas sistēmu.

Jā un noteikti to varētu izplatīt kā opensoruci, tas gan palielinātu uzticamību un PR, gan iespējams daudzi inženieri gribētu iesaistīties sistēmas uzlabošanā.

Roze · November 22, 2008

Welcome to zombie network..

Pasākums "failo" no aspekta - kāpēc man kā lietotājam ir jāinstalē kaut kāds softs kas izmanto manus resursus - darbstacijas un tīkla - lai kaut kādam third party kantorim nodrošinātu weblapu indeksāciju, kas kaut kādā mērā no koderu līkrocības var novest pie atsevišķu vietņu DDOSa?

Vēl ir saprotams, ka kāds apelē pie cilvēces sirdsapziņas (tur kaut kādas šūnu molekulu aprēķini un simulācijas HIV apkarošanai) vai arī izmanto vājības (citplanētieniešu meklēšana) un tad pastarpināti izveidojot topu kurā katrs pa visām varēm grib tikt augstāk... Bet nu nekādi neredzu kamdēļ lai kāds labprātīgi to darītu kāda darboņa labad kam nepietiek naudiņas savas infrastuktūras izveidei..

Bez tam google jau zināmā mērā to dara pati ar Google Desktop pļurzuli..

Un skatoties uz šo:

Es domāju, ka šādas šaubas pirmkārt rodas tikai tiem, kuri to saprot, bet viņu ir maz.

un

Jā un noteikti to varētu izplatīt kā opensoruci, tas gan palielinātu uzticamību un PR, gan iespējams daudzi inženieri gribētu iesaistīties sistēmas uzlabošanā.

.. tu pats pasaki ka average pc end-userim, kas tavā plānā ir galvenaos "processinga" spēks un avots (nevis inženieri), nav pilnīgi nekādas sapratnes par lietām - attiecīgi no PR viedokļa vismaz pagaidām OpenSource kā termins ir tikpat tāls un sveš..

codez · November 22, 2008

Darīs to tāpēc, lai varētu izmantot šo meklēšanas servisu. Respektīvi tu vari meklēt tikai tad, ja pats arī indeksē daļu.

Šī ideja nav par pašu search engines algorimu, bet par metodi, kā ar salīdzinoši mazākām investīcijām izveidot ļoti jaudīgu meklēšanas dzinēju.

Roze · November 22, 2008

Nubet kas liedz enduserim neizmantot googli / yahoo / [nosauc_jebkuru_citu_engiini] bez liekām saistībām?

.. izmaksas nekur nepaliek - proti hardwari kāds nopērk anyway - tas ka tu "exploitē" to ir jau cits jautājums..

codez · November 22, 2008

Eksplotēta tiek hardwares neizmantotā daļa, tāpēc sanāk, ka resurs nav jāpērk, tas vienkārši tiek efektīvāk izmantots.

Izmantot citu vietā varētu likt labāka rezultātu atrašana, jo ar lielāku serveru resursu ir iespējams veikt plašāku analīzi.

Roze · November 22, 2008

Nu tas sanāk diezgan populistiski un naivi - proti kapēc tad visai cilvēcei nesamesties naudiņas un drošvien varētu atrisināt ne vien vienu problēmu (tagad liela daļa guļ kaut kādos kontos vai mājās zeķēs) :)

Vai arī kādu laiku pastrādāt tāpatvien gaišākai nākotnei.

Proti es nešaubos un neapstrīdu. ka šāds risinājums ir superjaudīgs (ne velti visi IT čmoriki ik pa laikam uzmanās ka vainu pienāk kāds konkrēts datums kad kaut kāds viruss aktivizējas vai arī vispārēji satraucās par kaut kādu pēkšņu botnetu aktivitāti) taču es šaubos ka cilvēcei (pietiekami lielai daļai) pietiek tās labās gribas, lai kaut kad nākotnē teorētiski saņemtu labāku meklēšanas rezultātu.

Drīzāk jau tas varētu notikt bez vispārējas apziņas un piekrišanas - vai nu noklusēti (kā piemēram pārmet Googlei un MS par visādu meta datu vākšanu bez tiešas lietotāju piekrišanas) vai arī to izdarīs ar dažādiem legāliem piespiešanas mehānismiem / normām - teiksim visas Ķīnas / ASV un EU procesēšanas iekārtas tiek izmantotas kopīgai problēmu risināšanai - t.i. ja tu gribi pieslēgties tīklam saproti to ka tavs PC tiks izmantots arī kaut kam citam :)

andrisp · November 22, 2008

Btw, izskatās, ka kaut kas tāds jau tiek taisīts: http://www.majestic12.co.uk/

codez · November 22, 2008

andrisp, tiešām, tas ir gandrīz tas, ko es biju iedomājies.

bubu · November 22, 2008

Hah, uz vārdu PHP kā pirmo rezultātu atrod nevis php.net mājaslapu, bet gan phpnuke.org :)

andrisp · November 22, 2008

Es pamēģināju ierakstīt "tvnet", un tajās divās rezultlapās tvnet.lv vispār neparādījās.

Sign In

Distributed search engine

Recommended Posts

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites

Link to comment

Share on other sites