Jump to content
php.lv forumi

Liela datu bāze, meklēšana pdf un doc failos


Recommended Posts

Posted

Vajag izstrādāt  programmu personāla atlases aģentūrai, kur viņi reģistrēs kandidātus un  CV PDF un DOC formātos.

Būs ap 10 000 cv.
Vai varat ieteikt kā labāk organizēt CV glabāšanu un meklēšanu failos pēc atslēgas vārdiem?
Es domāju glabāt CV failos , datubāzē linkus uz failiem, kad tiek pievienots CV, noparsēt saturu un saglabāt tekstu datubāzē. Un meklēt datubāzē, teksta laukā.
Varbūt ir kāds pareizāks risinājums?
Paldies!
Posted

Meklēšanai vajag izmantot kādu text-search dzinēju, atbilstoši sagatavot datus. Liekas, meklēšanu gan pēc atslēgas vārdiem, gan pēc teksta, labi paveica tas pats Sphinx.

Kā glabāt pašus failus - reliģijas jautājums. Galvenais, lai diskusija neaiziet šajā virzienā.

Posted

Sphinx diezgan oldschool, tagad sadzen dokumentus iekš Elasticsearch'a un meklē bez bēdām. Tas būtu vienkāršākais, grūtāk drīzāk būs nopārsēt CV, ņemot vērā, cik daudz dažādos, random formātos tas var būt, ja nav kaut kāds standartizēts. Es teiktu, ka automatizēt to būs nereāli.

...un 10k nav liela datubāze :)

  • 3 weeks later...
Posted

Ieteiktu Solr vai Elastic ar pdf/html indeksatoriem. Ja gribi tagot, tad vnk handlerus jāpielago (facet-iem).

Priekš Solr/Elastic 10k dokumenti ir pile okeānā. Protams, ja viens CV nav +/- 1Gb datu, par ko šaubos.

  • 4 months later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
×
×
  • Create New...