Jump to content
php.lv forumi
hoho

Liela datu bāze, meklēšana pdf un doc failos

Recommended Posts

Vajag izstrādāt  programmu personāla atlases aģentūrai, kur viņi reģistrēs kandidātus un  CV PDF un DOC formātos.

Būs ap 10 000 cv.
Vai varat ieteikt kā labāk organizēt CV glabāšanu un meklēšanu failos pēc atslēgas vārdiem?
Es domāju glabāt CV failos , datubāzē linkus uz failiem, kad tiek pievienots CV, noparsēt saturu un saglabāt tekstu datubāzē. Un meklēt datubāzē, teksta laukā.
Varbūt ir kāds pareizāks risinājums?
Paldies!

Share this post


Link to post
Share on other sites

Meklēšanai vajag izmantot kādu text-search dzinēju, atbilstoši sagatavot datus. Liekas, meklēšanu gan pēc atslēgas vārdiem, gan pēc teksta, labi paveica tas pats Sphinx.

Kā glabāt pašus failus - reliģijas jautājums. Galvenais, lai diskusija neaiziet šajā virzienā.

Share this post


Link to post
Share on other sites

Sphinx diezgan oldschool, tagad sadzen dokumentus iekš Elasticsearch'a un meklē bez bēdām. Tas būtu vienkāršākais, grūtāk drīzāk būs nopārsēt CV, ņemot vērā, cik daudz dažādos, random formātos tas var būt, ja nav kaut kāds standartizēts. Es teiktu, ka automatizēt to būs nereāli.

...un 10k nav liela datubāze :)

Share this post


Link to post
Share on other sites

Ieteiktu Solr vai Elastic ar pdf/html indeksatoriem. Ja gribi tagot, tad vnk handlerus jāpielago (facet-iem).

Priekš Solr/Elastic 10k dokumenti ir pile okeānā. Protams, ja viens CV nav +/- 1Gb datu, par ko šaubos.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...

×
×
  • Create New...