Mokslas

Kas yra ocr? »Jo apibrėžimas ir reikšmė

Anonim

OCR yra optinio simbolių atpažinimo funkcijos arba ispanų kalba taip pat žinomos kaip optinis simbolių atpažinimas. OCR yra programinė įranga, leidžianti atpažinti tekstą, sukuriant jo vaizdą, kad jis būtų paverstas simbolių seka, o tada išsaugoti juos tam tikru formatu, kurį galima naudoti tose teksto redagavimo programose. Kitaip tariant, šios naujos technologijos dėka bet kokį teksto ar dokumento tipą, įskaitant PDF failus, nuskaitytus popierius ar net iš skaitmeninių fotoaparatų padarytus vaizdus, galima konvertuoti į duomenis, kad būtų galimybė juos redaguoti.

Ši programinė įranga veikia taip: pirmiausia ji analizuoja kiekvieną aptariamo dokumento atvaizdo dalį; platinti puslapį dalimis, tokiomis kaip lentelės, vaizdai, teksto blokai, be kita ko; tada eilutės paskirstomos žodžiais, kad vėliau taptų simboliais; ir kadangi simboliai jau buvo nurodyti, programinė įranga palygina modelio atvaizdų grupę. Tai žengia pagal hipotezių apie tai, kas yra kiekvienas veikėjas, seriją; ir, remdamasis šiomis hipotezėmis, jis analizuoja skirtingus linijų pertraukimo į žodžius ir žodžių į simbolius variantus. Ir po daugybės hipotezių analizės ir apdorojimo programa pagaliau pateikia jau atpažintą ir nauju formatu pakeistą tekstą.

Reikėtų pažymėti, kad šiandien yra daugybė programų, kurias kompiuterių rinka siūlo remdamasi OCR, pavyzdžiui, „OmniPage“, „Abbyy Fine Reader“ ar „READiris“. YY, kurie gali ne tik analizuoti ir atpažinti tekstą kaip tokį, bet ir atpažinti formatą bei stilių, tačiau su tam tikrais apribojimais, todėl reikalaujant, kad po analizės tekstas būtų redaguojamas, kad būtų atlikti pataisymai reikalauti.