Na co dzień przedsiębiorcy spotykają się z zaawansowanymi systemami OCR (ang. Optical Character Recognition) do zastosowań biznesowych. Optyczne rozpoznawanie znaków znane jako zestaw technik lub oprogramowanie służące do rozpoznawania tekstów ma jednak długą historię. Przyjrzyjmy się, jak powstała technologia OCR.
OCR a ręczny skaner
Wczesne optyczne rozpoznawanie znaków można przypisać technologiom obejmującym telegrafię i tworzenie urządzeń do czytania dla niewidomych. W 1914 roku Emanuel Goldberg opracował maszynę odczytującą znaki i przekształcającą je w standardowy kod telegraficzny. W tym samym czasie Edmund Fournier d’Albe opracował Optophone – ręczny skaner. Podczas przesuwania po wydrukowanej stronie generował on tony odpowiadające określonym literom lub znakom.
Od rozpoznawania archiwów mikrofilmów do odręcznego pisma
W późnych latach dwudziestych i trzydziestych XX wieku Emanuel Goldberg opracował coś, co nazwał „maszyną statystyczną”. Używał jej do przeszukiwania archiwów mikrofilmów za pomocą systemu optycznego rozpoznawania kodu. W 1931 roku uzyskał patent USA o numerze 1838389 na wynalazek. W rezultacie patent został przejęty przez IBM. Niegdyś termin oznaczał samo rozpoznawanie ciągów znaków, głównie drukowanych, które są łatwiejsze do rozpoznania. Dziś rozumie się go jako rozpoznawanie pisma odręcznego oraz cech formatowania, jak krój pisma, stopień pisma, interlinia, a nawet układów tabelarycznych. Techniki służące do tego typu zaawansowanego rozpoznawania nazywane są terminem ICR.
Jak powstała technologia OCR? Syntezator tekstu na mowę
W 1974 roku Ray Kurzweil założył firmę Kurzweil Computer Products, Inc. i kontynuował rozwój omni-font OCR, który potrafił rozpoznawać tekst drukowany praktycznie każdą czcionką. (Kurzweil jest często uznawany za wynalazcę omni-font OCR, jednak było on już używany przez firmy, w tym CompuScan, na przełomie lat sześćdziesiątych i siedemdziesiątych). Wynalazca zdecydował, że najlepszym zastosowaniem tej technologii będzie stworzenie czytnika dla niewidomych. Pozwoliłby on osobom niewidomym na odczytanie przez komputer na głos tekstu. Urządzenie to wymagało wynalezienia dwóch technologii – płaskiego skanera CCD i syntezatora tekstu na mowę.
Kurzweil i przedstawiciele Krajowej Federacji Niewidomych zaprezentowali 13 stycznia 1976 roku gotowy produkt podczas szeroko opisywanej konferencji prasowej prowadzonej. Firma Kurzweil Computer Products rozpoczęła w 1978 roku sprzedaż komercyjnej wersji optycznego programu komputerowego do rozpoznawania znaków.
4 nieznane fakty na temat technologii OCR
1. Pierwsza komercyjna maszyna OCR została zainstalowana w 1954 roku w Reader’s Digest. Służył do integracji danych zapisanych na maszynie z komputerami za pomocą kart perforowanych.
2. Wczesne maszyny OCR odczytują jeden znak na minutę; dzisiaj to ponad 10000!
3. Największa maszyna OCR ma wielkość boiska piłkarskiego. 100 z nich zostało zakupionych przez pocztę Stanów Zjednoczonych kosztem 1,3 miliarda dolarów w 2009 r.
4. Jedna z pierwszych na świecie komercyjnych maszyn OCR zbudowano na strychu i mogła odczytywać numery seryjne czeków podróżnych z szybkością 100 czeków na minutę.