Co znajdziesz we wpisie:
Skanując dokument i widząc jego cyfrową formę na monitorze nie zastanawiamy się nad tym, jak działa OCR i skąd wzięła się ta technologia. Tymczasem historia oprogramowania wykorzystującego OCR to fascynujące ponad 100 lat prób i doświadczeń. Chcesz wiedzieć nieco więcej?
Skąd wziął się OCR?
- Początki OCR wiążą się z chęcią pomocy osobom niewidomym i niedowidzącym. Za pewnego rodzaju pierwowzór technologii można uznać maszynę nazywaną Optofonem. Było to urządzenie w formie ręcznego skanera, które przesuwało się nad tekstem a algorytm miał za zadanie skonwertować litery na dźwięki. Dzięki temu, niewidoma osoba „słyszała” tekst. Stworzył go dr. Edmund Fournier d’Albe z Birmingham University w 1913 roku.
- W późnych latach 20. pojawiła się „maszyna statystyczna” wymyślona przez Emanuela Goldberga. Pozwalała ona archiwizować i przeszukiwać mikrofilmy. Patent został kupiony przez IBM.
- Pierwsze urządzenie OCR pojawiło się w już w 1955 roku. Niestety było mocno niedoskonałe – maszyna potrafiła skanować jedynie ograniczoną ilość znaków. Nie dało się zatem przekonwertować całości tekstu.
- Kolejne prace to znów powrót do pomocy osobom niewidomym. Ray Kurzweil w 1974 roku zaczął budować maszynę, która potrafiła odczytać wszystkie czcionki i wykorzystując syntezator mowy „przeczytać” tekst na głos. W 1978 zaczęła się produkcja komercyjnej wersji maszyny, umożliwiającej konwersję tekstu drukowanego na jego wersję cyfrową. Od tej pory, dzięki firmom takim jak Xerox czy Scansoft, OCR zaczęło się dynamicznie rozwijać.
- Jako usługa dostępna w chmurze, OCR pojawiło się po raz pierwszy zaledwie 16 lat temu – w 2000 roku.
- Obecnie, skuteczność OCR w druku to nawet 99,9%.
Tajniki OCR, o których nie wiedziałeś
7. Są 4 rodzaje OCR:
- Optical character recognition – rozpoznawanie pojedynczego znaku
- Optical word recognition – rozpoznawanie całych wyrazów
- Intelligent character recognition (ICR) – dedykowane pismu odręcznemu, kursywie, kapitalikom. Wykorzystuje uczenie się maszynowe.
- Intelligent word recognition (IWR) – dedykowane pismu odręcznemu ale w formie całych wyrazów.
- Całość procesu OCR składa się w kilku etapów – od wykrywania kropek czy plamek, które nie są tekstem i ich usuwania, przez poprawę kontrastu bieli i czerni, by litery były bardziej wyraźne dla systemu, progowanie, które wyodrębnia z obrazka znaki, po inne techniki segmentacji obrazu. Wykorzystuje się również sztuczną inteligencję i sieci neuronowe. Dzięki temu program „uczy się” języka, by wiedzieć jakie słowo bądź litera będą najbardziej prawdopodobne w danym kontekście.
- OCR stosuje się w prawie wszystkich językach świata – również w cyrylicy czy tak egzotycznych językach jak Urdu. OCR działa w ponad 120 językach.
- Obecnie trwają prace nad rozwojem możliwości odczytywania pisma ręcznego. Nie jest to proste, ze względu na różne charaktery pisma i duże dysproporcje w stylu pisania pomiędzy różnymi osobami (nawet my sami niekiedy nie potrafimy odczytać np. lekarskiej recepty).
- Prosty mechanizm OCR posiada Google Drive. Dysk gogle potrafi konwertować na tekst pliki .jpg, .png, .gif i .pdf. Niestety ma ograniczone możliwości – nie wszystkie czcionki są rozpoznawane a listy, tabelki czy kolumny nie są rozpoznawane (OCR obecne jest też w SkyDrive Microsoft).
- OCR rozwija się mocno poprzez crowdsourcing – często nawet nieświadomy. ReCAPTCHA to mechanizm, dzięki któremu wiele osób na całym świecie przyczyniło się do digitalizacji książek. Nieświadomie. Jakim cudem? Otóż na Uniwersytecie Carnegie-Mellona w Pittsburghu stworzono mechanizm oparty o znane już zabezpieczenia CAPTCHA, które miały chronić strony przez spamem. W reCAPTCHY, użytkownik widzi dwa słowa. Pierwsze jest słowem kontrolnym, które system zna, a drugie słowem, którego moduł OCR nie potrafi prawidłowo rozpoznać. Użytkownik nie wie, które jest które – musi przepisać oba. Jeśli trzy osoby w ten sam sposób zidentyfikują nierozpoznawane przez OCR słowo, jest ono zapisywane jako prawidłowe. Dzięki temu, rozpoznawane są słowa, z którymi system sobie nie poradził. Kiedy zatem następnym razem natkniesz się na zabezpieczenie strony poprzez reCAPTCHĘ – nie zamykaj jej. Pomóż rozwijać zbiory cyfrowe (rocznie digitalizuje się w ten sposób 17 000 książek).
- Istnieje czcionka, która jest niemożliwa do rozpoznania przez OCR – to ZXX, którą stworzył były agent NSA – Sang Mun. Czcionka oparta jest o kilka „dodatków” – poszczególne znaki mogą być np. zakamuflowane (czyli dodane są do nich różne nieregularne kształty, ale tak, że człowiek bez problemu może je odczytać, ale maszyna już nie), fałszywe (w większy znak wpisany jest mniejszy – dla maszyny, taki mniejszy znak jest fałszywy, a to ten właśnie powinien być odczytany), do czcionek dodane są szumy (czarne kwadraty które zaciemniają maszynie obraz czcionki), lub na czcionkę nałożone są duże „iksy” – człowiek je odróżni, ale maszyna nie. Po co taka czcionka? Po to, by umożliwić ochronę naszej prywatności i korespondencji.