Wojtek Toruński

Wojtek Toruński Dtp, grafika...

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Może ma ktoś z Was doświadczenie i zechce się podzielić co i jak robić.

Mamy w wydawnictwie kilka "diplodoków" :) - książek matematycznych sprzed lat, do których nie ma już plików źródłowych ani plików, z których były drukowane.

Pozostaje posłużenie sie programem do OCR - Abbyy FineReader. Zwykły tekst praktycznie w 100% jest dobrze rozpoznawany, dużo gorzej jest z symbolami, formułami i wzorami matematycznymi.

Czy wiecie jak najlepiej pracować z Abbyy FineReader by prawidłowo rozpoznawał te matematyczne "kwiatki"? Czy są jakieś rozszerzenia do tego celu? Czy jeszcze inny program polecacie?

Oczywiście wszystkie takie rzeczy można zrobić od nowa ale chcemy by taka konieczność występowała w jak najmniejszej ilości i chcemy uniknąć powtórnego składu całości książek.

Diodatkowym wymogiem jest jak najwierniejsze odwzorowanie dawnego składu gdyż w sumie ma to być kopia książki.
Andy L.

Andy L. ITM, VUB

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Mozesz podlinkować jakiś obrazek z najbardziej "wydziwionym" skanem strony takiej książki?
Może być jpg, png, etc ale nie bmp :P

konto usunięte

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Nie istnieje program do OCR prawidłowo radzący sobie z wzorami matematycznymi.
Nwet jeśli uda Ci się z jakimś prostym wzorem to pojawi sie on jako element osadzony MS Equation Editora, który nie jest edytowalny w ID. Pozostaje zlecić opracowanie komuś, kto trzaska takie rzeczy w TeX MathType lub MathMagic.

@Andy zamień sobie na bitmapę strony z przykładowego dokumentu:
http://www.ocr.org.uk/Images/70824-datasheet-examinati...
Andy L.

Andy L. ITM, VUB

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

O, i to chodziło :)
Mogę potrenować software i różne opcje z nudów.

edit:
Nie wygląda to tak strasznie chociaż potrzebny jest udział poprawiacza. Struktura zachowana, wymagane poprawki (jak zawsze przy OCR) są drobne. Bardziej upierdliwa jest ilość stron, którą trzeba zweryfikować, ale to już zadanie dla tego, kto chce się bawić w korektora takich dokumentów.
Plusem tego pdf-a jest to, że nie jest obrazkiem tylko textem :)))

Podsumowując:
Albo Zbyszek podlinkował dokument prosty do skanowania OCR albo ja jestem Superhero :)))))Ten post został edytowany przez Autora dnia 26.04.17 o godzinie 23:41
Andy L.

Andy L. ITM, VUB

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Czyli jestem nastawiony pozytywnie, przynajmniej chwilowo :)
Wojtek Toruński

Wojtek Toruński Dtp, grafika...

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Zbyszku i Andy - dziękuję za odpowiedzi - wiem, że nie ma takiego OCR-a, który da sobie ze wzorami matematycznymi rade zawsze, chodzi jedynie o jak najmniejszy wymagany wkład składacza - czyli mój :) a korekta musi i tak wszystkie wykładniki, italiki, symbole, etc, posprawdzać bo ja tego po prostu nie zobaczę. A będą mieli robotę nie małą - ok. 360 stron (łącznie w kilku książkach) to jest coś - czasem 2 wzory na stronie a czasem cała strona wzorów działania. Do tego jeszcze bardzo dużo rysuknów - również opisanych wzorami, regułami - czysto ręczna robota, którą trzeba zrobić od podstaw na nowo.

Podany przez Ciebie link przykładowy to jest to - trzy pierwsze strony pokazują wmiarę dokładnie jakiego rodzaju wzory tam są - to na szczęście jest matematyka dla dzieci (no, tych matematycznie uzdolnionych) więc kilku stronicowych działań i wzorów nie ma. Składałem już dla starszych zapaleńców matematyki zadania - pytanie/zadanie na kilka wersów tekstu plus rysunek a odpowiedź - np 3 strony samymi wzorami.
Andy - Zbyszek podlinkował akuratny materiał do tego, jaki mamy w tych książkach - diplodokach, ale faktycznie to jest raczej mniej złożony skład matematyczny - w innych książkach mam sporo takich jak ten największy na s. 9. - tam jeszcze dochodzi wyróżnienie kolorem każdej zmiennej i każdego wzoru.

Książki, które chcemy "skopiować" to jedne z pierwszych w serii (od 1995 r.) i musimy zakasać rękawy i popracować dobrze - wzory to jedno, ale jeszcze rysunki - 1, 2, 3 na stronę - po prostu jest tego bardzo dużo. Ech... jak ja to lubię.
Andy L.

Andy L. ITM, VUB

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Tu akurat największym problemem były całki bo rysunki czyli wykresy można przeciez skanować jako obrazek.
Na razie testuję OmniPage czyli dawną Recognitę (mój ulubiony z dawnych lat program)
Andy L.

Andy L. ITM, VUB

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

W każdym razie niezależnie od tego jaki software będzie używany - powinien być w Training Mode a jeśli nie to życzę dobrej zabawy korektorskiej :P

btw. I Abbyy i OmniPage nie rozpoznają całek z automatu, więc w Training Mode zdefinować własny słownik i dodawać tam co trzeba. Z każdym następnym dokumentem będzie łatwiej :)

edit:
a tak na marginesie, po co OCR-ować wzory/równania skoro ma być 1:1 ?
nie lepiej skanować je jako obrazki i później zero problemów z rozjeżdżającym sie równaniem czy nierozpoznaną całką. Dla Indyka to lepsze chyba są obrazki.

Ale to jest tylko i wyłącznie moje prywatne zdanie i nikogo do niego nie chcę przekonywać :))))Ten post został edytowany przez Autora dnia 27.04.17 o godzinie 01:06
Wojtek Toruński

Wojtek Toruński Dtp, grafika...

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

Andy - dzięki za informacje. Po dzisiejszym sprawdzaniu co sie da wycisnąć z ocr-a postanowiono, że jednak będzie ponowny skład (choć chieliśmy tego uniknąć) maksymalnie zbliżony wyglądem do oryginału. Więc robię nowy "stary" skład a te trudniejsze wzory robię od nowa.
Na szczęście nie musi to być skład 1:1 (to chyba nie jest możliwe), wystarczy jak będzie 99% podobieństwa do oryginału :)
Próbowaliśmy to złożyć z obrazów - 1200ppi b-w bitampa - opcja najszybsza ale okazało się, że wiele (stanowczo zbyt wiele) liter w swoich przewężeniach zanika lub jest cieńka na 1 piksel. To oznacza mnóstwo czasu na poprawki - to już nowy skład jest szybszy i jakościowo przecież lepszy. Niestety font użyty do składu oryginału książki nie był zbyt dobrym wyborem ze wzglądu na te przewężenia (to moje zdanie) zwłaszcza tam, gdzie są wykładniki i ułamki. Często też opisy rysuków - punkty, osie, odcinki na skanie dotykają grafik - więc tu i tak musi być drobna korekta dla lepszej czytelności.
To tyle - ja się cieszę z takiej decyzji (zarobię) a i to, co powstanie, będzie porządnym materiałem, z którym można będzie w przyszłości zrobić daleko więcej niż z obrazami stronic oryginału.
Andy L.

Andy L. ITM, VUB

Temat: OCR programem Abbyy FineReader tekstów ze wzorami i...

I o to chodzi, żeby się nie narobić ale zarobić :)))))

Następna dyskusja:

wrzucanie sformatowanych te...




Wyślij zaproszenie do