Адрес для входа в РФ: exler.bar

Как много нам открытий чудных...

02.05.2006 14:26  6184   Комментарии (5)
Вы знаете, что в MS Office есть распознавалка, причем вполне неплохая? Я не знал. Спасибо ne0d1n, который просветил.

Программа называется Microsoft Office Document Imaging и находится в папке "Средства Microsoft Office". (Если компонент не установлен, то Office при первом запуске программы попросит дистрибутивный диск, чтобы его установить.)

Я потестировал - вполне понравилось.



Сканирует быстро и просто, не задавая лишних вопросов. Поддерживает режим сканирования многостраничных документов (опционально). Сам процесс сканирования достаточно наглядный.



Распознается текст очень быстро, так что после сканирования остается только выбрать пункт меню "Отправить текст в Microsoft Word", задав опционально возможность сохранения картинок. Смешанный (русский с английским) текст определяет вполне достойно.

Что классно, при распознавании текст сохраняется в достаточно простом формате (удобном для дальнейшей обработки), и программа старается сохранять только варианты начертания - например, полужирный и курсив. Картинки сохраняются в отдельной папке.

Вот, например, текст Word, полученный после сканирования простого листочка - текст.

Потестировал и на более сложной задаче - журнальный лист в несколько колонок с иллюстрацией: вот  отсканированный лист, вот распознанный документ.

Раньше для решения подобной задачи я пользовался Abbyy FineReader HomeEdition (он, в отличие от FineReader Pro, стоит вполне разумных, а не совершенно заоблачных денег). Но у этой версии есть серьезные недостатки, главный из которых - жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее. Ну и со сканированием (а точнее - с сохранением результатов распознавания) многостраничных документов там тоже большие проблемы - все это делается весьма неудобно

В данном же случае программа, с одной стороны, простенькая, но с другой - делает все что нужно, причем быстро и удобно.

"А пацаны-то и не знают" (с)
02.05.2006 14:26
Комментарии 5

В Офисе есть Документ Сканинг и Документ Имджинг (последний шире). Но при сканировании много ошибок, которые надо редактировать в Ворде. Файнридер и Омнипейдж (другие не пробовал) позволяют редакцию на уровне распознвания и дают возможные варианты замен. Да и качество распознавания много лучше.
06.10.06 20:20
0 0

Ага, я сам бы не узнал, если б не получил однажды документ с расширением .mdi . Оказалось, что это Microsoft Document Imaging, и для чтения нужно установить соответствующий компонент.
02.05.06 23:59
0 0

Понял, спасибо. Значит, мы не знали его много лет 😉
02.05.06 22:21
0 0

Небольшое замечание: Microsoft Office Document Imaging доступно, если я не ошибаюсь, с версии 2002 (т.е. Office XP). В 2000 его еще нет.
02.05.06 22:18
0 0

жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее.

Хм, а кто мешает сохранить из Ворда как "обычный текст" (.txt) ? При этом всё уберётся автоматом. А потом уже делать с текстом всё что нужно.
02.05.06 14:40
0 0
Теги
Сортировать по алфавиту или записям
BLM 20
Calella 142
exler.ru 251
авто 428
видео 3793
вино 349
еда 481
ЕС 57
игры 114
ИИ 21
кино 1547
попы 185
СМИ 2600
софт 908
США 85
шоу 6