Office Document Finder - эффективный поиск в документах

01.06.2021 11593   Комментарии (112)

Мне практически ежедневно приходится что-то искать среди документов: прежде всего среди файлов Word, реже - в файлах электронных таблиц и совсем редко - в файлах презентаций.

Но вот где еще часто что-то приходится искать, так это в документах PDF, а там с поиском все совсем нетривиально: PDF - это векторный формат, он может содержать и текст, и изображения, также в тексте нередко попадаются разрывы в середине слов, что сильно осложняет поиск.

В операционной системе Windows есть свой встроенный поиск, но он достаточно примитивный и пользоваться им можно только для самых простейших задач.


Поиск операционной системы Windows 10

Я пробовал несколько специальных программ продвинутого поиска, без которых мне не обойтись, и у всех них есть свои достоинства и недостатки. 

Некоторое время назад разработчики Office Document Finder предложили мне познакомиться с их продуктом. Эта система работает под Windows, Mac и Linux, поддерживает облачный доступ, работу на мобильных устройствах и через браузер. 

Система мощная, интересная, я теперь ее сам использую практически ежедневно, а кроме того, оказалось, что разработчики прислушиваются к пожеланиям пользователей и быстро вносят в систему какие-то дополнения. 

Сразу предупреждаю - система не бесплатная. Для бесплатного ознакомления там дается целый месяц, причем функциональность ничем не ограничена, и если по результатам тестового периода вы решите приобрести лицензию, то она приобретается на год. Персональная лицензия на год стоит 2400 рублей (на мой взгляд, вполне разумная цена, учитывая возможности), также есть бизнес-лицензия на 10 пользователей (на каждого получится 1700 рублей в год) и корпоративная лицензия на 100 пользователей (790 рублей за пользователя). 

Конечно, обычному домашнему пользователю такая система не нужна: его, скорее всего, устроит встроенная система поиска Windows. Но есть целый ряд пользователей - так сказать, домашне-профессиональных, то есть тех, кто работает дома и которым нужны значительно более продвинутые инструменты быстрого поиска нужной информации. Ну и заметим, что за период коронавирусного дурдома, когда многих людей перевели работать на удаленке, количество подобных пользователей увеличилось на порядки. 

А теперь давайте смотреть, какие возможности предоставляет Office Document Finder.

Работа приложения

Соответствующее приложение (Windows, Mac, Linux) скачивается со страницы системы и устанавливается. 

При первом запуске (я рассматриваю приложение под Windows) появляется вот такое окно. 

Там прежде всего нужно добавить каталог для индексирования - основную папку, в которой хранятся все ваши документы (обычно это папка "Мои документы"). Если у вас документы хранятся в разных папках, то их нужно по очереди добавить для индексирования. 

С сетевыми дисками система работает точно так же, как и с локальными: для индексации можно добавлять папки, расположенные на дисках локальной сети.

В меню сверху есть раздел "Настройки", там можно выбрать, какие именно виды документов нужно индексировать. Также там задаются частота обновления индекса, возможность распознавания текста на изображениях (например, в PDF-файлах) и показ облака тегов документа.  (Внимание: распознавание текста на изображениях очень сильно замедляет скорость индексации!)

После обработки программа покажет вам соответствующую статистику: сколько каких документов проиндексировано, какой размер тех или иных групп документов. Обратите внимание на то, что программа также показывает обнаруженные дубликаты (полностью идентичные файлы), они в индексацию не включаются. 

Если вы добавили в папку какие-то новые документы и вам нужно, чтобы они сразу попали в поиск, то нужно просто нажать кнопку "Начать индексацию": информация о процессе индексирования будет выводиться в приложении. 

Раздел меню "Поиск". Слева сверху - строка для поиска. Под ней - виды документов (те, по которым ведется поиск, выделены жирным шрифтом: если какой-то вид нужно убрать, то по нему нужно просто щелкнуть мышкой), критерий отбора (все слова или любое слово из строки поиска), вид сортировки выдаваемых документов. 

Строка ниже содержит разделы: сами документы, найденные фрагменты (вхождения поисковых слов), оглавление (не для всех документов) и список аналогичных (похожих) документов. 

В конце строки значок переключения режима просмотра от полноразмерного к миниатюрам. 

В окне справа - делается просмотр документа, там присутствуют пиктограммы масштабирования. 

Вводим нужную строку для поиска. Система сразу выводит в левой колонке список файлов, в которых нужная подстрока нашлась. По каждому такому файлу можно щелкнуть мышкой, и он будет показан в правой колонке с выделенными желтым нужными словами (словосочетаниями). 

С помощью панели справа сверху можно менять масштаб просмотра, открывать данный файл в соответствующей программе, делиться им или выводить на печать.

Если переключиться в режим просмотра миниатюр, то это будет выглядеть как-то так (масштаб вы также можете менять).

В режиме просмотра миниатюр при наведении мышки на лист слева сверху появляется пиктограмма, с помощью которой документ можно скрыть из данной выдачи.

Если в настройках включено создание облака тегов, то эти теги будут показываться на миниатюрах предпросмотра. 

Если из закладки "Документы" перейти в закладку "Цитаты", то там покажут все поисковые вхождения для выделенного документа.

На каждую из них можно нажать, в правом окне будет показан сам документ.

Если рассматриваемый документ имеет оглавление, то его верхний уровень будет показан в разделе "Оглавление". 

Ну и последняя вкладка - "Похожие". Там показываются документы, которые по ключевым словам аналогичны отобранным документам по поисковой строке. В некоторых случаях это может пригодиться. 

Ну и еще важный момент. Выдачу документов можно сортировать по имени, типу и по дате. При сортировке по дате и в столбце отбора документов их будут группировать по годам и при просмотре миниатюр. 


Запросы для поиска могут быть достаточно сложными: здесь используются правила, схожие с используемыми поисковыми системами в Интернете. 

При вводе запроса, состоящего из нескольких слов, отображаются документы, в которые входят все или любое из слов в зависимости от выбранной опции поиска. Пример:

договор аренда

Найти документы, содержащие слова "договор" и "аренда" (либо любое из слов, если выбран данный режим). 

При поиске также будут найдены документы, включающие слова, начинающиеся с указанных, например: "договора", "арендатор" и так далее. (Данное правило не работает для коротких слов, с которых начинается слишком много других слов, например слово "все".) 

Для поиска по точной форме слова оно указывается в кавычках: 'договор'.

Для исключения документов, содержащих определенное слово, оно указывается с минусом:

договор -аренда

найти все документы, содержащие слово "договор" (и его производные), но не содержащие слово "аренда".

Если запрос набран в неверной раскладке, она будет исправлена автоматически. Например, поиск по фразе "Щаашсу Вщсгьуте Аштвук" покажет документы, содержащие "Office Document Finder".

Например, ищем слово "видеорегистратор". 

Предположим, нужно исключить все документы с видеорегистратором AdvoCam - задаем запрос: "видеорегистратор -AdvoCam", получаем результат. 

С документами PDF Office Document Finder работает так же, как и с другими видами документов, и это очень удобно.

Единственное, если в документе PDF сложная верстка и куча векторных рисунков с мелкими деталями, то могут быть некоторые тормоза с их просмотром. Но такие документы и в Adobe Acrobat тормозят при просмотре.

Работа в браузере

Ссылка на переход в браузер содержится в главном окне программы, однако адрес всегда одинаковый - "http://localhost:50080/" - и на него просто можно поставить закладку в браузере.

В браузере не добавляются каталоги и не показывается процесс индексации, но оттуда можно осуществлять поиск по документам практически так же, как и в приложении.

В браузере при вводе поисковой строки выводятся подсказки.

Через браузер поиск и просмотр делаются точно так же, как и в приложении.

Облачный сервис

Еще более интересная возможность - поиск в ваших документах из любой точки земного шара через облачный сервис.

Ссылка на облачный сервис находится рядом со ссылкой на веб-версию в главном окне приложения. Адрес облачного сервиса https://my.officedocumentfinder.com

При первом переходе на облачный сервис вам предложат создать устойчивый пароль. (Если в дальнейшем пароль нужно будет поменять, то нужно нажать на эту иконку с зажатым Shift.)

После задания пароля на месте значка облачного сервиса появится QR-код. По нему можно просто щелкнуть мышкой для перехода в поиск по документам через браузер (при этом запросят ввести заданный пароль), также этот код можно отсканировать смартфоном, чтобы зайти в документы со смартфона. 

Работа с документами через облачный сервис ничем не отличается от работы с системой через браузер. 

А вот так это выглядит в смартфоне при переходе по ссылке в QR-коде: список документов с найденной поисковой строкой, просмотр конкретного документа.  

Тут, конечно, сразу возникают важные вопросы по безопасности: а это что же, получается, что сервис хранит индексы моих документов в облаке?!!

Нет, в облаке не хранятся никакие ваши данные. Поиск по-прежнему происходит на вашем локальном компьютере, а облачный сервис в данном случае выступает в роли прокси, которая дает доступ вам к вашей базе поиска через Сеть. Заданный вами пароль в облако также не передается. 

Доступ через облако автоматом не включается, вам нужно щелкнуть по пиктограмме облачного сервиса после запуска программы - только так доступ будет включен. И сам поиск через облако будет работать непосредственно на вашем персональном компьютере. 

Публичный доступ к документу

И в приложении, и в браузерной версии к любому документу можно предоставить публичный доступ. Это делается с помощью пиктограммы "Поделиться". 

При нажатии на эту пиктограмму система сгенерирует QR-код, который автоматически скопируется в буфер обмена, откуда его можно будет вставить в письмо или сообщение. 

При сканировании этого QR-кода адресат получит доступ к просмотру данного документа. Однако у вас при этом на ПК должно быть открыто данное приложение: стоит его закрыть, доступ будет потерян. Кроме того, ссылка действует только один день.

Вот документ, которым поделились, открытый в смартфоне. Он доступен только для просмотра.  

Заключение

Мне понравилась эта система, теперь сам ее использую. Удобная, достаточно быстрая, при необходимости можно делать сложные запросы, а результаты сортировать по различным критериям. 

Удобно, что есть защищенный доступ через облако без отправки данных в облако и что любым документом можно поделиться для просмотра. 

P. S. Если вас эта система заинтересует и вы захотите высказать какие-то свои пожелания в соответствии с вашим возможным сценарием применения Office Document Finder, то напишите об этом в комментариях, разработчики это обязательно прочитают и примут к сведению. 

© 1998–2021 Alex Exler
01.06.2021

Комментарии 112

Да фигня какая-то. Есть у меня скромная папочка на 400 гигов с 250 000 фалов.
Натравил туда программу так она через 6 часов сдохала на 60 000 файле. Сказав что не хватает памяти (16 гигов есть) и выпала в ошибку. Начинай сначала. Уже раза 4 пробывал.
Непростительная небрежность в программировании для коммерческого проекта.
P/S Форма обратной связи на сайте тоже не работает. Ноль реакции на кнопку "отправить". Что не удивительно при ее HTML атрибуте disabled="disabled".
03.06.21 14:24
0 0

Да, пробовал несколько раз на сетевом диске с сопоставимым количеством файлов, виснет посередине процесса. И не индексирует TXT файлы . Увы, в топку.
03.06.21 17:30
0 0

Претензия выглядит несколько странно, учитывая что это версия для персонального использования, а у типичного пользователя на диске обычно от силы 5-10 тысяч документов.
250 тысяч не у всякой компании найдется. Кажется должно быть очевидно, что для профессионального использования - профессиональные инструменты. Корпоративная версия построена на основе другой БД.
И да, форма все отправляет.
03.06.21 21:36
0 0

Кажется должно быть очевидно, что для профессионального использования - профессиональные инструменты.
Простите за занудство, но тому же Архивариусу было пофиг, 5k там документов или 500k )

Сборка обновлена до версии 1.33. С больший вероятностью проблема обработки 60+к файлов должна уйти, также добавлена индексация TXT файлов.

Да форма вроде отправляет. Но заторможенно.
А вот отличие в объёмах файлов и использование другой БД в анонсах версий не отражено. Как понимаю корпоративную демо версию получить не получится. Да и в общем 900 баксов в год дорого. Не такая уж у меня и большая корпорация. Просто документы 20 лет копятся.
04.06.21 07:13
0 0

Попробуйте на сборке 1.33, возможно пройдет.
04.06.21 12:44
0 0

Пробую работать с 1.33. Виснет меньше, за текстовые файлы спасибо, но возникает странный эффект: когда опция "OCR" выключена, сканирование обновленной папки проходит быстро, как и ожидается, но вот когда она включена, такое впечатление, что при добавлении пары новых документов распознавание OCR проходит заново для всех документов папки - это по времени сравнимо с первым индексированием! Что это?

Нет, заново распознавать не должно, распознаются только те документы которые индексируются, а те документы которые не были изменены (совпадает дата изменения и размер) не трогаются. Но следует учесть, что в документе распознаются все изображения кроме маленьких, и каждая страница скана это отдельная картинка, то есть 200т страничный документ может распознаваться несколько минут. Каждая картинка занимает у OCR от 0.5 до 3 секунд, и ускорить это никак нельзя, кроме как пустить параллельно, но ценой загрузки процессора. Такая опция планируется, но обычно пользователям комфортно когда индексация идет на фоне и не особенно грузит компьютер. Использовать другую OCR тоже не вариант, т.к. их нормальных примерно как браузерных движков, которых как известно осталось живых ровно два. Причем большинство (Abby, Google) лицензируются с ценой за каждое распознанное изображение.
Кстати, что означает "виснет меньше"? Так она обработала ваш объем документов не зависнув (без OCR) или нет?

Так она обработала ваш объем документов не зависнув (без OCR) или нет?
Без OCR - да.
Кстати, совет - при поиске в объемных индексах программа просто замирает на несколько секунд. Такое поведение пугает пользователей. Логично было бы сделать строку состояния поиска.

Да, скоро поиск будет фоновым, это не было включено в текущий релиз персональной версии т.к. вызывало некоторые проблемы.
А какое количество документов, если не секрет?

Полный объем у меня около 200 000. Пока дал ей две локации, там в целом 25 000.

Попробуйте старенькую программу "Архивариус". Не виснет, индексация, поиск дублей, поиск в тексте, масса форматов документов.
Очень выручает.
10.06.21 06:45
0 0

Вспомнил программу Архивариус 3000
02.06.21 08:50
0 0

Именно ей и пользуюсь до сих пор. Отлично работает.
10.06.21 06:46
0 0

По именам файлов - очень быстрый поиск (и не только поиск) - программа Listary
Программа free, за $20 можно купить РRO версию с более продвинутым функционалом
02.06.21 03:31
0 0

PDF - это векторный формат, он может содержать и текст, и изображения, также в тексте нередко попадаются разрывы в середине слов, что сильно осложняет поиск.
Это точно не так.

PDF может содержать:
• Текст именно в "чисто текстовом" виде – тогда всё прекрасно находится обычным "родным" поиском Windows 10, даже с переносами (только что проверил);
• Текст, переведённый в векторный или растровый (тем более!) форматы – найти вообще ни хрена невозможно в принципе. Помогут только лишь реальные OCR-приложения.
Вроде хоть того же платного (и содержащего кучу другого мощного функционала по работе с PDF-файлами) Acrobat Pro, стОящего около 9300 р/год, но работающего полностью оффлайн – вместо 2400 р/год за "хрен-пойми-что" от какой-то левой конторы, которая ещё и фактически требует закачки ей всех своих файлов... 😐

Плюс отдельно по косякам OCR-приложений – даже имеющий огромную многолетнюю репутацию, мощнейший и совершенно монстрячный ABBY FineReader (за те же 2400 р/год работающий оффлайн!) далеко не всегда распознаёт всё правильно. А тут вдруг какие-то вообще левые чуваки – и за ту же сумму, да ещё и закачивать им все свои файлы... Выбор очевиден. 🙂

Если вас эта система заинтересует и вы захотите высказать какие-то свои пожелания в соответствии с вашим возможным сценарием применения Office Document Finder, то напишите об этом в комментариях
Пишу. Сделают всё то же самое, но в режиме offline – куплю, честно.

но в режиме offline –
А вы пост-то читали? Все оффлайн и работает. Отключайте интернет и вперед.
Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать.
Плюс отдельно по косякам OCR-приложений
Делать OCR - это настолько просто сейчас, что даже смешно. А корявый рукописный текст вам никто хорошо не распознает. Обычный печатный более-менее пристойно выглядящий - вообще кто угодно.

А вы пост-то читали? Все оффлайн и работает. Отключайте интернет и вперед.
Именно что читал. Поиск "без облака" – одни возможности. Поиск "с облаком" – другие возможности.
Потому и возмутился такой "залипухе" – приведя в пример реально оффлайновые (и реально имеющие мировую репутацию!) решения от реально солидных разработчиков... 🙂

Делать OCR - это настолько просто сейчас, что даже смешно.
Ой... Вот тут уж точно не согласен категорически. Ни разу не "смешно", как только речь заходит о реальных задачах.

Если просто текст – да, там и всё остальное более-менее просто (хотя даже там OCR порой дохнут в отдельных моментах). Но если что-то вроде формул, не говоря уж даже обо всяких простейших сносках-примечаниях – всё, "туши свет, кидай гранату", ручная правка всего документа гарантирована... 😕

Пишу. Сделают всё то же самое, но в режиме offline – куплю, честно.
Тогда покупайте, проверим честность. Программа ничего никуда не закачивает (даже при работе через облачный доступ, по факту это просто прокси), и возможности поиска без облака (и без доступа в интернет) _ничем_ не отличаются. Даже из браузера можно искать, в программу встроен локальный web сервер.

Программа ничего никуда не закачивает (даже при работе через облачный доступ, по факту это просто прокси)
Прокси для чего именно тогда? Зачем вообще локальному поиску какой бы то ни было доступ в сеть, если не для передачи нераспознанных документов на основной сервис???

Даже из браузера можно искать, в программу встроен локальный web сервер.
Фишка прикольная (и даже радующая)). Но смысла понять не могу. Зачем вам там локальный сервер? Просто "чтобы был"? Или он тоже как-то завязан на обращения к основному серверу?

Да, еще насчет PDF. В обзоре написано верно. Иногда относительно большие фрагменты текста могут находиться в слитном виде, но часто они бывают разбиты на отдельно позиционированные фрагменты, даже внутри слов. Или, например, вместо пробела следующий фрагмент просто сдвигается вправо.

Именно что читал. Поиск "без облака" – одни возможности. Поиск "с облаком" – другие возможности.
Непохоже. Я же процитировал разработчика:
"Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать."
Вам как еще объяснить?

Зачем вообще локальному поиску какой бы то ни было доступ в сеть, если не для передачи нераспознанных документов на основной сервис???
Локальному поиску НЕ нужен доступ в сеть.
Зачем вам там локальный сервер?
Затем, что это стандартный способ организации работы в локальной сети - все пользователи делают все через интерфейс браузера.

Но если что-то вроде формул, не говоря уж даже обо всяких простейших сносках-примечаниях
М-да. Тяжелый случай. Мы сейчас о поиске в неразобранных image PDF говорим? Или мне кажется?

Прокси для чего именно тогда?

Для того, чтобы с другого компьютера или телефона вы могли зайти и увидеть свои документы. При том что постоянного IP адреса у вас нет.
Зачем вообще локальному поиску какой бы то ни было доступ в сеть, если не для передачи нераспознанных документов на основной сервис???
Он и не нужен до того момента, как вы захотите с _другого_ компьютера посмотреть свои документы. Распознавание, кстати, идет локально, интернет для него не нужен.

Зачем вам там локальный сервер? Просто "чтобы был
Чтобы те кому удобнее работать из браузера, могли искать и смотреть свои документы прямо там. Но БЕЗ ВЫХОДА В ИНТЕРНЕТ.
И еще раз
*интернет не нужен для работы программы*
*ничего никуда не передается*
*все документы и индексы всегда остаются на локальном компьютере*
*нет никакого основного сервера, есть только сервер позволяющий при необходимости удаленно зайти к себе*
*облачный доступ это просто дополнительная возможность*

Я же процитировал разработчика:
Тут уже разработчик "сказал всё сам"...

"Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать." Вам как еще объяснить?
Конкретно в данном случае – не надо ничего мне "объяснять". Мы же с вами работаем в совершенно разных сферах, и обладаем знаниями по совершенно разным дисциплинам. И я никогда ничего не пытался "объяснять" вам про вашу сферу профессиональной деятельности. Вот и здесь так же...

М-да. Тяжелый случай. Мы сейчас о поиске в неразобранных image PDF говорим? Или мне кажется?
Мы сейчас о поиске вообще в любых "закурвленных" (переведённых полностью в вектор) или сканированных (вообще тупо-растровых) PDF – а это действительно "тяжёлый случай" (ибо текстовые PDF прекрасно находит и сама Windows, как уже писал ранее).

Для того, чтобы с другого компьютера или телефона вы могли зайти и увидеть свои документы. При том что постоянного IP адреса у вас нет.
Зачем??? Если заявляется поиск локальный???

Чтобы те кому удобнее работать из браузера, могли искать и смотреть свои документы прямо там. Но БЕЗ ВЫХОДА В ИНТЕРНЕТ.
Искать свои же документы через браузер???

Распознавание, кстати, идет локально, интернет для него не нужен.
Как???
Ваш инсталлятор – 46 Мб. У меня только одна лишь база русского словаря весит почти в 7 раз больше – 355 Мб (и даже в уже "почищенном" виде весит минимум 65 Мб, и это всё чистый текст). А есть ведь ещё и куча других языков, кроме русского – и их все тоже надо распознать...

Зачем??? Если заявляется поиск локальный???
Например, вам на работе потребовалось найти документ который находится на домашнем компьютере.

Искать свои же документы через браузер???
Все верно. Непонятно только зачем в конце три знака вопроса.

Как???
Полагаете, что я пишу неправду? Не проще уже скачать и проверить все свои предположения?

Если заявляется поиск локальный???
Поиск с одного своего устройства на другом внутри локальной сети.

Ну и да, если юзер привык искать что-то через браузер - то при локальном поиске через браузер нужен локальный веб-сервер.

Вы никогда не сталкивались с локальными программами, не имеющими своей программной оболочки и управляемыми через браузер? Примеров могу привести.

Например, вам на работе потребовалось найти документ который находится на домашнем компьютере.
...Который может быть просто выключен, или даже просто в спящем режиме – тут опять только облака и принудительное (!) закачивание туда всей пользовательской информации...

Все верно. Непонятно только зачем в конце три знака вопроса.
Потому, что родной "Виндовозовский" поиск справляется с этим быстрее и оперативнее – и безо всяких сторонних приложений.

Полагаете, что я пишу неправду?
Нет, не так. Полагаю, что вы что-то явно умалчиваете. Прошу не принимать это за личную обиду (понимаю, что должность обязывает). Но с точки зрения здравого смысла – всё именно так и выглядит, увы...

Поиск с одного своего устройства на другом внутри локальной сети.
Там поиск с совершенно другими параметрами – вообще никаким местом не касающимися Интернета (особенно если вся сеть в целом ещё и грамотно устроена сама по себе)...

Полагаю, что вы что-то явно умалчиваете.
Чтобы это проверить, нужно меньше времени, чем вы пишете эти посты. Ставите триал, индексируется своя папка, выдергивается интернет, проверяется поиск и распознавание. ВСЕ. Вместо этого вы ведёте какие то малопонятные теоретические дискуссии, и намекаете, что квалификации собеседников не хватит, в отличие от вас, чтобы сделать такую проверку. Обалдеть.

Чтобы это проверить, нужно меньше времени, чем вы пишете эти посты. Ставите триал, индексируется своя папка
Поставил, проверил.
Поиск по тексту из отсканированного растрового PDF не нашёлся. "Что я делаю не так"©? Что и требовалось доказать – чудес не бывает. О чём и шла речь (которую вы неверно интерпретировали как якобы "теоретическую")...

Вместо этого вы ведёте какие то малопонятные теоретические дискуссии, и намекаете, что квалификации собеседников не хватит
Ну вот сейчас квалификации собеседников как раз и не хватило, увы...

Пришлите файл на support(at)officedocumentfinder.com, с указанием поисковых слов, я проверю в чем дело.

Поиск по тексту из отсканированного растрового PDF не нашёлся.
Странно, у меня все ищется. Речь о достаточно простых PDF документах (статьи). Конечно, всегда можно создать ситуацию из анекдота про сибирских мужиков и японскую бензопилу. То есть когда я загоняю простой PDF текст (в растре) в распознавалку ODF, он ищется без всякого интернета. Для меня этого достаточно. То, что можно найти такой PDF, который не распознается нормально, с интернетом или без (кстати, после подключения интернета текст нашелся, нет? ) - это я не сомневаюсь ни разу.

Пришлите файл на support(at)officedocumentfinder.com, с указанием поисковых слов, я проверю в чем дело.
Почтой неудобно, но вот ссылка на скачивание – мой самый ненавидимый файл (когда-то не смог отказать родственнику, просившему перевести его в Word, о чём страшно жалел почти неделю))). Поисковая фраза – прямая цитата из документа: "За годы, прошедшие после выхода второго издания учебного пособия по курсовому и дипломному проектированию"...

Формулы-то чёрт с ними (к этому моменту претензий нет, с формулами ни один пакет толком не справляется) – но вот обычный текст в этом древнем скане более чем уверенно распознали упомянутые ранее Acrobat Pro и FineReader (со всеми переносами и прочими нюансами).
В отличие же от них, обсуждаемый ODF молчит как рыба – находятся только лишь текстовые PDF и DOCX в том же каталоге (но это умеет и поиск Windows). Ни один из сканированных документов в папке (а там ещё несколько других сканированных файлов вперемешку с текстовыми) не распознаётся – и, соответственно, вообще ни разу не находится поиском ODF... 😕

P.S. Кстати, с отображением текстовых PDF тоже странности – окно просмотра иногда показывает форматирование документа совершенно криво и некорректно. Это уже, разумеется, не настолько критично как отсутствие поиска, но баг весьма странный (ссылка на файл со скриншота)...

Конечно, всегда можно создать ситуацию из анекдота про сибирских мужиков и японскую бензопилу.
Выше привёл конкретный пример, со ссылкой. Можете попробовать самостоятельно. И это вовсе не вариант "японская лесопилка" – в сети полно сканированных документов, особенно если речь про какую-либо техническую и/или старую литературу.
А если PDF не сканированный, а текстовый – он прекрасно индексируется и находится даже простым поиском. То есть, смысл приложения теряется.

кстати, после подключения интернета текст нашелся, нет?
И после подключения тоже нет, увы...

И после подключения тоже нет, увы...
Ну значит, вы понимаете, что никакое подключение к интернету для нормальной работы не нужно, а то, что данный конкретный документ не распознан корректно - это совершенно нормальная ситуация. Она возникает со всеми OCR.
А если PDF не сканированный, а текстовый – он прекрасно индексируется и находится даже простым поиском. То есть, смысл приложения теряется.
Я с базовым поиском Windows имел дело достаточно. Он не удовлетворителен от слова никак, начиная от скорости работы и кончая представлением найденных данных. Тот же Архивариус 3000 вообще ничего не распознает, но удобство им пользования по сравнению с поиском Винды - это просто несравнимо.

что данный конкретный документ не распознан корректно - это совершенно нормальная ситуация. Она возникает со всеми OCR.
Нет, это не "совершенно нормальная ситуация" – писал ведь, что документ (ну, как минимум хотя бы текстовая его часть)) прекрасно распознаётся другими OCR...

Я с базовым поиском Windows имел дело достаточно. Он не удовлетворителен от слова никак, начиная от скорости работы и кончая представлением найденных данных.
Если индексация Windows не выключена принудительно (мало ли, всякое бывает) – текстовый PDF находится ровно с такой же скоростью (или даже быстрее). Представление абсолютно полноценное – как в эскизе "Проводника", так и в панели просмотра (прикладываю, как отображается в найденных файлах показанный на прошлом скриншоте текстовый документ). Что уж там вы видите "неудовлетворительного" – я не знаю, честно. Впрочем, конкретно этот момент уже глубоко субъективен, "на вкус и цвет"...

– текстовый PDF находится ровно с такой же скоростью
Вы, скорее всего, не имели дело с массивами в много сотен тысяч самых разнородных документов самого разного объема. Поиск Винды хорош для домашнего компа с умеренным количеством файлов.

Поиск Винды хорош для домашнего компа с умеренным количеством файлов.
Разумеется. Как и обсуждаемый ODF (который в целом работает по тем же принципам, только с собственным индексом). Для озвученных же вами масштабов "сотни тысяч документов", если подобные задачи у вас действительно настолько регулярны – желательны уже и более "взрослые" DMS-решения (да и железо явно не помешало бы уровнем хоть немножко повыше домашнего компа, даже для нелюбимого вами виндового поиска))...

Архивариус 3000 до некоторого предела прекрасно работал на самом обычном железе на таком архиве и не жужжал. Просто я не очень люблю работать с discontinied программами, вот и ищу замену. Упомянутый ODF позиционируется именно как решение нужного уровня (не домашний комп, но и не корпорация с миллионами документов и сотнями сотрудников. Для уровня лаборатории ИМХО в самый раз. Но боюсь, мне тоже не подойдет - похоже, он не работает с ТХТ файлами, а это не годится.

Архивариус 3000 до некоторого предела прекрасно работал на самом обычном железе на таком архиве и не жужжал.
Да, и такое возможно – если архив "статичный" (документы просто лежат и обновляются не особо часто). Самое сложное и дикое – первый проход, сбор индекса.
Но если это всё каким-то образом постоянно меняется-обновляется, то тогда уже мрачновато выглядит такой архив. Впрочем, я не знаю точно ваших задач и требований к софту, поэтому тут у каждого "своя болячка" (порой случается, что проще потерять пару дней и набросать на коленке что-то своё, чем месяцами искать готовое решение)).

Но боюсь, мне тоже не подойдет - похоже, он не работает с ТХТ файлами, а это не годится.
Кстати, тоже обратил внимание на этот странный "игнор" формата...
Если TXT сильно много – согласен, вообще не вариант.
Но если их не особо много и данные в архиве не оперативные, то можно уже набраться смелости и в один заход перегнать всё вордовским VBA в "доксы" – а в дальнейшем просто регулярно обновлять архив тем же самым макросом. Если в остальном ODF вас полностью устраивает, а прочие варианты не подошли, то такой вариант получается вполне себе "компромиссным"...

в один заход перегнать всё вордовским VBA в "доксы"
Бугага. Я себе представляю перегон в "доксы" текстовых файлов размером так в один-два гига (это последовательности нуклеиновых кислот)... Архивариус с ними справлялся (другой вопрос, что это не его квалификация, но индексировал и не жужжал).

Проблема с данным файлом была не в распознавании, а в поддержке определенного варианта некоторого формата изображений. В версии 1.33 он распознается и индексируется, хотя и не быстро, учитывая что там более 200т страниц. Несколько страниц из него сейчас не отображаются (но индексируются) но это будет скоро поправлено.

текстовых файлов размером так в один-два гига
Такие текстовые файлы и в 1.33 ODF не покажет, т.к. он заточен на документы и показ форматированного текста, в т.ч. через браузер, что означает конвертацию всех форматов в HTML/CSS. А гигабайтный HTML не откроет ни один браузер.
Поддержку таких файлов реализовать можно, но это требует отображения строго в программе в специальном контроле который не будет грузить их целиком. Учитывая весьма редкую востребованность, пока целесообразности в этом не вижу. А обычные TXT сейчас отображаются и индексируются нормально.

Спасибо за ответ! Попробую новую версию.

Я себе представляю перегон в "доксы" текстовых файлов размером так в один-два гига
Тады действительно "ой", согласен (хотя можно было бы и сразу предупредить о таком нестандартном кейсе вместо "бугага"))...

В версии 1.33 он распознается и индексируется
Спасибо. Как будет время, то попробую и отпишусь о результате.

Несколько страниц из него сейчас не отображаются (но индексируются) но это будет скоро поправлено.
Нет, там не "несколько страниц". Там почти все страницы. Даже в новой версии.

Да, еще насчет PDF. В обзоре написано верно. Иногда относительно большие фрагменты текста могут находиться в слитном виде, но часто они бывают разбиты на отдельно позиционированные фрагменты, даже внутри слов. Или, например, вместо пробела следующий фрагмент просто сдвигается вправо.
Шастал по ответам – и обнаружил, что случайно пропустил этот комментарий (который внезапно оказался ключевым)...

Ваш процитированный комментарий говорит лишь о полном непонимании лично вами сути вопроса в целом.
Отсканированный документ, предназначенный для чтения людьми – в принципе не может иметь никаких "неправильных фрагментов". Это тупо картинка, распознать её – именно ваша задача (как в других реально работающих OCR, которые на порядки более достойно справились с представленным документом).
Если же документ (даже "удачно" для вас)) текстовый – правильный перевод его в другой формат тоже ваша проблема, не наша. Или уж тогда прямым текстом пишите у себя на сайте о том, что документы (и сканированные в растр, и даже текстовые) ваш софт распознаёт очень плохо. Так будет хотя бы честнее.

Более того, эта ваша фраза о "неправильных фрагментах" – говорит либо о том, что вообще вся программа залипуха чистой воды; либо о том, что ваши же программеры (чей ответ вы процитировали, видимо)) вас люто обманывают. Я не знаю, что там у вас, "по итогам расследования" выберете сам.

В общем, простите уж, но – "фтопку" этот ваш OFD...

P.S. Упрёк не лично вам, упрёк вашим разработчикам. Вы к ним не относитесь, это я уже понял по ответам. Поэтому лично к вам – "мир-дружба-жвачка". Я ж не злодей какой, я ж понимаю, что это это просто работа такая. 🙂

В старые добрые времена за 2400 можно было навечно купить штуки 4 офисных программы. А сейчас это безумие с подпиской всего и вся (действительно, зачем давать возможность покупать один раз, давайте будем заставлять всех платить ежегодно) - и это стоимость лицензии одной программы на год !
01.06.21 17:20
0 4

Хотелось бы уточнить, в какие времена можно было за 32 доллара (а он тоже не стоит на месте, это примерно 20 долларов начала 2000х) купить 4 штуки офисных программы? То есть примерно по 8 долларов за штуку.
01.06.21 17:26
3 0

Кура доллара в том же 2000 году был на уровне 28 рублей, так что 2400 рублей это 85 долларов
01.06.21 17:30
0 1

А, так вы на курс рубля жалуетесь. Я думал на цену.
01.06.21 17:37
4 0

Безотносительно к курсу рубля, 2400 в год - это перебор. Топовые игрушки на стиме дешевле стоят без подписок. Впрочем, вы, разумеется, полностью свободны в вопросах ценообразования, и уж точно не мне вам указывать)
01.06.21 17:40
0 3

Я в играх не очень разбираюсь, но слышал что они в основном зарабатывают на внутригровых покупках, так что сами игры могут быть и бесплатными.
Кроме того, цена грубо определяется как сумма затрат на разработку делить на размер потенциальной аудитории, и понятно что у игр она на несколько порядков выше.
01.06.21 17:45
0 0

В гугл поиске первая ссылка идет на сайт *.com , антивирус ругается
01.06.21 15:44
0 5

Функционал выглядит очень интересным.
Но, судя по всему, забыли про одну важную вещь: продвинутый поиск по истории браузера.

Регулярно сталкиваюсь с тем, что где-то что-то в читал в интернете, помню ключевые слова, но их нет в заголовке страницы, а есть они только в тексте. Соответственно, найти их через поиск по истории браузера нельзя.
01.06.21 15:10
0 0

Функционал выглядит очень интересным.Но, судя по всему, забыли про одну важную вещь: продвинутый поиск по истории браузера.
With the Deeper History Chrome extension installed, you can easily search for any words that you remember reading within the contents of the page and navigate to that webpage
deeperhistory.wordpress.com
01.06.21 15:30
0 4

Спасибо, не знал про такой.
01.06.21 15:44
0 0

Для мозиллы есть такое?
vpn
01.06.21 20:26
0 0

Понятия не имею.
02.06.21 00:07
0 0

Мне кажется разработчики на несколько лет опоздали с выводом продукта.

У меня коммерческий Office 365 и Google, все документы там, поиск внутри работает отлично, доступ откуда угодно, надежность хранения ощутимо выше личного HDD/SSD.
01.06.21 15:06
0 0

Посыл верный, но облачные сервисы дело такое, сегодня они есть, завтра их нет. Примеров много, в том числе у MS и Google. Кроме того, у многих есть исторически накопленные архивы документов.

Примеры закрытия сервисов были в зоне не основных для экостистемы и не генерирующие прибыль, а тут коммерческие системы за которыми будущее и существенная часть настоящего.

Так рынок для продукта думаю еще есть, но он очень быстро сужается.

Сейчас такое время, что завтра бешеный принтер издаст указ о хранении документов граждан РФ только на серверах РФ, и РКН быстренько заблокирует все до чего дотянется.

Алекс, передай разрабам, что у меня Avast сделал на загрузочный файл стойку, правда, ничего определить не смог, но сказал, что файл подозрительный, отправил его своим в лабораторию на изучение и всячески против его использования.
01.06.21 14:25
0 2

И программа и установщик подписаны усиленной цифровой подписью (EV сертификат), на них уже даже Защитник Windows перестал делать стойку. Эвристики антивирусов отличаются параноидальностью и большим числом ложных срабатываний. Впрочем, достаточно подождать пока они проверят, успокоятся и внесу в свои базы.

Нужная штука, если бы не облако.
А так -- нечего моим документам на чужом сервере делать.
01.06.21 13:38
1 2

Документы на сервер не передаются, это даже в обзоре прямо написано. Кроме того, облачный доступ можно вообще не использовать, на остальной функционал это никак не влияет.

Вот если бы была еще возможность установить программу на сервер, чтобы она проиндексировала, например, папки на NAS и была бы возможность для всех дать ссылку на этот сервер для поиска для любого сотрудника. А то поиск в браузере работает, я так понял, только для пользователя, где эта программа же и установлена?

Так для этого как раз есть корпоративная серверная версия. Она работает как сервис, позволяет настраивать группы (роли) пользователей и права доступа на документы из отдельных папок для этих ролей. Администрирование идет полностью из браузера.
officedocumentfinder.ru

Лет 10 использую Архивариус.
Всем устраивает.
01.06.21 13:24
0 2

Чем-то напомнило "Архивариус 3000"
01.06.21 13:04
0 1

Архивариус не умел отображать найденные документы в полном виде. Этого вообще почти никто не умеет из аналогов.

А ваш софт может в fb2 искать из коробки?

Пока только epub, но fb2 очень простой формат. Если будут запросы от пользователей, будет добавлен.

Только что вспомнил. А обычный txt индексируется? Если нет, то увы, это мимо меня.

Неужели появился поиск, лучше чем в Total Commandere? 😉
Поиск с распознавание - это круто. А сколько языков? Мне вот давеча китайский был нужен.
01.06.21 12:54
1 0

В поставке идут английский, немецкий, французский и русский. Но добавить китайский несложно.

А как сделать, если у меня смешанные англо-русские или англо-французские документы?
PS Очень удобно, когда разрабы отвечают прямо в комментах обзора. За это мы Экслера ценим!

Система распознавания позволяет указать два языка, основной и дополнительный. Сейчас один язык выбирается в настройках, второй всегда идет английский. Но если будут запросы, можно добавить выбор обоих языков.

Я пользуюсь бесплатным DocFetcher
Ищет по разным типам файлов, показывает заголовок, имя файла, путь, есть просмотр файла.
01.06.21 12:45
0 5

Благодарю!

Может искать и в fb2 внутри архивов.

Теперь у меня есть поиск по электронной библиотеке.
01.06.21 14:55
0 1

Плюсую, как профессиональный искатель в пдф файлах.
01.06.21 15:25
0 0

Я его пробовал, но даже на смешных объемах порядка сотен тысяч документов он обламывается.
01.06.21 15:34
0 0

Эх, как хорошо был бесплатный Yandex Desktop Search (((
Убили проект (((
01.06.21 12:33
0 4

Как и Гугл Поиск.
01.06.21 12:38
0 1

R I P обоям (обоем?)
01.06.21 12:53
0 0

Рекорд Надоям
01.06.21 12:56
0 6

Тоже его вспомнил. Хороший был продукт.
04.06.21 23:42
0 0

Интересно, а как с Эксель? По запросу может вывести строку, где находится ключевое слово?
А то у нас тучи прайс-листов в таком формате, и это пипец как неудобно - открывать по пакпам.
01.06.21 11:27
0 1

Слева на вкладке Цитаты выдается список всех вхождений в документ, нажимая на цитату можно перейти к конкретному месту.
01.06.21 14:40
0 1

Года 4 назад купил Архивариус 3000, активно им пользовался, весьма удобный и быстрый поисковик по документам, в общем, не разочаровал. Потом надобность упала, и забыл про него, а недавно узнал, что он не развивается уже с 2018 года. Но, можно ведь и неправедным путем его скачать да попробовать, даже относительно устаревший вариант, уверен, и сейчас не ударит лицом в грязь.
01.06.21 11:13
0 1

Я им пользовался, был хорош. Я его купил тоже. Но с 18 года он заброшен, а старая версия стала тупить, виснуть, выросшие архивы не берет, памяти не хватает... В общем, как обычно, пользоваться discontinued продуктом толку мало.
01.06.21 11:55
0 0

Любопытно, в каком случае может понадобиться поиск в DOC и XLS, но не в DOCX и XLSX или наоборот?
01.06.21 11:01
0 0

Легко, есть масса групп и контор, которые присылали данные только в определенных форматах, по ним можно их отделять.
01.06.21 11:56
0 2

Однако тебе ещё и пресс-релизов всяких дофига присылают...

А ты уже писал здесь, где ты ещё работаешь (или в какой области/специализации), помимо своего сайта?
01.06.21 10:47
0 1

Хорошая штука. Но мне она нужна 1-2 раза в месяц, предпочел бы облегчённую версию без браузеров, облаков и публикаций забесплатно или 2400 рублей за пару лицензий раз и навсегда.
01.06.21 10:34
0 4

Ну вот как раз информация для разработчиков 😄
01.06.21 10:36
0 0

Цена на персональную версию сделана максимально низкой. Когда будет подключен прием платежей в РФ, будет еще ниже (на 20%) т.к. сейчас государство забирает НДС.
В подписку входит обновление до новых версий, что стимулирует развивать продукт, а при еще более низкой цене и разовом платеже есть большой шанс повторить судьбу Архивариуса. В итоге не останется вообще вариантов чем пользоваться.
01.06.21 14:45
2 1

Здорово, но опять же програма-сервис. Купил и спи спокойно не работает. А брать в аренду все привыкнуть не могу. Шибко много в нашей жизни регулярных и обязательных платежей типа ЖКХ. Еще и софт туда же движется. Надеюсь эта мода уйдет и не буду ее поддерживать рублем.
Полезу на трекеры.
01.06.21 10:33
0 8

Надеюсь эта мода уйдет
По некоторым софтинам которые распространяются по обоим принципам - посчитал.
В среднем за 3 года подписки ты отдаешь столько же - сколько отдал бы за разовую покупку.
То есть начиная с 4-го года подписка становится очень выгодной для продавца.
Так что модель "плати понемногу - но всю жизнь" будет навязываться всеми силами. И уж точно не уйдет
01.06.21 12:30
0 7

То есть, на компьютер без интернета локальный поиск работает? Или это в теории?
01.06.21 10:26
0 0

Почему в теории? На практике. Индексы хранятся локально, зачем системе Интернет?
01.06.21 10:35
0 1

Чтобы слить личные данные, конечно же
01.06.21 18:22
0 0

Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать.
01.06.21 18:26
0 1

Да, ещё вопрос: что с сетевыми дисками и вообще работой с локальной сетью?
01.06.21 09:59
0 0

О, я что-то не догадался проверить, у меня все документы на локальном диске. Проверю, напишу и в обзоре допишу.
01.06.21 10:34
0 0

Да, с сетевыми дисками - без проблем: все показывает, добавляет, индексирует и ищет.
01.06.21 10:46
0 1

Спасибо за обзор. Неужели наконец то вменяемый поиск? Я перепробовал, кажется, все, что на эту тему бывает. Как был хорош Гугл десктоп поиск, пока они сами, уроды, его не закрыли. Ну, про всякое старье типа dtSearch / Copernic и говорить нечего. Одно время был неплох наш Архивариус 3000, но он закрылся.
Ps лучший поиск по именам (конкретно именам) файлов под Винду - утилита Everything, особенно в комплекте с Тотал Коммандер.
01.06.21 09:56
0 4

утилита Everything, особенно в комплекте с Тотал Коммандер.
Everything использую, а вот про Тотал не понял - она с ним как-то интегрируется?
01.06.21 10:52
1 0

Да, ее можно подключить в поиске по Альт-Ф7, и тогда ее результаты выдаются в Тотал. Очень удобно, я ее отдельно и не использую больше.
01.06.21 11:57
0 2

Копернику бывало плохо при поиске в русскоязычных документах на машине с нерусской локалью. Часть находил, часть не находил, часть отображал кракозябрами..
Гуглодесктоп в PDF искал только по первым, не помню уже, 150 килобайтам файла.
Пока лучшее что нашел для себя - X1 Search.
01.06.21 12:28
0 0

а можно инструкцию поподробнее? Как подключить?
01.06.21 12:31
0 0

01.06.21 15:27
0 0

Если кому нужно: как-то потребовалось заменить сразу в большом количестве файлов определённые виды текста. Из того, что подошло кстати, советую Text Replacer
01.06.21 09:37
0 0