Цитата |
---|
Lexus755 пишет: Использовать программы по распознаванию рукописного текста. Правда пока программы распознают лишь "рукопечатный" текст... т.е. символы должны быть раздельные. |
09.12.2016 17:35:07
|
09.12.2016 18:12:38
|
09.12.2016 18:13:57
надо будет попробовать. как раз купил его.
|
19.04.2017 21:29:19
Решил заняться я переоснасткой всех договоров и прочей бумажной ереси из ПДФ в ПДФ/А. Вылезла проблемка в виде увеличения объёма файла в 2! раза. Что я делаю не так?
итак исходные данные: был распечатанный документ, я его изначально отсканировал как картинку. Сейчас я эту картинку загружаю в FineReader, он его распознаёт. Далее сохраняю документ как PDF/A, указываю следущие параметры: режим сохранения - текст под изображением разрешение - чтение с экрана (150 дпи) качество - потеря качества разрешена. Говоря конкретнее. ФАйл ПДФ на 20 страниц в виде картинок занимал 6 Мбайт. После моих манипуляций - 12 Мбайт. Может какие то действия делаю лишние? |
20.04.2017 05:51:07
Странно, pdf достаточно "плотный" формат и потеря качества по JPEG наоборот уменьшает размер файла с каждым пересохранением. Проверил у себя: был файл 3,87 Мб (на 3 страницы, примерно 1,29 Мб на страницу), при открытии файн ридер 11 ругнулся, что разрешение слишком мало и будет растянут. Потом поставил пользовательское качество: 150 дпи, потеря качества разрешена, 45%. Итого, размер 2,73 Мб, то есть стал меньше на 30% несмотря на добавление текстового слоя. Это при преобразовании pdf -> pdf/a. Второй пример: было 316 Кб (1 стр) стало 236 Кб, на 25% меньше. Если исходный был не pdf, а картинка, то сравнивать сложно. Настройки на скринах.
|
20.04.2017 06:13:31
|
20.04.2017 06:18:06
Формат pdf/a изначально и оговарилвался, как более емкий, хотя и является подмножеством формата pdf. Но первый отличается тем, что в электронную структуру фала внедрена информация, необходимая для его отображнеия. В частности все шрифты, используемые для его создания. Поэтому файл и "толстеет" при сохранении его в А.
|
20.04.2017 06:46:08
В пользовательских настройках сохранения поменял 150 DPI на 96 DPI. размер исходного файла увеличился всего на 40 Кбайт. Визуально остался таким же как их при увеличении объема в 2 раза
|
20.04.2017 07:10:21
Раньше я сталкивался с передачей газеты в типографию в файлах pdf. Так вот, сам формат pdf (и ps (PostScript), который создается перед pdf) не требует обязательного внедрения шрифтов - если уверены, что у получателя есть все шрифты, их можно выкинуть. Но если по факту шрифта не найдется (в принтере, например), он будет отбражен по таблице замен шрифтов, что почти всегда коряво. Поэтому типографии специально указывают включить все шрифты, установить определенное разрешение, поделить страницу на цветовые составляющие. Размер pdf выходит в 150-600 Мб. Все эти требования можно выполнить, только если использовать промежуточный формат PostScript и специально настроить преобразование в PDF под конкретную модель печатной машины. У нас же случай попроще - FineReader, как и прочие надстройки для офисных пакетов, виртуальные принтеры печатающие в pdf файл - не реализует 100% поддержки всех возможностей формата PDF. Сильно сомневаюсь (хотя нужно проверить, но придется разбираться в кодировке формата pdf/a), что шрифты вообще внедряются при обработке FineReader ом. Я больше склонен думать, что в исходном pdf разрешение было 96 dpi и повышение до 150 дало увеличение размера в 2 раза. Чтобы прояснить это, нужно знать как именно собирали из картинок pdf (с каким разрешением?). Хотя по логике FineReader должен это понимать (на моем скрине настроек (FR3) видно предупреждение, что разрешение можно только уменьшить). Отправлено спустя 3 минуты 29 секунды:
Для размещения придется смотреть в требования и ставить нужное разрешение, даже если размер вырастет. Ну а для себя и 96 dpi подойдет. |
20.04.2017 07:19:50
сканировал текстовый документ изначально с такими параметрами. Нашел таблицу на сайте адобэ. что при 150ДПИ изображения разрешение принтера получалось больше. Выходит что я при пересохранении увеличивал размер повышая исходное ![]() Поиск и копирование работает. визуально в глаза различия не бросаются. буду оставлять 96dpi. |
20.04.2017 07:33:33
Не так давно я мучался с электронными заявлениями на изменение в ЕГРЮЛ - внезапно ввели что разрешение в файле TIF должно быть 300 dpi. Ну, раз хотят, исправил поле разрешения на 300, страница a4 стала как 7 на 10 на экране. |
20.04.2017 07:37:30
программа использовалась: FastStone Image Viewer
параметры такие: И еще вопрос такой: У меня много протоколов на 1 страницу хранящихся в Jpeg-формате. По ним тоже необходимо делать возможность поиска. Получается и их нужно переводить в формат pdf/a ? |
20.04.2017 07:56:56
пдф/а формат это форрмат для нормативных документов. я выставляю распознанный пдф с графикой типа печатей и подписей ... правда сканирую я сразу ридером, размер файлов не более мегабайта.
Если же вы делаете пдф/а, то это распознанный текст поверх существующего джипега и ессно он будет больше чем изначальный размер. У вас выходов несколько а) перестать использовать пдфа б) сжимать пдф понижая его качество уже после создания (например тут попробуйте |
20.04.2017 08:05:42
Нашел
Отправлено спустя 4 минуты 43 секунды:
|
20.04.2017 08:42:37
Провёл тесты.
исходник: квитанция на оплату стационарного телефона + несколько рукописных слов. (нет протоколов под рукой)) ) 1) бумажный документ отсканировал через средства виндовс. размер файла получился 220Кб 2) Перевёл jpeg из п.1 в pdf через FastStone. размер стал 148 Кб 3) Перевёл pdf и п.2 в pdf/A через FineReader12. Размер стал 180 Кб. 4) Отсканированный jpeg из п.1 скормил сразу в FineReader12 и сделал из него pdf/A. Размер - 186 Кб. 5) отсканировал и распознал сразу через FineReader12 и сделал из него pdf/A. Размер - 170 Кб. Тут стоит сказать что минимальный dpi был 200. Мелкий шрифт находится лучше всего. Из присутствующих 4 слов - нашлось все 4. В предыдущих вариантах - из 4 одинаковых слов находилось 3 появления, а в одном случае вообще 2. Выходит что вариант №5 самый оптимальный, а также сокращающий время на сохранение промежуточных документов. Спасибо большое за помощь откликнувшимся!!! |
20.04.2017 08:47:08
попробуйте 5 вариант, только сохраните в пдф. |
20.04.2017 09:02:43
Хммм.. Сейчас свои изначальный договор (в ПДФе составленный из jpeg-картинок) на 21 страницу и размером 7,13Мбайт запихал в ФайнРидер. Распознал и сохранил в обычном ПДФе. Размер усох до 5.65 Мбайт . Затем тот же изначальный файл сохранил в пдф/А с теми же параметрами, получилось разжирел на 140 Кб и стал 7,27Мбайт. |
20.04.2017 10:16:28
Второй вариант - с сохраненной полной картинкой страницы и тестовым слоем, он конечно больше (7.27). Спасибо за интересные опыты. |
20.04.2017 11:32:19
|
20.04.2017 11:35:03
в пдф правильно, в нормативке у нас нет в перечне пдфа формата.
|
20.04.2017 11:38:16
|
||||
Сейчас на форуме никого нет :(
Сейчас на форуме никого нет :(
|
Цитата |
---|
Lexus755 пишет: Использовать программы по распознаванию рукописного текста. Правда пока программы распознают лишь "рукопечатный" текст... т.е. символы должны быть раздельные. |
Цитата |
---|
Sergey_P пишет: а такие есть, можно название. вдруг пригодиться |
Цитата |
---|
two_oceans пишет: Странно, pdf достаточно "плотный" формат и потеря качества по JPEG наоборот уменьшает размер файла с каждым пересохранением. Проверил у себя: был файл 3,87 Мб (на 3 страницы, примерно 1,29 Мб на страницу), при открытии файн ридер 11 ругнулся, что разрешение слишком мало и будет растянут. Потом поставил пользовательское качество: 150 дпи, потеря качества разрешена, 45%. Итого, размер 2,73 Мб, то есть стал меньше на 30% несмотря на добавление текстового слоя. Это при преобразовании pdf -> pdf/a. Второй пример: было 316 Кб (1 стр) стало 236 Кб, на 25% меньше. Если исходный был не pdf, а картинка, то сравнивать сложно. Настройки на скринах. |
Цитата |
---|
virus_mvs пишет: А сейчас этот ПДФ файл загружаю, оно распознаётся и при сохранении в ПДФ/А расширяется в 2 раза. |
Цитата |
---|
Шла_мимо пишет: Формат pdf/a изначально и оговарилвался, как более емкий, хотя и является подмножеством формата pdf. Но первый отличается тем, что в электронную структуру фала внедрена информация, необходимая для его отображнеия. В частности все шрифты, используемые для его создания. Поэтому файл и "толстеет" при сохранении его в А. |
Цитата |
---|
virus_mvs пишет: В пользовательских настройках сохранения поменял 150 DPI на 96 DPI. размер исходного файла увеличился всего на 40 Кбайт. Визуально остался таким же как их при увеличении объема в 2 раза |
Цитата |
---|
two_oceans пишет: Значит моя догадка на правильном пути. Тут уже придется смотреть в требования для размещения и ставить нужное разрешение, даже если размер вырастет. Ну а для себя и 96 dpi подойдет. |
Цитата |
---|
virus_mvs пишет: сканировал текстовый документ изначально с такими параметрами. |
Цитата |
---|
virus_mvs пишет: По ним тоже необходимо делать возможность поиска. Получается и их нужно переводить в формат pdf/a ? |
Цитата |
---|
Sergey_P пишет: правда сканирую я сразу ридером, размер файлов не более мегабайта |
Цитата |
---|
virus_mvs пишет: 5) отсканировал и распознал сразу через FineReader12 и сделал из него pdf/A. Размер - 170 Кб. Тут стоит сказать что минимальный dpi был 200. Мелкий шрифт находится лучше всего. Из присутствующих 4 слов - нашлось все 4. В предыдущих вариантах - из 4 одинаковых слов находилось 3 появления, а в одном случае вообще 2. |
Цитата |
---|
Sergey_P пишет: и это ... сохраняйте простой пдф, зачем вам формат, предусмотренный для законотворцев? у нас этого формата нет в перечне разрешенных. попробуйте 5 вариант, только сохраните в пдф. |
Цитата |
---|
virus_mvs пишет: Оооо.. оказывается в простом ПДФе тоже можно сохранить с возможностью поиска. Я с этим никогда не сталкивался и думал что только формат ПДФ/А позволяет делать поиск в документе. Кстати размер в обычном pdf стал 107Кб. |
Цитата |
---|
two_oceans пишет: Подозреваю, что (5.65) это основной вариант pdf без целой сканированной картинки всей страницы - как если бы в ворде вставили факсимиле, картинки и сохранили в pdf. Если хорошенько почистить, уменьшить картинки и разрешение уменьшить наверно еще меньше будет - не 5 Мб текста же там. Для поиска он подойдет, но подлинность документа не докажет. |
Цитата |
---|
Sergey_P пишет: в пдф правильно, в нормативке у нас нет в перечне пдфа формата. |
Подпишись на рассылку новостей ЖКХ, а также наших статей!
Спасибо, вы успешно подписались на рассылку!