RSS
pdf/a формат
 
Уважаемые разработчики, операторы и прочие администраторы в ГИС, возник вопрос, на который может у вас уже есть ответ.
В ГИС ЖКХ необходимо выкладывать документы, подразумевающую возможность поиска по документу и выделения отдельной ее части.
На данный момент, думаю, большинство пользуется таким форматом как pdf, то есть сканируют изображение документа и сливают все страницы в один файл. Но в итоге получают просто много картинок в одном файле, которые, что есстественно не подходят по требованиям к электронным образам в системе.

Есть, как я понимаю, такой формат как pdf/a, который удовлетворяет вышеописанным требованиям.

И так вопросы.
1) есть ли программное обеспечение, которое позволяет работать с форматом pdf/a? конвертирование, создание.
Точнее я более чем уверен, что есть, ибо гуглил, но не дешевое, может что-то подскажете в этом направлении, чем сами пользуетесь.
2) может есть еще форматы, удовлетворяющие требованиям законодательства?
 
1) Adobe Acrobat Pro DC (тот, что бесплатный на Рутрекер)
Открыть обычный PDF и сохранить как PDF/A:
Файл - Сохранить как другой - Файл PDF с поддержкой архивирования (PDF/A)
 
Цитата
Lexus755 пишет:
Adobe Acrobat Pro DC
приставка про, подразумевает платность продукта, как правило.
Посмотрю.
Просто у нас иногда бывают набеги проверок наличия лицензий программного обеспечения и все "по русски бесплатное", не пройдет. Потом дороже выйдет.
 
ABBYY FineReader 12 Professional - хорошая программа. Открывает сканы, распознает текс, сохраняет в нужном Вам формате, можно редактировать документ и т.д и т.п. Советую.
 
Цитата
Кот Дворовый пишет:
ABBYY FineReader 12 Professional
уже лучше 7к за рабочее место, это куда не шло.
Некоторое время назад работал со старыми версиями, там кривое распознание таблиц ( а это 90% того что в протоколах ОСС) поправили?
 
Цитата
Sergey_P пишет:
приставка про, подразумевает платность продукта, как правило.
После ввода санкций мы их (пиндосские) правила не соблюдаем больше))
На трекере всё бесплатно. Я год работаю с ней, нареканий нет. Правда мне она нужна для других целей: квитанции бухгалтер создает в XLS в папках-квартирах (400 папок), я же их именно этой программе конвертирую в PDF в тех же папках-квартирах нажатием одной кнопки. Нет такого функционала в других ПО.
 
Цитата
Lexus755 пишет:
После ввода санкций мы их (пиндосские) правила не соблюдаем больше))
к сожалению ОБЭП на это акцент не ставит, а они нас любят, нежно и часто.
 
по поводу формата пдфа я заблуждался, он нам нафиг не нужен, он только для нормативных документов.
Нам я так понимаю достаточно "просто" отсканированный и распознанный текст выкладывать.

Черт мало того что протоколы по тысяче листов надо сканировать (протоколы, ведомости, решения ...) так их еще и через распознавание прогонять надо, походу всем УК надо добавлять в штат отдел по копировально-множительным работам.

тему не закрываю, завтра буду пробовать тестовую версию
Цитата
Кот Дворовый пишет:
ABBYY FineReader 12 Professional
, но вдруг кто еще что подскажет по этому поводу.
 
Цитата
Sergey_P пишет:
по поводу формата пдфа я заблуждался, он нам нафиг не нужен, он только для нормативных документов.
Нам я так понимаю достаточно "просто" отсканированный и распознанный текст выкладывать.
Чтобы отсканированный и распознанный текст сохранить в одном файле, да еще с возможностью поиска, то нужен PDF/A, потому что он многослойный. Сохраняет и картинку, и текст. А поиск идет по тексту. Подробней тут, например: [url:2e4i50la]http://finereader.helpmax.net/ru/работа-с-abbyy-finereader/особенности-сохранения-результатов/формат-pdfa/[/url:2e4i50la]
 
Цитата
Lexus755 пишет:
Чтобы отсканированный и распознанный текст сохранить в одном файле, да еще с возможностью поиска, то нужен PDF/A, потому что он многослойный. Сохраняет и картинку, и текст. А поиск идет по тексту. Подробней тут, например: http://finereader.helpmax.net/ru/работа ... рмат-pdfa/
проблема в приказе 88/203/пр
1. Электронные документы размещаются в государственной информационной
системе жилищно-коммунального хозяйства (далее – система) в следующих
форматах:
а) нормативные правовые акты – в виде текстовых файлов в формате PDF или
PDF/A;
б) иные текстовые документы – в виде текстовых файлов в формате PDF, .doc,
.docx или RTF, документы в виде таблиц также могут размещаться в формате .xls,
.xlsx;

то есть по нему пдфа только для нормативки, нам же тупо распознанный текст со вставленными графическими элементами (подпись и печать в основном).
 
Цитата
Lexus755 пишет:
то нужен PDF/A
А сколько будет весить такой файл? Большой + к исходному файлу?
 
Цитата
Александр7272 пишет:
Цитата
Lexus755 пишет:
то нужен PDF/A
А сколько будет весить такой файл? Большой + к исходному файлу?
Чуть побольше, чем PDF. Но не намного, на "вес" текста, а он легче самой картинки.
 
Цитата
Lexus755 пишет:
Источник цитаты то нужен PDF/A
сомневаюсь, все приказы на ГИС, то бишь нормативка, в формате пдф, и поиск и выделение текста там есть.
Выкладывать в формате пдфа может закончить печальным исходом, его ж нет в перечне для смердов.
ГЖИ по любому привяжется.
Завтра буду экспериментировать с распознанием и сохранением форматов. Раньше как то не заморачивался данным вопросом, придется грызть гранит.

Или оба формата идут под одним разрешением .pdf и я не понял сути?
 
Цитата
Sergey_P пишет:
Или оба формата идут под одним разрешением .pdf и я не понял сути?
форматы разные, а расширение файла одинаковое *.pdf

Отправлено спустя 2 минуты 14 секунды:
Цитата
Sergey_P пишет:
все приказы на ГИС, то бишь нормативка, в формате пдф, и поиск и выделение текста там есть.
Потому что содержание файлов там изначально текстовое, а не скан.
 
Цитата
Кот Дворовый пишет:
ABBYY FineReader 12 Professional - хорошая программа
Я тоже ФайнРидером пользуюсь, только у меня 11 Corporate. В отдел, работающий с ГИС ЖКХ, установил его же. Корпоративный, потому как на прошлых версиях "научен", что Corporate реже "теряет" лицензию. А так, где-то был даже 8 Professional - тот вообще получалось просто папку скопировать без установки - при запуске выдавал штук 5 ошибок (не зарегистрированы компоненты), потом работал. С учетом, что 11 (да и 12) устанавливается где-то с полчаса (что делает так долго - непонятно, файлы распаковываются гораздо быстрее, неужели так долго все компоненты зарегистрировать?), для разового срочного использования реально проще и быстрее скопировать папку восьмого и перетерпеть ошибки. Так оно и в списке установленных программ "не палится".

Еще плюс Файнридера - можно не беспокоиться об ориентации документа, скан будет развернут правильно, как бы оригинал не положили. Буквально на днях, обратились из соседнего управления - отсканировали стандартным мастером сканирования страницы альбомной ориентации, получили pdf в книжной. 30 страниц исправил минут за 10 - распозналось быстрее, но там нужно было картинками без распознавания, так что отмечал всю страницу как картинку, плюс сначала не убрал "Делить развороты" и несколько таблиц поделилось, пришлось делать второй дубль.

Если беспокоит наличие лицензии, то бывает в комплекте с МФУ и сканерами бесплатная упрощенная версия на диске - без изменения большинства настроек процесса, только с мастерами вида "Со сканера в pdf". Возможно, как раз будет достаточно такой версии. Мне, как правило, нужно поменять настройки, так что лет 7 назад ее посмотрел и удалил, но диск где-то на полке лежит. Конечно, порядком устарел уже, но качество распознавания уже тогда было более чем достаточное.

Цитата
Lexus755 пишет:
Потому что содержание файлов там изначально текстовое, а не скан.
Причем pdf без текстового слоя в НПА загрузить нельзя - ГИС выдает ошибку и не сохраняет.
Если Вы имеете ввиду, что с Word исходника НПА (который напечатали потом подписали) формируют pdf, то нет. У нас в ОМСУ все равно сканируют и распознают подписанный экземпляр. Конечно не последнюю роль в этом играет количество правок НПА перед подписанием и количество вовлеченных отделов - нет 100% гарантии соответствия именно имеющегося исходника подписанному экземпляру, так что проще распознать подписанный, чем все сверять. Кроме того, бывают случаи, когда нужно разместить вышестоящий НПА, который пришел по почте в виде скана без текстового слоя - его тоже придется распознавать.

Предполагаю, вариант с формированием pdf из Word можно применять, если при печати pdf будет виден признак, отсутствовующий в Word (имя компьютера и дата изменения файла очень мелким шрифтом, например), затем печататься на подпись именно из pdf.
 
Цитата
Elenata пишет:
А если протокол написан от руки , что в общем-то не запрещено... как обеспечить в нем возможность поиска...
Использовать программы по распознаванию рукописного текста. Правда пока программы распознают лишь "рукопечатный" текст... т.е. символы должны быть раздельные.
 
Цитата
Lexus755 пишет:
(тот, что бесплатный на Рутрекер)
Цитата
Доступ к Интернет-ресурсу
заблокирован
по решению органов государственной власти
:?
 
А разве договора управления и протоколы -нормативно-правовые акты?...
 
Цитата
Екатерина_2014 пишет:
А разве договора управления и протоколы -нормативно-правовые акты?...

Так ведь в приказе 88/203/пр речь не только про НПА идет.
Так и написано:

2. Файлы, размещаемые в системе и содержащие нормативные правовые акты
и иные текстовые документы, должны допускать возможность поиска и
копирования произвольного фрагмента текста в таких файлах.

Как я поняла, и протоколы, и договоры попадают под понятие текстовых документов.
 
Цитата
пишет:
речь не только про НПА идет
Все верно, но другие возможно и получится загрузить без текстового слоя (не проверял), а НПА вообще никак.
Цитата
Ирина В. пишет:
заблокирован по решению органов государственной власти
Давненько уж (в мае 2015 если не ошибаюсь). Если Вы там не были раньше, то такое сообщение возможно Вас напугает и остановит. Мне тоже "в лом" обходить блокировку и заходить на сам рутрекер, но этого и не обязательно - как правило достаточно Яндекса или другого поисковика - найти нужное, открыть сохраненную копию страницы, скопировать магнет-ссылку, открыть ее в торрент клиенте.
Для тех же, кто там постоянно, вся эта блокировка всего лишь мелкое затруднение - там начали готовится к блокировке еще за месяца так 3, и примерно как к затяжной войне. Запаслись проксями, клиентами виртуальных сетей и тд. Активно все это обсуждали.
 
Цитата
Ирина В. пишет:
Доступ к Интернет-ресурсу
заблокирован
...только на территории РФ. Зайдите на ресурс с территории другого государства)) используя интернет-браузер Тор.

Или используйте расширение (дополнение) у интернет-браузера Mozilla, которое так и называется "Доступ к Рутрекеру". Данное дополнение официальное и никем не запрещенное.
 
Цитата
Lexus755 пишет:
...только на территории РФ. Зайдите на ресурс с территории другого государства)) используя интернет-браузер Тор.

Качайте браузер Опера. Включите в нем опцию Turbo и будет Вам щастье
 
пираты!
а мы уже купили
 
Цитата
Lexus755 пишет:
Данное дополнение официальное и никем не запрещенное.
Насчет не запрещенное конечно есть сомнения, наверно просто не "спалили". Даже так надо соблюдать осторожность. Под такие обходы блокировки куча вирусов маскируется.

Отправлено спустя 3 минуты 45 секунды:
Цитата
burmistr пишет:
Качайте браузер Опера. Включите в нем опцию Turbo и будет Вам щастье
Тоже вариант. Хотя периодически Роскомнадзор пытается заблокировать Турбо и наезжает на поисковики - на несколько дней пропадает доступ - потом рутрекеровцы делают ответный ход и все по-старому.
 
Цитата
two_oceans пишет:
Насчет не запрещенное конечно есть сомнения, наверно просто не "спалили". Даже так надо соблюдать осторожность. Под такие обходы блокировки куча вирусов маскируется.
Если дополнение с оф.сайта Mozilla, то оно уже проверено на вирусы.
Цитата
Безопасно ли устанавливать дополнения?
Если явно не указано обратное, дополнения, доступные в этой галерее были проверены и одобрены командой редакторов Mozilla и безопасны для установки. Мы рекомендуем вам устанавливать только одобренные дополнения. Если вы хотите установить неодобренные дополнения или дополнения со сторонних веб-сайтов, соблюдайте осторожность, так как эти дополнения могут нанести вред вашему компьютеру или нарушить вашу приватность.
Источник: https://addons.mozilla.org/ru/faq
 
Цитата
Lexus755 пишет:
Если дополнение с оф.сайта Mozilla, то оно уже проверено на вирусы.
Согласен, они ввели систему когда все дополнения отправляются им для опубликования и подписываются их подписью после некоторой проверки и после этого стало значительно чище. Но это не значит, что они вручную каждое проверяют, иначе бы мозилла не отзывала десятками небезопасные дополнения. Достаточно заглянуть в список заблокированных в папке мозиллы (да, тот самый из-за которого мозилла регулярно ругается на Джаву, мол есть более новая версия).
Однако, можно выделить такие моменты - 1) оно проверено на известные вирусы; 2) проверено автоматически; 3) приложения, крадущие пароли и показывающие рекламу не обязательно попадают под определение "вирусы" (есть менеджеры паролей, хранящие данные в облачных аккаунтах; реклама же часто используется в "бесплатном" ПО), но тоже мало приятного; 4) все еще остаются дополнения выпущенные по старому стандарту, не требующему подписи.
К этому можно еще добавить, что электронную подпись мозиллы пару раз крали (навскидку пруф не приведу, но были отозванные сертификаты; тут вопрос, а когда последний раз вы проверяли списки отзыва?), а уж с ней подделать такую "вкусную цель" (сайт с дополнениями) несложно. Еще... дополнения не обязательно скачиваются с оф. сайта, любой другой вирус их тоже может с собой притащить и использовать для самовосстановления после лечения.
Итого, проблемы все те же что и в мобильных приложениях для андроида. Поэтому не забывайте хотя бы смотреть на количество скачиваний понравившегося дополнения. Чем больше - тем безопаснее.
 
Цитата
two_oceans пишет:
Поэтому не забывайте хотя бы смотреть на количество скачиваний понравившегося дополнения.
По моему там нет статистики скачиваний, но есть отзывы и рейтинг (51 отзыв, 4 из 5)

Тогда расставим по приоритетам (выше - безопасней, ниже - опасней):
1) режим Турбо в популярных браузерах (Опера, Хром, Яндекс...)
2) анонимный браузер Тор,
3) дополнения (плагины) к популярным браузерам

Так?
 
Цитата
Lexus755 пишет:
По моему там нет статистики скачиваний
Может быть, я не совсем точно сформулировал - в общем списке рейтинг и количество отзывов, после нажатия на конкретное дополнение есть дополнительно указание вроде "NoScript 2 172 764 пользователей" и есть список по популярности, полагаю пользователей считают по загрузкам.
Цитата
Lexus755 пишет:
Так?
Пожалуй так, по критерию "безопасней". Что касается Тора, то мне сложно оценить степень опасности - данные проходят через множество серверов, все сделано максимально чтобы нельзя было направленно кому-то навредить, но тем не менее проверки самих серверов тоже нет никакой. Практически уверен, что спецслужбы тоже присутствуют в сети Тор. В общем без здоровой паранойи в интернете никуда :) Мне технология Тор не очень нравится, но и отговаривать от ее использования не стану.
 
ТЕКСТОВЫЙ ДОКУМЕНТсогласно ГОСТ Р 51141–98 «Делопроизводство и архивное дело. Термины и определения», – документ, содержащий речевую информацию, зафиксированную любым типом письма или любой системой звукозаписи.
А если протокол написан от руки , что в общем-то не запрещено... как обеспечить в нем возможность поиска...
 
пираты. отстаньте от топика :twisted:

Подпишись на рассылку новостей ЖКХ, а также наших статей!

Спасибо, вы успешно подписались на рассылку!