Clubrus - это адаптация Инета под простого российского пользователя!

Реклама в Интернет & Все кулички
Добро пожаловать!
Добавить в избранное







Сага о формате TIF

Бредисловие.
Что-то не получилось придумать заголовок к этой статье. Не хватило фантазии. Я не буду объяснять, что это за формат TIF, просто хочу предать огласке маленькое решение одной большой проблемы.

Проблема.
Работаю я в одной конторе, которая занимается технической и нормативной документацией разного профиля деятельности. Раньше, при советской власти, о компьютерах даже не мечтали и пользовались бумагой. Но прогресс не стоит на месте, появились компьютеры, сканеры, принтеры и т.д., советская власть канула в Лету. Возрасла конкуренция на рынке технической документации. Да и место для хранения всей этой макулатуры много надо, к тому же, такие помещения нуждаются в особом уходе. В нынешние времена, из-за катастрофической нехватки финансов, такие помещения содержать стало накладно. Появились худо-бедно компьютеры, т.к. содержание машин всегда дешевле. Вот и посетила нас мысль загнать всю макулатуру в цифИРЬ, т.е. в электронный вид - меньше реального места, болванки дешевле, не нуждаются в определенных жестких условиях хранения, долго хранятся, ну и удобство, а самое главное поиск и актуализация.

Опять же, отсканировать и распознать всю эту бумагу нереально. Я посчитал, что если мы будем сканировать, распознавать и править всей конторой в 32 хари, включая главную морду конторы директора, каждый день, по 8 часов, то на все это безобразие потребуется 20 лет и более (ведь всегда захочется поковырять в носу). Отбрасываем процентов на 99 распознавание и правку, к тому же, копия документа должна быть сохранена со всеми своими внешними атрибутами, т.е. изменять ничего нельзя, и документ не должен быть доступен для легкой правки. Остается изображение - и внешние данные сохраняются, и изменить что-либо уже затруднительно.

Решение.
Останавливаемся на сканировании и на хранении в рисунках. На первых парах мы делали все это при помощи сканера, но время не дает расслабиться, значит нужна цифровая фотокамера, а к ней штатив. Нужна, так нужна, взяли, что дешевле, но пойдет для черномазых изображений, т.к. документы идут только в таком окрасе. Сейчас уже таких фотоаппаратов имеем несколько. Не сильно критично, камера это или сканер, все завист от объема, дело-то не в выборе устройства, а в решении наболевшей проблемы, да и обморочное качество нас сильно не тревожит, зачем. В общем, опускаем то, чем бумагу загонять в нули и единицы.

Формат.
А какой формат изображений использовать? Отдельными рисунками в папках? НесУрьезно. Тут-то и придет, уважаемые читатели сей бадяги, формат изображения TIF:
- малый размер черно-белого изображения (на цвет мы плЯвали, нас это не клюВАет);
- многостраничность (это тело ближе к своей рубашке);
- просмотр в любом нормальном просмотрщике графики (дык... это... для клиентов нужно...)
- возможность распечатать (об этом и речи не должно быть);
- возможность распознать текст (надо... иногда...).

О размере и программах просмотра многостраничных изображений.
Простой пример. Многостраничный TIF, 55 страниц формата листа А4, занимает место на диске 1,6 МБ, причем, листы имеют экранный размер 2416 x 3290 пикселей. А что за программа нужна для просмотра таких файлов? Вообще, любая, уважающая себя, программа просмотра графических изображений. В первом приближении Imaging, который входит в поставку системы Windows. К сожалению, в Windows XP этой программы нет, там какая-то корявая приблуда. Но подойдет известная программа ACDSee, менее известные, но не менее мощные IrfanView и XnView (эти бесплатные, а последняя понимает более 400 форматов) и др. В порядке представления программ - ниже их изображения.

Эти программы подойдут. Да, чуть не забыл, понадобится Fine Reader (версия по барабану, хотя в следующей статье нужна будет версия не ниже 6) и Excel. В Excel мы будем создавать базу данных, т.к., самое главное, есть поиск и можно назначить ссылки на файлы tif (здесь бы я рекомендовал для просмотра Imaging, которую можно скачать с Домашней страницы, т.к. Office XP и ниже хорошо относится к этой программе и не задает лишних вопросов). А почему бы и нет? Excel есть практически у каждого, плюс можно скачать халявную (ох уж это сладкое слово) программу просмотра XLS-файлов MS Excel Viewer (MS Word Viewer для просмотра DOC там тоже имеется) с сайта Microsoft (при умной распаковки этих программ, их можно поместить на болванку в автозапуск). Excel-не-Excel, вам решать. В общем, используем все то, что под рукой или плохо лежит, что мудрить-то.

Работаем.
Запускаем ACDSee или XnView, выбираем источник TWAIN (это сканер или камера), Файл - Сканировать в (в ACDSee это File - Acquire images - TWAIN - Acquire), выбираем папку, куда будем сканировать изображения, выставляем формат для изображения TIF version 6, в Опциях выбираем сжатие CCITT group 4, задаем имя и начальный номер счетчика, ОК. После этого запустится программа для сканирования и можно начинать сканировать. Но и в программе сканера или камеры нужно выбрать черно-белый формат, а качества хватить и 300. Сканируем все, что требуется. В папке назначения будут появляться файлы с именем и со своим номером в том порядке, в каком вы сканируете документ.

Подготовим файл базы данных. Запускаем Excel и сохраняем его в папке, где будут у нас находиться многостраничные TIF'ы. Причем, желательно, чтобы эти TIF'ы были разнесены в папки по тематикам. Например, у меня сейчас готовится база по электротехническому оборудованию, в ней разделы каталогов от 01 до 31. Я создал в папке, где у меня файл base.xls подпапки с именами от 01 до 31, плюс мне понадобилось в этих подпапках создать папки по годам (ну это кто как может, тот так и извращается). Структура, примерно, как на рисунке ниже.

В Excel делаем таблицу с нужными полями, но, чтобы верхняя часть оставлась неподвижной, нужно установить курсор в ячейку столбца А и выбрать меню Окно - Закрепить. Выше строки, где был курсор, появится сплошная линия, которая не будет двигаться при прокрутке основной таблицы. Если установить курсор дальше от столбца А, то еще появится вертикальный разделитель с неподвижной зоной слева. Далее создаем с такими же параметрами столько листов, сколько вам потребуется (у меня, например, этих листов от 01 до 31, пойдет, визуально они не тянутся по экрану, всего 2 символа, а горизонтальную прокрутку в Excel'e можно передвинуть). Структуру таблицы можно сделать примерно так, как на рисунке ниже.

где строка 2 недвижимая, а поле в столбце В является полем со ссылками на документ, т.е., если щелкнуть по ссылке, откроется файл TIF с основной частью документа (не хитро). В остальных полях у меня название изделия, число страниц и информация об изготовителях и разработчиках, т.е. самая первичная информация, которая должна быть у конечного пользователя всегда под рукой.

Но увольте меня вбивать все это дело руками. На помощь приходит Fine Reader. Выделяем мышью нужные файлы отдельных пока страниц файлов TIF будущего многостраничного в файловом менеджере, который поддерживает Drag&Drop (перенос мышью) и просто затягиваем в окно Fine Reader. Конечно, можно сделать в Fine Reader Файл - Открыть, но практика показала, что затягивание мышью быстрее. Выделяем нужные области для распознавания и распознаем только нужный текст. В окне редактора Fine Reader находим нужный текст, копируем и вставляем в нужную ячейку в Excel'e.

Создаем многостраничный TIF.
Теперь беремся за создание многостраничного файла TIF. Делать это проще всего в ACDSee 5, хотя модуль CCITT group 4 имеет и XnView. Но мастер создания последнего подкачал. Кстати, в ACDSee 6 замечено, что мастер создания многостраничных изображений изменился не в лучшую сторону, пришлось отказаться от этой версии. В ACDSee 5 действие сбора заключается в нескольких шагах.

1. Выделяем файлы в папке со страницами будущего многостраничного TIF
2. Выбираем Tools - Format Convert (Инструменты - Изменить формат)
3. В появившемся окне выбираем формат TIF.
4. Нажимаем кнопку Format Settings (Настройка формата), где в новом окне нужно установить переключатель в положение CCITT group 4 и поставить галку в чекбоксе Save these settings as the defaults (Сохранить настройки по умолчанию). ОК.
5. Нажимаем кнопку Options, где нужно задать папку адресат. Создайте для выхода файлов какую-нибудь папку. ОК.
6. ОК.
7. Удаляем вручную уже ненужные еденичные страницы. Можно задавать условие, чтобы после конвертирования исходные единичные файлы были удалены. Но лучше удалять вручную, когда визуально проверите, что файл создан и нормально открывается. Ведь бывает и такое, что какая-то страница залезла с ошибкой, и эта страница обязательно окажется где-нибудь в середине файла. Начальные страницы откроются, а эта нет. Возможно, что придется учинить разбор полетов... Такое бывает, но крайне редко, а подстраховаться стоит. Меня начальник еще заставил, чтобы я следил за тем, чтобы те, кто сканирует, собирает и сохраняет, складывали отдельные листы в папки с именами по названию или номеру документа. Раз в неделю, по пятницам, я собираю эти папки с других машин по сети и устраиваю грандиозное архивирование каждой папки в свой архив, благо, что Total Commander позволяет архивировать за один раз в несколько архивов.

В ACDSee есть возможность сканировать сразу в многостраничный TIF. После закрытия программы сканера, будет создан уже нужный файл. Но тогда об отдельных рисунках можно забыть. Хотя этот способ и экономит время, но может подпортить нервы, этап пройден. Был случай, что одна моя сослуживица тянула таким способом очень большой документ, который в срочном порядке нужно было сделать для клиента. Причем, нужно было отсканировать фотопленку слайд-сканером, который очень медленно работает (черепаха быстрее в магазин за пивом сгоняет). Оставалось несколько кадров, когда вдруг рука подчиненного дяди Толи Ч. внезапно рванула рубильник, вырубив электроэнергию. Энергию минут через 5 дали, но файл уже нельзя было восстановить. А это почти 300 страниц, и день рабочий пошел коту под хвост.

Поэтому, пункт 4 нужно сделать 1 раз и, если вы будете для выхода файлов пользоваться одной папкой, то и настройка пункта 5 нужна 1 раз. Сие значит, что потом 2 пункта будут всегда пропущены. Вот только не забывайте перемещать готовую продукцию в место, где этот файл уже будет жить.

Теперь все эти пункты в ACDSee 5 повторим, но при помощи горячих клавишей (кроме п. 4 и п. 5):
1. CTRL+A
2. CTRL+F
3. END
6. ENTER

Готовый многостраничный файл перемещаем на постоянное местожительство, задав ему нужное имя при перемещении. Переходим в Excel, находим ячейку с записью, которая будет служить ссылкой для открытия TIF'a, и назначаем ссылку на многостраничный файл TIF.

Извращаться можно по-разному, но такая база создается из подручных средств. Конечно, наличие цифровых фотоаппаратов к подножному корму не отнесешь, вещь дорогая, но повторю еще раз, все зависит от объемов выполняемой работы, вполне можно обойтись сканером в домашних условиях, если у вас дома не библиотека Ивана Грозного.

СпасибЫ и оды мыльте на мой собачий адрес. Всех с критикой суровой, если такова аргументирована, принимаем по понедельникам, все равно день пропащий. Если имеется свой опыт, туда же в Е-кануру.

Korsar

P.S. О подводных камнях сего читайте в следующей статье.





 URL: http://clubrus.kulichki.net E-mail: Clubrus 





Новая версия этого сайта CLUBRUS.SU



Рейтинг ресурсов УралWeb Rambler's Top100