Практическое занятие № 9
Тема: Ввод информации с бумажных носителей с помощью сканера
Цель: Помочь студентам получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, научить распознавать отсканированный текст, передавать и редактировать его в Word.
Задачи:
1. Научить студентов работать со сканерами различных производителей.
2. Научиться работать с программным обеспечением для сканирования.
3. Создавать пакеты документов.
4. Научить студентов применять знания работы со сканером, и программой FineRiader в курсовом и дипломном проектировании.
Время на выполнение: 2 часа
Обеспеченность занятия:
1. Интернет – ресурсы:http://school-collection.edu.ru.
2. Учебная литература:
- Информатика (курс лекций): Учебное пособие / В.Т. Безручко. - М.: ИД ФОРУМ: НИЦ ИНФРА-М, 2014. - 432 с.
- Информационные технологии в профессиональной деятельности: Учебное пособие / Е.Л. Федотова. - М.: ИД ФОРУМ: НИЦ ИНФРА-М, 2015. - 368 с.
3. Рабочая тетрадь в клетку 48 листов, ручка.
4. Технические средства обучения: персональный компьютер с выходом в Интернет, проектор, плакаты.
5. Программное обеспечение: Microsoft Windows ХР или более поздние ОС, программа FineRiader и MS Word.
Краткие теоретические и учебно-методические материалы по теме практического занятия
Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition – OCR). Самая известная программа для распознавания текстов – это FineReader от компании ABBYY. Именно эту программу чаще всего вспоминают, когда речь заходит о системах распознавания.
FineReader – омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания". FineReader имеет массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания – 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования.
Но далеко не все возможности включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений – для всего этого стоит приобрести профессиональную версию программы. Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции – сканирование, разбивку изображения на “блоки” и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования. FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями.
Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.
Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.
Оптимальным разрешением для обычных текстов является – 300 dpi и 400–600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов – от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без ни обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документа и его графическое оформление.
Вопросы для закрепления теоретического материала к практическому занятию:
1. Какое оптимальным разрешением для обычных текстов?
2. Что такое TWAIN-интерфейс?
3. Перечислить основные элементы интерфейса FineReader.
4. Самая известная программа для распознавания текстов?
5. Сканирование в сером является оптимальным режимом?
6. Особенности программы FineReader?
7. Какую функцию выполняют блоки?
8. Что такое PDF?
9. Как перебросить документ в Word или Excel?
10. Возможно форматирования документа и его графическое оформление в FineReader?
Задания для практического занятия:
1. Выполнить сканирование выданного задания и разбить отсканированный объект на блоки: текст, таблица, картинка.
2. Результаты распознавания необходимо сохранить в файл под своим именем в своей папке.