Инструменты распознавания текста и компьютерного перевода
В современном мире происходит очень важный процесс — формирование единого информационного пространства. Стираются информационные границы между странами и народами, у человека появляется возможность общаться в буквальном смысле слова со всем миром. Все это приводит к тому, что многие люди различных профессий начинают общаться с иностранными коллегами, читать справочную и другую специальную литературу на иностранном языке. Но далеко не каждый человек свободно владеет иностранными языками.
Современные компьютеры способны хранить большие массивы данных и производить в них быстрый поиск. Эти возможности компьютера можно использовать для создания электронных словарей и организации с их помощью перевода текста с одного языка на другой. Для этих целей сегодня уже существует множество программ.
Как работают программы-переводчики
Чтобы найти перевод неизвестного иностранного слова, пользователю электронного словаря достаточно ввести это слово в строке поиска, и уже через несколько мгновений будет получен исчерпывающий перевод. Современные текстовые процессоры имеют в своем составе словари, позволяющие производить орфографическую проверку правильности написания слов (на разных языках).
Но перевод отдельного слова и перевод целого текста — задачи совершенно разные. Чтобы понять смысл текста, не всегда хватает понимания значений всех входящих в него слов. Например, в английском языке слово «unit» имеет как минимум 6 различных значений. Какое из них имел в виду автор конкретного текста? Следствием необходимости решения этих проблем стало появление компьютерных систем перевода текстов. Современные системы перевода позволяют не только переводить, но и редактировать перевод, работать с различными тематическими словарями, выполнять как простой и быстрый, так и сложный и профессиональный перевод. Эти программы (вернее, пакеты программ) позволяют работать с файлами различных типов, электронной почтой, гипертекстовыми документами и т. п. К сожалению, задача адекватного перевода до конца еще не решена — многие программы зачастую выполняют ее не всегда удачно.
Рассмотрим простой пример. Переведем с помощью системы перевода на английский язык фразу:
Информатика — это наука об информации.
Результат перевода:
The computer science is an information science.
А теперь с помощью той же программы переведем эту фразу на русский язык. Получим:
Информатика — информатика.
Как говорится, почувствуйте разницу!
Системы перевода еще уступают человеку, особенно в работе с художественными текстами, но эта область информатики развивается очень быстро и «электронные карманные переводчики» уже становятся незаменимым помощником туриста, отправляющегося в страну с незнакомым для него языком.
Распознавание текста
Перед обсуждением этой темы давайте вспомним, какие устройства ввода информации существуют у современных компьютеров? Клавиатура, мышь, сканер и др. Сканер, например, позволяет вводить графическую информацию с листа бумаги.
За сотни лет человечество накопило огромный объем информации на традиционных бумажных носителях (книгах, газетах, журналах и т. п.). В настоящее время существует потребность (у электронных библиотек, к примеру) переносить эту информацию в память компьютера. Конечно, это можно сделать с помощью клавиатуры и текстового редактора, но, представьте себе, сколько времени уйдет даже у профессионального оператора на ввод, скажем, романа «Война и мир»? Необходимо как-то ускорить этот процесс. Встает вопрос, нельзя ли использовать сканер для ввода текстовой информации? Правда, в этом случае возникает такая проблема: все, что введено с помощью сканера, хранится в памяти ЭВМ как изображение. Надо «объяснить» компьютеру, что значок «с» — не просто закорючка, а буква, и хранить и обрабатывать его нужно как букву.
Ввод в компьютер печатного и рукописного текста
Существуют программы, позволяющие вводить тексты в ПК с помощью сканера. Используя специальные алгоритмы, они распознают буквы, позволяют редактировать распознанный текст и сохранять его в различных форматах. Популярной программой такого типа является АВВY FineReader. Работать с этой программой несложно. Сначала нужно отсканировать текст (управлять сканером можно прямо в среде (FineReader), затем разбить этот текст на фрагменты, потом распознать эти фрагменты, отредактировать полученный текст и, наконец, сохранить его в нужном текстовом формате. Интерфейс программы позволяет освоить эти операции легко и быстро.
Задача распознавания текста относится к области проблем, которые решает наука под названием «Искусственный интеллект». Современные распознающие программы умеют читать не только печатный текст, но и текст, написанный самым «корявым» почерком.
Коротко о главном
Современные программные средства позволяют переводить тексты с одного языка на другой и распознавать их, переводя из отсканированного графического представления в текстовые файлы.