StringTokenizer(String str, String delimiters);
StringTokenizer(String str, String delimiters,
Boolean delimAsToken);
Некоторые методы:
String nextToken() – возвращает лексему как String объект;
boolean hasMoreTokens() – возвращает true, если одна или несколько лексем остались в строке;
int сountToken() – возвращает число лексем.
Класс был реализован в самой первой версии языка. Однако в настоящее время существуют более совершенные средства по обработке текстовой информации – регулярные выражения.
Регулярные выражения
Класс java.util.regex.Pattern применяется для определения регулярных выражений (шаблонов), для которых ищется соответствие в строке, файле или другом объекте, представляющем последовательность символов. Для определения шаблона применяются специальные синтаксические конструкции. О каждом соответствии можно получить информацию с помощью класса java.util.regex.Matcher.
Далее приведены основные логические конструкции для задания шаблона.
Если в строке, проверяемой на соответствие, необходимо, чтобы в какой-либо позиции находился один из символов некоторого символьного набора, то такой набор (класс символов) можно объявить, используя одну из следующих конструкций:
[abc] | a, b или c |
[^abc] | символ, исключая a, b и c |
[a-z] | символ между a и z |
[a-d[m-p]] | либо между a и d, либо между m и p |
[e-z&&[dem]] | e либо m (конъюнкция) |
Кроме стандартных классов символов, существуют предопределенные классы символов:
. | любой символ |
\d | [0-9] |
\D | [^0-9] |
\s | [ \t\n\x0B\f\r] |
\S | [^\s] |
\w | [a-zA-Z_0-9] |
\W | [^\w] |
\p{javaLowerCase} | ~ Character.isLowerCase() |
\p{javaUpperCase} | ~ Character.isUpperCase() |
При создании регулярного выражения могут использоваться логические операции:
ab | после a следует b |
a|b | a либо b |
(a) | a |
Скобки, кроме их логического назначения, также используются для выделения групп.
Для определения регулярных выражений недостаточно одних классов символов, т. к. в шаблоне часто нужно указать количество повторений. Для этого существуют квантификаторы.
a? | a один раз или ни разу |
a* | a ноль или более раз |
a+ | a один или более раз |
a{n} | a n раз |
a{n,} | a n или более раз |
a{n,m} | a от n до m |
Существует еще два типа квантификаторов, которые образованы прибавлением суффикса ? (слабое, или неполное совпадение) или + («жадное», или собственное совпадение) к вышеперечисленным квантификаторам. Неполное совпадение соответствует выбору с наименее возможным количеством символов, а собственное – с максимально возможным.
Класс Pattern используется для простой обработки строк. Для более сложной обработки строк используется класс Matcher , рассматриваемый ниже.
В классе Pattern объявлены следующие методы:
Pattern compile(String regex) – возвращает Pattern, который соответствует regex.
Matcher matcher(CharSequence input) – возвращает Matcher,
с помощью которого можно находить соответствия в строке input.
boolean matches(String regex, CharSequence input) – проверяет на соответствие строки input шаблону regex.
String pattern() – возвращает строку, соответствующую шаблону.
String[] split(CharSequence input) – разбивает строку input, учитывая, что разделителем является шаблон.
String[] split(CharSequence input, int limit) – разбивает строку input на не более чем limit частей.
С помощью метода matches() класса Pattern можно проверять на соответствие шаблону целой строки, но если необходимо найти соответствия внутри строки, например, определять участки, которые соответствуют шаблону, то класс Pattern не может быть использован. Для таких операций необходимо использовать класс Matcher.
Начальное состояние объекта типа Matcher не определено. Попытка вызвать какой-либо метод класса для извлечения информации о найденном соответствии приведет к возникновению ошибки IllegalStateException. Для того чтобы начать работу с объектом Matcher, нужно вызвать один из его методов:
boolean matches() – проверяет, соответствует ли вся строка шаблону;
boolean lookingAt() – пытается найти последовательность символов, начинающуюся с начала строки и соответствующую шаблону;
boolean find() или boolean find(int start) – пытается найти последовательность символов, соответствующих шаблону, в любом месте строки. Параметр start указывает на начальную позицию поиска.
Иногда необходимо сбросить состояние Matcher ’а в исходное, для этого применяется метод reset() или reset(CharSequence input), который также устанавливает новую последовательность символов для поиска.
Для замены всех подпоследовательностей символов, удовлетворяющих шаблону, на заданную строку можно применить метод replaceAll(String
replacement).
Для того чтобы ограничить поиск границами входной последовательности, применяется метод region(int start, int end), а для получения значения этих границ – regionEnd() и regionStart(). С регионами связано несколько методов:
Matcher useAnchoringBounds(boolean b) – если установлен в true, то начало и конец региона соответствуют символам ^ и $ соответственно.
boolean hasAnchoringBounds() – проверяет закрепленность границ.
В регулярном выражении для более удобной обработки входной последовательности применяются группы, которые помогают выделить части найденной подпоследовательности. В шаблоне они обозначаются скобками “ ( “ и “ ) ”. Номера групп начинаются с единицы. Нулевая группа совпадает со всей найденной подпоследовательностью. Далее приведены методы для извлечения информации о группах.
int end() – возвращает индекс последнего символа подпоследовательности, удовлетворяющей шаблону;
int end(int group) – возвращает индекс последнего символа указанной группы;
String group() – возвращает всю подпоследовательность, удовлетворяющую шаблону;
String group(int group) – возвращает конкретную группу;
int groupCount() – возвращает количество групп;
int start() – возвращает индекс первого символа подпоследовательности, удовлетворяющей шаблону;
int start(int group) – возвращает индекс первого символа указанной группы;
boolean hitEnd() – возвращает истину, если был достигнут конец входной последовательности.
Следующий пример показывает как можно использовать возможности классов Pattern и Matcher для поиска, разбора и разбивки строк.
/* пример # 14: обработка строк с помощью шаблонов: DemoRegular.java */package chapt07;
import java.util.regex.*;
public class DemoRegular {
public static void main(String[] args) {
//проверка на соответствие строки шаблону
Pattern p1 = Pattern. compile ("a+y");
Matcher m1 = p1.matcher("aaay");
boolean b = m1.matches();
System. out. println(b);
//поиск и выбор подстроки, заданной шаблоном
String regex =
"(\\w+)@(\\w+\\.)(\\w+)(\\.\\w+)*";
String s =
"адреса эл.почты:mymail@tut.by и rom@bsu.by";
Pattern p2 = Pattern. compile (regex);
Matcher m2 = p2.matcher(s);
while (m2.find())
System.out.println("e-mail: " + m2.group());
//разбивка строки на подстроки с применением шаблона в качестве разделителя
Pattern p3 = Pattern. compile ("\\d+\\s?");
String[] words =
p3.split("java5tiger 77 java6mustang");
for (String word: words)
System.out.println(word);
}
}
В результате будет выведено:
True
e-mail: mymail@tut.by
e-mail: rom@bsu.by
Java
Tiger
Java
Mustang
Следующий пример показывает, как использовать группы, а также собственные и неполные квантификаторы.
/* пример # 15: группы и квантификаторы: Groups.java */package chapt07;
public class Groups {
public static void main(String[] args) {
String input = "abdcxyz";
myMatches("([a-z]*)([a-z]+)", input);
myMatches("([a-z]?)([a-z]+)", input);
myMatches("([a-z]+)([a-z]*)", input);
myMatches("([a-z]?)([a-z]?)", input);
}
public static void myMatches(String regex,
String input) {
Pattern pattern = Pattern. compile (regex);
Matcher matcher = pattern.matcher(input);
if (matcher.matches()) {
System. out. println("First group: "
+ matcher.group(1));
System. out. println("Second group: "
+ matcher.group(2));
} else
System. out. println("nothing");
System. out. println();
}
}
Результат работы программы:
First group: abdcxy
Second group: z
First group: a
Second group: bdcxyz
First group: abdcxyz
Second group:
Nothing
В первом случае к первой группе относятся все возможные символы, но при этом остается минимальное количество символов для второй группы.
Во втором случае для первой группы выбирается наименьшее количество символов, т. к. используется слабое совпадение.
В третьем случае первой группе будет соответствовать вся строка, а для второй не остается ни одного символа, так как вторая группа использует слабое совпадение.
В четвертом случае строка не соответствует регулярному выражению, т. к. для двух групп выбирается наименьшее количество символов.
В классе Matcher объявлены два полезных метода для замены найденных подпоследовательностей во входной строке.
Matcher appendReplacement(StringBuffer sb, String
replacement) – метод читает символы из входной стоки и добавляет их в sb. Чтение останавливается на start()-1 позиции предыдущего совпадения, после чего происходит добавление в sb строки replacement. При следующем вызове этого метода производится добавление символов, начиная с символа с индексом end() предыдущего совпадения.
StringBuffer appendTail(StringBuffer sb) – добавляет оставшуюся часть символов из входной последовательности в sb. Как правило, вызывается после одного или нескольких вызовов метода appendReplacement().
Интернационализация текста
Класс java.util.Locale позволяет учесть особенности региональных представлений алфавита, символов и проч. Автоматически виртуальная машина использует текущие региональные установки операционной системы, но при необходимости их можно изменять. Для некоторых стран региональные параметры устанавливаются с помощью констант, например: Locale.US, Locale.FRANCE. Для других стран объект Locale нужно создавать с помощью конструктора:
Locale myLocale = new Locale("bel", "BY");
Получить доступ к текущему варианту региональных параметров можно следующим образом:
Locale current = Locale.getDefault();
Если, например, в ОС установлен регион «Россия» или в приложении с помощью new Locale("ru", "RU"), то следующий код (при выводе результатов выполнения на консоль)
current.getCountry(); //код региона
current.getDisplayCountry(); //название региона
current.getLanguage(); //код языка региона
current.getDisplayLanguage(); //название языка региона
позволяет получить информацию о регионе в виде:
RU
Россия
Ru
Русский
Для создания приложений, поддерживающих несколько языков, существует целый ряд решений. Самое логичное из них – использование взаимодействия классов java.util.ResourceBundle и Locale. Класс ResourceBundle предназначен в первую очередь для работы с текстовыми файлами свойств (расширение .properties). Каждый объект ResourceBundle представляет собой набор объектов соответствующих подтипов, которые разделяют одно и то же базовое имя, к которому можно получить доступ через поле parent. Следующий список показывает возможный набор соответствующих ресурсов с базовым именем text. Символы, следующие за базовым именем, показывают код языка,
код страны и тип операционной системы. Например, файл text_de_CH.properties соответствует объекту Locale, заданному кодом языка немецкого (de) и кодом страны Швейцарии (CH).
Text.properties
Text_ru.properties
Text_de_CH.properties