Ћекции.ќрг


ѕоиск:




 атегории:

јстрономи€
Ѕиологи€
√еографи€
ƒругие €зыки
»нтернет
»нформатика
»стори€
 ультура
Ћитература
Ћогика
ћатематика
ћедицина
ћеханика
ќхрана труда
ѕедагогика
ѕолитика
ѕраво
ѕсихологи€
–елиги€
–иторика
—оциологи€
—порт
—троительство
“ехнологи€
“ранспорт
‘изика
‘илософи€
‘инансы
’ими€
Ёкологи€
Ёкономика
Ёлектроника

 

 

 

 


—труктура бази даних




Ќ.ћ. —»ƒќ–„” 

ќ–√јЌ≤«ј÷≤я ƒјЌ»’ “ј ‘”Ќ ÷≤ќЌјЋ№Ќј —“–” “”–ј Ћ≈ —» ќ√–ј‘≤„Ќќѓ

—»—“≈ћ» Ђ” –јѓЌ—№ »… Ќј÷≤ќЌјЋ№Ќ»… Ћ≤Ќ√¬≤—“»„Ќ»…  ќ–ѕ”—ї

Abstract: The paper deals with the problems which have emerged in the course of development of the

lexicographical system УUkrainian National Linguistic CorpusФ (UNLC). Peculiarities of the metadata storage

organization in the subsystem УDigital libraryФ are discussed. An overview of concrete data structures defined for

building an access unit to storage objects is presented. The choice of multilevel architecture of the software is

substantiated. Functional decomposition of the application level and distinctive features of the data presentation level

organization are described.

Key words: lexicographical system, linguistic technologies, functional structure, data organization.

јннотаци€: ¬ работе очерчен круг проблемных задач, возникших во врем€ разработки

лексикографической системы Ђ”краинский национальный лингвистический корпусї (”ЌЋ ) и рассмотрены

методы их решени€. –ассмотрены особенности организации сохранени€ метаданных подсистемы

ЂЁлектронна€ библиотекаї, и представлен обзор конкретных структур данных, определЄнных дл€

построени€ модул€ доступа к объектам хранени€ ”ЌЋ . ќбоснован выбор многоуровневой архитектуры

программной системы. ѕредставлена функциональна€ декомпозици€ уровн€ логики приложени€ и

особенности организации уровн€ представлени€ данных.

 лючевые слова: лексикографическа€ система, лингвистические технологии, функциональна€

структура, организаци€ данных.

јнотац≥€: ” робот≥ окреслено коло проблемних задач, €к≥ постали п≥д час розробки лексикограф≥чноњ

системи Ђ”крањнський нац≥ональний л≥нгв≥стичний корпусї (”ЌЋ ) та розгл€нуто методи њх вир≥шенн€.

«вернено увагу на особливост≥ орган≥зац≥њ збереженн€ метаданих п≥дсистеми Ђ≈лектронна б≥бл≥отекаї та

представлено огл€д конкретних структур даних, визначених дл€ побудови модул€ доступу до обТЇкт≥в

збереженн€ ”ЌЋ . ќбірунтовано виб≥р багатор≥вневоњ арх≥тектури програмноњ системи. ѕредставлено

функц≥ональну декомпозиц≥ю р≥вн€ лог≥ки застосувань та особливост≥ орган≥зац≥њ р≥вн€ представленн€

даних.

 лючов≥ слова: лексикограф≥чна система, л≥нгв≥стичн≥ технолог≥њ, функц≥ональна структура, орган≥зац≥€

даних.

¬ступ

¬ ”крањнському мовно-≥нформац≥йному фонд≥ ЌјЌ ”крањни ведутьс€ роботи з розробки

фундаментальноњ лексикограф≥чноњ системи Ђ”крањнський нац≥ональний л≥нгв≥стичний корпусї

(”ЌЋ ) [1]. ѕри проектуванн≥ та розробц≥ ц≥Їњ лексикограф≥чноњ системи стало очевидно, що, за

своЇю природою, вона повинна стати ≥нформац≥йною системою четвертого покол≥нн€ [2] Ц мовно-

≥нформац≥йною системою, €ка Ї ≥нтелектуально ор≥Їнтованою ≥ базуЇтьс€ на використанн≥

механ≥зм≥в природноњ мови.

«астосуванн€ нов≥тн≥х л≥нгв≥стичних технолог≥й, ефективне опрацюванн€ великих

текстових масив≥в, паралельне обслуговуванн€ великоњ к≥лькост≥ кл≥Їнт≥в, розпод≥ленн€ функц≥й

системи за р≥зними групами користувач≥в, забезпеченн€ масштабованост≥ системи, дос€гненн€

високого р≥вн€ в≥дмовост≥йкост≥ застосувань, забезпеченн€ над≥йност≥ збереженн€ та обм≥ну

даними, проведенн€ ресурсоЇмних обчислень та обробки даних, ефективне функц≥онуванн€

розпод≥лених застосувань у глобальн≥й мереж≥ в онлайновому режим≥ Ц це далеко не повний

перел≥к тих завдань, що постав при розробц≥ зазначеноњ системи.

2. ƒекомпозиц≥€ програмного комплексу

¬ ≥нформац≥йних проектах такого масштабу виб≥р генеральноњ л≥н≥њ Ї одним ≥з основних питань, що

визначаЇ усп≥х впровадженн€ та ефективн≥сть використанн€ системи. Ќайпершим аспектом, €кий

сл≥д проанал≥зувати на предмет адекватност≥ забезпеченн€ €к≥сних властивостей ≥нформац≥йноњ

Page 2

ISSN 1028-9763. ћатематичн≥ машини ≥ системи, 2006, є 2

системи, виступаЇ њњ арх≥тектура. ѕри анал≥з≥ поставлених вимог до системи виб≥р розпод≥леноњ арх≥-

тектури стаЇ очевидним. “ака технолог≥€ забезпечуЇ централ≥зоване збереженн€ та обробку даних,

надаЇ можлив≥сть розпод≥леного введенн€ даних, вир≥шуЇ проблему обмеженн€ доступу до

ресурс≥в, забезпечуЇ можлив≥сть використанн€ потужних обчислювальних можливостей сервера.

ѕрограмний комплекс ”ЌЋ  реал≥зовано за трир≥вневою схемою, у склад≥ €коњ вид≥л€ють р≥вень

даних, лог≥ки застосуванн€ та р≥вень представленн€ даних [3]. ѕри так≥й арх≥тектур≥ програмноњ

системи пром≥жний р≥вень (лог≥ки застосувань) перев≥р€Ї правильн≥сть даних, що передаютьс€ в≥д

кл≥Їнта, та обробл€Ї њх у в≥дпов≥дност≥ з певними правилами. ÷€ обробка може включати взаЇмод≥ю

з р≥внем даних або ж виконувати локальн≥ обчисленн€ чи перетворенн€, результати €ких

передаютьс€ на р≥вень даних дл€ збереженн€, або ж на р≥вень представленн€ (кл≥Їнтський). ¬ико-

ристанн€ такоњ арх≥тектури даЇ можлив≥сть лог≥чного розпод≥ленн€ функц≥й системи, що, у свою

чергу, забезпечуЇ можлив≥сть розпод≥ленн€ роботи м≥ж р≥зними розробниками, можлив≥сть

розробл€ти окремо кожний р≥вень, переносити на ≥нш≥ сервери в залежност≥ в≥д вимог

масштабованост≥. «осередженн€ лог≥ки застосуванн€ на пром≥жному р≥вн≥ дозвол€Ї модиф≥кувати њњ,

не зм≥нюючи кл≥Їнтськ≥ системи та ≥нформац≥йн≥ масиви. ≤ навпаки, зТ€вл€Їтьс€ можлив≥сть розробки

р≥зних кл≥Їнтських програм, що використовують один ≥ той же р≥вень лог≥ки застосувань.

3. ќрган≥зац≥€ збереженн€ метаданих

ќсновою дл€ розробки будь-€кого корпусу повинна бути, перш за все, колекц≥€ електронних

ресурс≥в. ћетою розробки електронноњ б≥бл≥отеки €к компонента ”ЌЋ  стало створенн€

спец≥ального середовища дл€ збору, збереженн€, моделюванн€ ≥ використанн€ природомовноњ

≥нформац≥њ в цифровому вигл€д≥. ѕринципи орган≥зац≥њ даного програмного комплексу повинн≥ були,

за задумом розробник≥в, представити можлив≥сть створенн€ вх≥дних поток≥в л≥нгв≥стичноњ ≥нформац≥њ

дл€ р≥зноман≥тних досл≥дницьких систем, а також забезпечити њх ≥нтеграц≥ю до складу

≥нструментальних засоб≥в електронноњ б≥бл≥отеки. ќтже, електронна б≥бл≥отека Ї нев≥дТЇмною

частиною ”ЌЋ  Ц вона виконуЇ роль багатофункц≥ональноњ ≥нформац≥йноњ системи, €ка акумулюЇ

≥нформац≥ю р≥зних вид≥в. ” свою чергу, систему Д≈лектронноњ б≥бл≥отекиФ можна представити у

вигл€д≥ декомпозиц≥њ на так≥ елементи: п≥дсистеми збереженн€ обТЇкт≥в, п≥дсистеми збереженн€

метаданих та модул€ доступу до обТЇкт≥в через метадан≥. «а функц≥ональним призначенн€м

система Д≈лектронна б≥бл≥отекаФ покликана забезпечувати реал≥зац≥ю двох основних завдань: по-

перше, ≥нтеграц≥ю в Їдиному середовищ≥ ≥нформац≥йних ресурс≥в р≥зних тип≥в та вид≥в, а по-друге,

забезпеченн€ можливост≥ виокремленн€ масив≥в необх≥дноњ ≥нформац≥њ за заданими критер≥€ми. Ќа

наш погл€д, ефективн≥сть використанн€ електронноњ б≥бл≥отеки можлива лише за умови

використанн€ ч≥ткоњ та прозороњ схеми представленн€ метаданих обТЇкт≥в збереженн€. ѕитанн€

стандартизац≥њ опису даних розгл€даЇтьс€ €к в середин≥ кожноњ орган≥зац≥њ, так ≥ на державному ≥

м≥жнародному р≥вн≥. ћи не виключаЇмо необх≥дн≥сть та актуальн≥сть дотриманн€ в≥дпов≥дност≥ уста-

новленим стандартам. “а, €к переконуЇ практика, при створенн≥ колекц≥й обТЇкт≥в р≥знор≥дноњ

природи дл€ р≥зних масив≥в обТЇкт≥в використовуЇтьс€ р≥зна п≥дмножина в≥дпов≥дного стандарту -

формат опису даних. «вичайно, можна визначити Їдиний формат опису вс≥х обТЇкт≥в, але це одразу

знизить ≥нтероперабельн≥сть системи. Ќаведемо приклад, що ≥люструЇ цю р≥знор≥дн≥сть.

Page 3

ISSN 1028-9763. ћатематичн≥ машини ≥ системи, 2006, є 2

¬ електронн≥й б≥бл≥отец≥ ”ћ≤‘ ЌјЌ ”крањни збер≥гаютьс€ €к електронн≥ тексти художньоњ

л≥тератури, так ≥ тексти законодавчих акт≥в ”крањни. ƒл€ опису перших використовуютьс€ так≥ пол€,

€к жанр, стиль, ”ƒ , автор, видавництво, м≥сце виданн€, ISBN, р≥к виданн€ ≥ т.д. ƒл€ забезпеченн€

зручноњ пошуковоњ системи в≥дносно текст≥в законодавчих акт≥в необх≥дно збер≥гати таку

≥нформац≥ю, €к реЇстрац≥йний номер документа, в≥дпов≥дний орган державноњ влади, дату

прийн€тт€ документа, стан законодавчого документа. ќтже, нав≥ть в≥дносно под≥бним за природою

≥нформац≥йним ресурсам (в одному ≥ другому випадку Ц це текст), в≥дпов≥даЇ р≥зний формат опису

метаданих.

–озгл€немо це питанн€ з точки зору системотехн≥ки орган≥зац≥њ електронноњ б≥бл≥отеки. ”

випадку, коли внутр≥шн€ структура збереженн€ метаданих т≥сно повТ€зана з≥ встановленим

форматом опису даних, ми наштовхуЇмос€ на проблему масштабованост≥ системи. Ѕудь-€ка зм≥на

формату (нав≥ть незначна) викликаЇ лавинопод≥бну зм≥ну всього програмного комплексу, що, в свою

чергу, призводить до необх≥дност≥ розробки окремих програмних систем дл€ р≥зних колекц≥й або

зумовлюЇ

неперервний

процес

розробки

та

супроводженн€

програмноњ

системи.

¬ир≥шенн€м

таких питань стала в≥дмова в≥д

привТ€зки структури

бази

даних

збереженн€

метаданих

обТЇкт≥в

електронноњ б≥бл≥отеки до конкретних

даних.

ќперуючи

пон€тт€ми

арх≥тектури системи, в≥дпов≥дн≥сть

даних до сутностей переноситьс€ з

р≥вн€ лог≥ки роботи з даними на р≥вень

лог≥ки застосувань (рис. 1). ѕод≥бний

п≥дх≥д дозволив спроектувати базу

даних таким чином, щоб вона

слугувала ун≥версальним сховищем

збереженн€ метаданих р≥зноњ природи, а њњ структура не залежала в≥д формату опису обТЇкт≥в

збереженн€.

ѕерш н≥ж перейти до розгл€ду структури бази даних, узгодимо де€к≥ пон€тт€:

ќбТЇкт збереженн€ Ц це електронний ресурс, €кий внесений до електронноњ б≥бл≥отеки €к

ц≥л≥сна одиниц€.

’арактеристика Ц це одиниц€ опису обТЇкта збереженн€, €ка забезпечуЇ можлив≥сть його

≥дентиф≥кац≥њ та може використовуватис€ дл€ пошукових ц≥лей.

ѕроф≥ль Ц множина характеристик, €кими описуютьс€ обТЇкти збереженн€ спор≥дненоњ

природи.

—труктура бази даних

«упинимось на розгл€д≥ взаЇмозвТ€зк≥в м≥ж таблиц€ми та структур≥ кожноњ з них.

–ис. 1. «м≥на п≥дходу орган≥зац≥њ збереженн€ метаданих

Page 4

ISSN 1028-9763. ћатематичн≥ машини ≥ системи, 2006, є 2





ѕоделитьс€ с друзь€ми:


ƒата добавлени€: 2015-05-05; ћы поможем в написании ваших работ!; просмотров: 660 | Ќарушение авторских прав


ѕоиск на сайте:

Ћучшие изречени€:

—ложнее всего начать действовать, все остальное зависит только от упорства. © јмели€ Ёрхарт
==> читать все изречени€...

1976 - | 1883 -


© 2015-2024 lektsii.org -  онтакты - ѕоследнее добавление

√ен: 0.027 с.