Ћекции.ќрг


ѕоиск:




 атегории:

јстрономи€
Ѕиологи€
√еографи€
ƒругие €зыки
»нтернет
»нформатика
»стори€
 ультура
Ћитература
Ћогика
ћатематика
ћедицина
ћеханика
ќхрана труда
ѕедагогика
ѕолитика
ѕраво
ѕсихологи€
–елиги€
–иторика
—оциологи€
—порт
—троительство
“ехнологи€
“ранспорт
‘изика
‘илософи€
‘инансы
’ими€
Ёкологи€
Ёкономика
Ёлектроника

 

 

 

 


—истемы автоматического аннотировани€ и реферировани€ текста




–еферат Ц св€зный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследовани€ или разработки.

јннотаци€ Ц краткое изложение содержани€ документа с общим представлением о его теме.

ћашинный реферат Ц последовательность предложений исходного текста либо таблица, в €чейках которой ключевые слова или словосочетани€ (первый машинный реферат был сделан в 1958 году).

Ётапы построени€ реферата человеком:

1. 1)ѕодготовительный (чтение текста и осмысление документа в целом);

2. јналитический (референт выдел€ет основные смысловые единицы (предложени€, слова, словосочетани€), строит план реферата);

3. Ётап непосредственного построени€ реферата (выделенные ранее единицы располагаютс€ в единый вторичный текст в соответствии с планом).

¬ качестве смысловых единиц реферата могут быть:

1) ѕолное (без изменений) ключевое предложение исходного текста;

2) ѕерефразированное ключевое предложение;

3) ѕредложение из ключевых слов и словосочетаний;

4) ѕредложение, обобщающее несколько предложений исходного текста.

—мысловые единицы аннотации:

1)  лючевые слова или словосочетани€ исходного текста с предшествующими им специальными словами Ц рел€торами Ц заранее заготовленна€ фраза (Ђтема состоит в том, чтої и проч.);

2) —пециальные предложени€ исходного текста, содержащие элементы (Ђрассматриваетс€ важна€ проблемаї и проч.)

ѕ  должен уметь:

1) Ќаходить в тексте ключевые слова, словосочетани€, предложени€;

2) Ќаходить в тексте менее значимые единицы;

3) —оставл€ть из текстовых единиц смысловые единицы реферата\аннотации.

ћетоды автоматического реферировани€:

1. —татистический:

2. ѕозиционные: основным критерием этих методов €вл€етс€ место или позици€ предложени€ в тексте:

a. ћетод заглави€ (основное содержание текста выражаетс€ текстом заголовка) Ц составл€ет словарь ключевых слов на основе заголовков\подзаголовков;

b. ћетод локализации (работает на текстах узкой тематики) Ц иде€ в том, что в таких текстах предложени€ о цели и результатах занимают фиксированное место.

3. Ћогико-семантические: исследуют структуру и семантику текста.

a.  лючевое предложение Ц предложение с наибольшей функцией весомости вли€ют различные факторы:

b. —в€зь с левым и правым окружением;

c. Ќаличие в предложении семантически значимых слов;

d. ¬ыделение текста шрифтом и т.д.

 аждый метод имеет достоинства и недостатки, используютс€ комбинированно.

ƒанные методы относ€тс€ к направлению квазиреферировани€, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. “екст, полученный путЄм соединени€ отрывочных фрагментов, лишЄн гладкости.

—егодн€ по€вились методы второго направлени€ на выделение из текстов наиболее информативной информации и создани€ с помощью неЄ новых текстов. “акое реферирование приближаетс€ к интеллектуальному реферированию. ƒанные системы работают сразу с несколькими источниками, а также способны работать с видео.

 


¬опрос 19.

ћетоды автоматического реферировани€:

1) —татистический: в данном методе ключевое слово Ц это знаменательное слово текста, которое с учЄтом синонимов встретилось в тексте наибольшее число раз.

а) «адача: по формуле где
F Ц число повторений слова в тексте,
m Ц число абзацев, где есть это слово,
N Ц количество слов в тексте,
n Ц количество абзацев в тексте
составить алгоритм, позвол€ющий получить:

- аннотацию текста в виде слов-рел€торов со следующими за ними ключевыми словосочетани€ми текста Ц ключевыми существительными со сто€щими перед ними определени€ми, выраженными прилагательными или причасти€ми;

- словесный реферат текста в виде последовательной цепочки ключевых предложений Ц предложений, содержащих три и более ключевых слова.

 

- —ловоупотребление Ц цепочка символов, заключЄнных между двум€ пробелами.

- —ловоформа Ц словоупотребление вне текста. Ќесколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б) јлгоритм решени€ задачи:

- ѕ  по каждому абзацу составл€ет алфавитно-частотный словарь словоформ;

- ¬се словари объедин€ютс€ в единый распределительный алфавитно-частотный словарь всего текста;

- —истема Ђчиститї словарь, сжима€ его до словар€ потенциальных ключевых слов:

a. ”дал€етс€ служебна€ и общеприн€та€ лексика;

b. ќбъедин€ютс€ грамматические формы одного и того же слова;

c. ќбъедин€ютс€ синонимы;

d. ”дал€ютс€ слова, встреченные только в одном абзаце;

- —ловарь потенциальных опорных слов делитс€ (с помощью  важн) на

a. —ловарь главных опорных слов;

b. —ловарь второстепенных опорных слов;

- —троитс€ аннотаци€, составленна€ из слов-рел€торов со следующими за ними ключевыми словосочетани€ми, состо€щими из главного опорного слова и определени€.

 

 


¬опрос 20.





ѕоделитьс€ с друзь€ми:


ƒата добавлени€: 2016-11-20; ћы поможем в написании ваших работ!; просмотров: 1163 | Ќарушение авторских прав


ѕоиск на сайте:

Ћучшие изречени€:

„тобы получилс€ студенческий борщ, его нужно варить также как и домашний, только без м€са и развести водой 1:10 © Ќеизвестно
==> читать все изречени€...

761 - | 751 -


© 2015-2024 lektsii.org -  онтакты - ѕоследнее добавление

√ен: 0.012 с.