2.2 Предметизація як вид інформаційної діяльності

Завданням предметизації є точне уявлення основного змісту документа у вигляді предметних рубрик (рядків).

Інакше ці рядки називаються дескрипторах [5].

Дескриптор (позднелат. descriptor, від лат. Describо - описую), лексична одиниця (слово, словосполучення) інформаційно-пошукової мови, що служить для опису основного смислового змісту документів. Дескриптори служать також для формулювання інформаційних запитів при пошуку документів в інформаційно-пошуковій системі.

Опис змісту документа за допомогою дескрипторів представляє собою пошуковий образ документа (ПІД), а опис змісту запиту - пошуковий образ запиту (ПОЗ). Правила складання пошукових образів документів і запитів є правилами перекладу текстів з природної мови на інформаційно-пошуковий мова (ІПМ).

Словник дескрипторів із зазначеними між ними смисловими відносинами, що охоплює певну галузь знання, називається інформаційно-пошуковим тезаурусом (ІПТ). Ідея застосування ІПТ для інформаційного пошуку документів складається в описі змісту документів і запитів за допомогою дескрипторів, що входять до його складу. На практиці ця ідея реалізується наступним чином. Текст документа, що вводиться в ІПС, зменшується до обсягу реферату, в якому виділяються слова, що несуть основну смислове навантаження, так звані ключові слова. За допомогою ключових слів досить точно передається зміст документа. Після цього кожне слово замінюється близьким йому за змістом дескриптором інформаційно-пошукового тезауруса.

Сукупність термінів тезауруса-дескрипторів, які замінили ключові слова, утворює пошуковий образ документа. Точно так само на язик дескрипторів перекладається і запит. Пошук документів після цього вже можна доручити машині. ЕОМ з притаманною їй швидкістю переглядає масиви подовий і порівнює їх з ПОЗом. Мета такого порівняння - виявити дескриптори, що належать одночасно поду і позу, тобто знайти перетин множин дескрипторів подав і поза. Чим більше зона перетину, тим точніше відповідність документа запиту. Мінімальна величина зони перетину обмовляється прийнятим критерієм смислового відповідності. Змінюючи його, можна варіювати точність і повноту пошуку в залежності від потреб споживачів інформації.

Такі принципи роботи ІПС з ІПМ дескрипторних типу. Якість їх роботи багато в чому залежить від досконалості застосовуваного інформаційно-пошукового тезауруса. Тому вимоги до ІПТ дуже високі. У ній не повинно бути, наприклад, термінів, що виражають одне і те ж поняття, тобто синонімів - це призвело б до втрат інформації при пошуку. Крім цього, повинні бути зафіксовані деякі відношення між термінами (рід - вид, частина ціле та інші), службовці цілям підвищення точності та повноти пошуку.

Тезаурус є необхідним лінгвістичним посібником будь-механізованої або автоматизованої інформаційно-пошукової системи, що використовує ІПМ дескрипторних типу.

Перші тезауруси, що задовольняють специфічним завданням інформаційного пошуку, були розроблені на початку 60-х років нашого століття.

Відповідно до тематичним профілем розрізняють багатогалузеві, галузеві і вузькотематичного тезауруси. Найбільш відомі з інформаційно-пошуковий тезаурус наступні:

1) тезаурус АСТІА (Агентство служби технічної інформації США) - 1-е видання в грудні 1962 р.;

2) тезаурус технічних і наукових термінів, найбільш великий з існуючих тезаурусом (23364 слова, з яких 17810 слів виступають в якості дескрипторів). Ця праця, що вийшов у світ в грудні 1967 р., представляє собою спільне видання Документального центру Міністерства оборони США та Об'єднаного ради інженерів;

3) тезаурус науково-технічних термінів за загальною редакцією Ю.І. Шемакіна (М., Військвидаві, 1972 р.). Цей тезаурус, що включає 19000 термінів, з яких 15000 є дескриптора, може служити прикладом вітчизняного багатогалузевого тезауруса.

До багатогалузевим тезаурусом можна віднести також тезауруси міжнародних інформаційних служб з атомної енергії. Тезаурус Євратому, виданий в 1966 і 1967 рр.. і Тезаурус Міжнародного агентства з атомної енергії у Відні («ІНІС»-Тезаурус), 6-е видання якого вийшло у світ в 1974 р.

Прикладами тезаурусом галузевого масштабу можуть служити: словник дескрипторів з хімії та хімічної промисловості, виданий НІІТЕХІМ в 1973 р. (1033 дескриптора, 5373 ключових слова), тезаурус дескрипторів за освітою, який використовується в автоматизованій системі Інформаційного центру в галузі народної освіти США (1967 р. ).

Навіть цей невеликий перелік може дати уявлення про те, наскільки велика роль інформаційно-пошуковий тезаурус у пошуку інформації. В даний час в усьому світі ведеться інтенсивна робота з побудови ІПТ різного призначення.

Для з'єднання «слів» Тезаурус в «фрази» застосовуються граматичні засоби ІПМ - правила складання пошукових образів за допомогою дескрипторів ІПТ. Граматики, що застосовуються в ІПМ, бувають найрізноманітнішими. Одні регламентують порядок дескрипторів в подах і позах, інші - приписують кожному дескриптор числа, що характеризують їх значимість для пошукового образу, треті - вказують на роль кожного дескриптора за допомогою спеціальних покажчиків і т.д. Застосування граматичних засобів в деяких випадках дозволяє більш точно передавати зміст документів і тим самим покращувати пошукові характери ІПС.

Детальне освітлення класифікаційних і дескрипторних ІПМ, інформаційно-пошуковий тезаурус і лінгвістичних (тобто мовних) аспектів автоматизованих ІПС пояснюється тим, що вони надають вирішальний вплив на функціонування ІПС. Якою б потужною і сучасної ЕОМ ми ні в своєму розпорядженні, без правильно обраного пошукової мови вся система буде працювати неефективно.

Удосконалення ІПМ багато в чому залежить від досягненні в галузі теорії семантичної інформації і напрямків лінгвістики. Тому поява автоматизованих ІПС послужило поштовхом до інтенсивних досліджень в області цих наук. Дуже заманливо, наприклад, доручити обчислювальної машині таку трудомістку операцію, як реферування документів. Одним із способів реалізації цієї ідеї є виділення машиною в тексті таких пропозицій, які містять найбільш значущі для даної галузі знань терміни (а такими є дескриптори тезауруса цій галузі знань, який зберігається в пам'яті машини). З цих пропозицій формується реферат документа.


Информация о работе «Аналітико-синтетичні засоби обробки інформації»
Раздел: Информатика, программирование
Количество знаков с пробелами: 57843
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
88305
0
0

... людського суспільства вцілому. Беручи до узагальнення другий розділ дипломної роботи, можна сказати, що у ньому досліджувалась і аналізувалась робота бібліотек України, а саме їх діяльність у створенні і розповсюдженні вторинних ресурсів. На сьогоднішній день, можна сказати, що бібліотечно-інформаційна діяльність посідає особливе місце у житті суспільства, оскільки спрямована на підтримку всіх ...

Скачать
45512
0
0

... рецензія, переконлива аргументація, авторитетніше оцінка. Глибина критичного аналізу залежить від передбачуваного місця публікації рецензії. На сторінках спеціалізованого видання рецензія повніше, серйозніше, складніше для розуміння людині «з боку», дилетантові. У рецензіях, призначених для масових газет і журналів, форма викладу й зміст повинні бути простіше, орієнтовані на масового глядача, ...

Скачать
27402
0
0

... і раніше вважають себе здатними самостійно оцінювати поточну ситуацію, робити прогнози й приймати рішення. Цікавим щодо цього є зауваження А.Вілдавскі про те, що основним супротивником використання політичної аналітики, а отже, і активного застосування експертизи, є бюрократія. Звиклі до функціонування в чітко лімітованому інструкціями й розпорядженнями адміністративному просторі, чиновники здебі ...

Скачать
117043
4
6

... ів: вихідні дані, реферат, вступ, аналітична частина, висновки, рекомендації, додатки, список використаних джерел, список скорочень, допоміжні покажчики, зміст [18, с. 323]. Особливу роль відіграють оглядово-аналітичні документи в ухваленні виважених управлінських рішень. Прогнозний огляд містить аналіз інформації, яка відображає характер змін стану досліджуваного об’єкта (його структури, ...

0 комментариев


Наверх