3.3 Синтаксична мiжфразова одиниця

В основi пiдходу, що описується, лежить поняття поверхньо-синтаксичної мiжфразової одиницi (ПМО) - незалежного ланцюжка речень, межами якого (верхнiм iнклюзивним i нижнiм ексклюзивним) є автосемантичнi речення тексту [Берзон, 1974; Зарубина, 1977]. Автосемантичним, або насиченим, будемо називати будь-яке речення, що не мiстить показникiв синтаксичного зв’язку з iншими реченнями; речення, котрi мають такi показники, - синсемантичними. У виглядi маркерiв синтаксичного мiжфразового зв’язку використовуються конектори. Можна видiлити такi типи ПМО : а) що складаються з одного речення:

(1) Si: Colorimeters measure the intensity of visible light. Si+1: Colorimeters made by Hach Chemicals Co continuously monitor copper, iron, and other components.

(2) Si: В работе описывается новая нетекстурованная сталь, содержащая алюминий и олово. Si+1: В [16] анализируются аморфные сплавы с высокой магнитной индукцией и малыми потерями, используемые в трансформаторах.

В прикладах (1) i (2) речення Si є ПМО.

б) що складаються з одного автосемантичного та одного чи декiлькох синсематичних (ненасичених) речень: (3) Si-4: The measurements of R were made with storage ring called ADONE at Frescati in Italy. Si-3: These measurements gave values of 2. Si-2: In other words, there were twice as many hadronic events as muon pairs. Si-1: Shortly thereafter theory briefly caught up with experiment. Si: Wang and Smith published details of a rather simple method...

(4) Si-3: Каждая лексическая единица, помимо смысла, который она несет, который она несет, приобретает некоторые новые свойства. Si-2: Эти свойства ЛЕ выражаются в лек-сико-грамматических категориях: Si-1: Например, в качестве лексико-грамматических категорий могут выступать такие свойства, как “многозначность”, “вектороность” и т.п. Si: Для того чтобы задать ЛЕ, надо ...

В прикладi (3) ПМО складають речення Si-1 - Si-4, а в прикладi (4) - Si-1 - Si-3. Таким чином, ПМО складає “параграф” документу, що видiляється формально, причому автосемантичне речення можна розглядати як свого роду “заголовок” цього параграфа. Для видiлення в текстах автосемантичних речень необхiдно формалiзувати розпiзнання синсемантичних речень, що експлiцитно залежать вiд контексту. Iншими словами, вирiшальне значення набувають пошук у текстi конекторiв i їх формальний аналiз. Цей аналiз можна порiвняти з синтаксичним аналiзом речення з використанням фулькрумiв [Гарвин, 1980].

3.4 Конектори та псевдоконектори

Як уже говорилось, конектори - це слова i словосполучення, що виконують функцiю iнструменту поверхньо-синтаксичного мiжфразового зв’язку. Можна припустити, що в будь-якiй мовi кiлькiсть конекторiв, як i кiлькiсть маркерiв внутрiшньофразового синтаксичного зв’язку, є iстотно меншою, нiж загальний лексичний фонд, тому конектори можна задати списком. Проте завдання значно ускладнюється тим, що наявнiсть у реченнi лексичної одиницi, формально спiвпадаючої з конектором, не гарантує синсемантичностi даного речення. Причина тут у тому, що потенцiйний конектор використовується не для зв’язку речень, а в якiйсь iншiй функцiї, тобто є псевдоконектором. Треба розрiзняти двi ситуацiї такого роду: а) Антецедент лексичної одиницi, спiвпадаючої з конектором, знаходиться в тому ж реченнi, тобто зона дiї конектора розповсюджується тiльки на те речення Si, в яке входить конектор. Наведемо приклади:

(5) Si: At this stage, the product is a powder, and the hydroxides are then filtered to produce mixed oxygen.

(6) Si: В случае непрямой диалоговой связи человек -машина пользователь обращается к программам обнаружения максимально совпадающих цепочек только при отсутствии термина в банке, однако использование этого принципа оправдывается лишь в некоторых областях. В прикладах (5, 6) слова and, then, “однако” та “этого” поєднують простi речення в межах складних i тому є псевдоконекторами.

б) Лексична одиниця є омонимiчною конектору. Тут можна провести аналогiю з ситуацiєю, коли ланцюжок лiтер у кiнцi слова омонiмичний закiнченню, наприклад, “бра”, “кофе”.

Приклади:
(7) Si: It is rather difficult to increase that rate significantly.

У прикладi (7) слово it є омонимiчним конектору. Пор.:

(8) Si-1: A properly working control system will deliver 457 milliliters per minute to reach the target pH. Si: As long as it delivers between 433 and 483 milliliters per minute ...

У прикладi (8) конектор it є маркером синтаксичного зв’язку речень Si и Si-1.

(9) Si: Связь не могла быть интерпретирована, так как в таблице отсутствовало сочетание РП23 с РПО141.

У прикладi (9) слово “так” є омонимiчним конектору. Пор.:

(10) Si-1: Элементы текста могут нести разную информацию при переводе. Si: Так, из сказуемого можно извлечь информацию о сопутствующих именных группах.

У прикладi (10) конектор “так” маркує синтаксичний зв’язок речень Si i Si-1. До ситуацiй другого типу вiдноситься вживання такого частотного маркеру категорiї визначеностi, як визначений артикль, для оформлення узагальненого чи єдиного об’єкту, а не для зв’язку речень через спiввiдношення об’єктiв [Блехман, 1985]:

(11) Si: The nucleus consists of protons and electrons.

У прикладi (11) артикль оформлює узагальнений об’єкт nucleus и тому не є конектором. Пор.:

12) Si-k : The detector consists of an orifice for measuring pressure ... Si: The pressure is proportional to the...

У реченнi Si прикладу (12) визначений артикль оформляє видiлений з класу об’єкт pressure, антецедент якого знаходиться в реченнi Si-k, тому даний артикль маркує синтаксичний зв’язок Si i Si-k. Процес розрiзнення конекторiв i псевдоконекторiв у кожнiй конкретнiй ситуацiї є обов’язковою умовою формалiзацiї поверхньо-синтаксичних зв’язкiв i розробки систем реферування. Для рiшення цього завдання була вжита спроба представити даний процес у виглядi невеликої кiлькостi стандартних операцiй. Перелiчимо цi операцiї. а) Визначення порядкового номеру потенцiйного конектора в реченнi та порiвняння його з деякою пороговою величиною. Ця операцiя використовується тому, що в мовi спостерiгається тенденцiя вживати конектори на початку речення або в позицiях, ненабагато вiддалених вiд першої. Так, дуже малою є ймовiрнiсть вживання конектора hence (“отже”) в позицiї, номер якої перевищує 7. У роботi [Берзон, 1972] наведенi пороговi позицiйнi характеристики росiйських конекторiв. Проте треба пiдкреслити, що позицiйний критерiй не може бути використаний на практицi в якостi єдиного критерiю вiдмiнностi конекторiв вiд псевдоконекторiв. Дiйсно, в реченнi

(13) Si: The usual method for such investigations is to hypothesize a particular mode of decay

артикль the знаходиться в першiй позицiї, але не є конекто-ром, тому що не оформлює об’єкт, що видiляється з класу “usual method for such investigations”. З цiєї причини виникає необхiднiсть використовувати також iншi операцiї аналiзу тексту, а саме: б) Пошук в оточеннi потенцiйного конектора дiагностичних лексичних одиниць. Ця операцiя є аналогiчною зняттю лексичної багатозначностi в системах машинного перекладу. Так, омонiмiя займенника such конектору може дiагностуватися наявнiстю на обмеженiй вiдстанi справа вiд нього слова as; займенника the same - слiв as або that тощо. Пор.:

(14) Si: The results were the same as in the previous experiments.

У прикладi (14) the same є псевдоконектором.

(15) Si-1: Reverse gel precipitation is a chemical process in which hydroxides of the required metals are precipitated by adding an alkali to an aqueous solution of the metal. Si: The same techique was employed to obtain...

У прикладi (15) the same є конектором.

в) Вияв у текстах конекторiв, котрi використовуються для формування одного з найбiльш розповсюджених рiзновидiв синтаксичного мiжфразового зв’язку - А-зв’язку [Блехман, 1985], - визначеного артикля i вказiвних займенникiв. Складнiсть цiєї операцiї викликана необхiднiстю виходу за межi речення, що мiстить потенцiйний конектор. Справдi, без притягнення екстралiнгвiстичної iнформацiї неможливо на внутрiшньофразовому рiвнi визначити, чи є конектором артикль у реченнi:

(16) The hydroxides are filtered to produce mixed oxides.

Iнакше кажучи, неясно, чи автор має на увазi деякi конкретнi гiдроксиди чи будь-якi гiдроксиди, тобто об’єкт є узагальненим - таким, що не видiляється з класу подiбних. З iншого боку, вихiд за межi цього речення дозволяє вiдповiсти на поставлене питання, не притягуючи, користуючись введеною в Главi 1 термiнологiєю, другий рiвень розумiння:

(17) Si-1: The result is hydroxides in the form of a fine slurry. Si: The hydroxides are filtered to produce mixed oxides.

У реченнi Si прикладу (17) визначений артикль є конектором, тому що оформлений їм об’єкт hydroxides видiляється з класу подiбних об’єктiв шляхом спiввiдношення з антецедентом, що знаходиться в реченнi Si-1.



Информация о работе «Автоматизація реферування»
Раздел: Бухгалтерский учет и аудит
Количество знаков с пробелами: 85002
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
41427
0
0

... і їх лише називають. У такий спосіб визначають різні рівні згортання інформації, унаслідок чого стає очевидно, за рахунок яких відомостей скорочено текст первинного документа. Другий етап процесу реферування складний і відповідальний, його виконання вимагає від референта високої кваліфікації, ерудиції, глибокого знання проблематики первинного документа. Щоб полегшити і формалізувати реферативний ...

Скачать
32112
0
0

... розділу книги, у другому - реферат складають лише з урахуванням якогось основного тематичного напряму відповідно до запитів користувачів (цільовий або аспектний реферат). Реферування звітної науково-технічної й дослідно-конструкторської документації. Звітна науково-технічна й дослідно-конструкторська документація містить відомості про найновіші дослідження, тому вона становить особливий інтерес ...

Скачать
57843
0
0

... (логічність подачі матеріалу, грамотність автора, правильне оформлення роботи, належне відповідність реферату всім стандартним вимогам). ВИСНОВКИ На основі викладеного приходимо до висновків: Аналітико-синтетичні засоби обробки інформації вирішують проблему неухильного зростання обсягу інформації. Перспективи розвитку інформаційних галузей науки дають змогу сподіватись, що у майбутньому ...

Скачать
40702
9
0

... що відносяться до підсерії. ISBN підсерії Номер випуску підсерії Зона приміток Примітки Зона Міжнародного стандарту номера книги (ISBN), ціни і тиражу ISBN Ціна Тираж   3. Бібліографічний опис – результат наукової обробки документів З появою великої кількості документних зібрань з’ясувалося, що неможливо швидко знайти потрібну інформацію шляхом перегляду всіх наявних документів. ...

0 комментариев


Наверх