文本生成模型与摘要写作的理论探讨_文本分析论文

文本生成模型与文摘编写的理论探讨，本文主要内容关键词为：文摘论文,模型论文,文本论文,理论论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

0 引言

文摘本身也是一种文本，它符合文本生成的一般或特殊条件。假定研究的目标（即形成一种文本的文摘）支配着文摘编写的全过程，那么，这种面向目标的观点与本领域中大多数面向来源文本的方法就形成了对比。

本文着重研究文本生成特别是文摘生成过程。将文本生成策略看成是文本结构的建立过程，运用文本语言学与计算语言学领域中的某些模拟方法，对文本生成策略进行重组。从某种意义上说，即是构造文本的明确表达，引出该模型的表示与最终文本之间的联系，从而系统地研究作者的写作活动。

“什么是文摘”不是本文研究的问题。因为制作文摘的情境有很大区别，但无论怎样，我们试图找出对大多数被称之为文摘的文本都适用的一般问题。让我们先从“情境”一词入手，它给我们提供了一个一般入口。“情境”作为文本性的一个原则，包括知识源、任务与参与者3个因素，这些因素对文本生成过程与最终产品都将产生影响。什么是文本产品？它包括以特定的方式互相联系的两种文本。二者最明显的区别在于篇幅，一种文本是长篇的（即最大文本），另一种是简短的（即最小文本）。如果我们要讨论最小文本的构成情境，我们至少要考虑到以下3种情况，而这3种情况又与共存、知识源和任务类似或不同。

第一种情况，最大文本可以得到，再对最小文本进行构造，即先有文献的情境和编写文摘的任务（先有最大文本）；第二种情况，两种文本在（几乎）同一时间由同一作者生成，这是论文包含文摘的情况（最大文本与最小文本共同存在）；第三种情况与第一种情况恰好相反，最小文本在没有最大文本的情况下先被编写出来，然后再生成最大文本，这一般是指论文通报的情况，如在会议上往往有这种情况出现（先有最小文本）。

从知识源的角度分析，最大文本在第一、二种情况下都代表最小文本的知识源。第三种情况则相反，最小文本为最大文本提供知识源，它是一种在未来文本中将要实现的雏型。

与以上3种情况类似甚至相同的是生产一个文本的任务。这看似简单，但对文摘的结构特点产生巨大影响，在下文中，我们将看到这些结构特点对文摘中信息组织的重要性。

可以假定，有关某一对象的信息都是在某一特定文本结构基础上构成的，构造的原则在文本生成中起到核心作用。为此，我们可以探讨文摘编写的某些现象是否可以根据文本生成的一般条件来加以研究。这一观点与G.Keseling的研究一致。他们证明，摘要或文摘的结构不仅对于信息片断的整序具有重要作用，而且对于最大文本的选择过程也有巨大影响[1]。总之，对目标文本的选择与组织控制着来源文本的处理。

1 文本生成模型

文本生成一般都需要对知识源进行选择与解释，无论它们是文本数据库、思想和论题集合或其它什么，这并不是专门针对文摘编写的，但不管怎样，我们都需要一种恰当的文本生成模型，该模型要顾及文本生成的特定情境。我们在这里所概括的模型是以某种方式描述文本生成过程的语言学框架，而这种方式代表了作者的写作活动，同时这些表现形式应当可以在某一计算机系统上实现，而该系统又支持作者的活动（通过模拟支持）。

文本结构的建立是指将文本看作一个完整实体，文本结构本身被看成是一种现象，这一现象一方面不同于知识结构，另一方面也区别于句子结构。可以假定，文本结构存在着非语言学影响，这些影响在于可以得到构造一种新的信息一致性的工具。这种模型是一种内容、功能与形式3层文本模型，它们在发生信息处理的文本空间内是紧密关联的，并按作者的活动结合与表达。

(1)内容层。文本的内容层提供信息单元的选择，这种选择包括主题性信息片断的选择和主题的展开。因为文摘的主题总是与某一文本（最大文本）紧密相关的，所以我们可以依据一些标准类别，如作者、预期读者、最大文本的论题及副论题、章节、意图、动机、目的、组织、编排、对读者的预期影响等，这些类别往往能为读者提供他们感兴趣的信息。根据不同的情况，也会有不同的选择和侧重，但一般的选择框架是非常标准化的。

(2)功能层。文本的功能层控制着把信息纳入内容，这可以是指某一特定的交流目的，反映在不同的文体中，如描述性、叙事性、论证性文体。它们都是信息表达的不同风格与方法，所以，某一事物或事件状态可以能通过与其细节、作用、地位等有关的事实来进行描述，或者被看作一个事件，而事件的一部分或事件序列按照报道（时间顺序）或叙事（冲突／解释）安排。一条信息也可以用论证的方法来表达，这种方法适用于当文章的核心问题涉及到与某一特定对象有关的假设的真实性或评价的合理性的时候。

(3)形式层。文本的形式层规定了不同种类的写作。该层要把一个文本看成是一种语言媒体，该媒体服从线性条件。而信息单元按某一顺序实现，这就意味着它们必须以特定的方式和特定的顺序互相联结起来。从语言学上说，写作的原则符合文本中的关联现象，同时，这些现象反映了该文本的一致性。

2 作者活动的表达

可以把文本结构的建立理解成作者的一种操作过程，那么，这里涉及一个十分有趣的问题。作者的活动是如何与文本空间以及上面所谈的3个层次相联系的呢？为此，在这一部分中将探讨一些动态问题，从这个角度来看，选择、展开以及主题单元的顺序连接都是人类有意识处理的对象，这一动态信息观点与实用观点是一致的。T.Wuiogad与F.Flores提到“社会认知”和面向语言的计算机系统时，对实用观点进行过论述[1]。

这一观点的理论基础是由言语行为理论[2]，尤其是面向过程的修饰所提供的。在这一观点中，将语言活动概括为受到它们影响的状态变化，这个概括对模拟文本生成是十分有用的，这是针对把构造信息的新的一致性看成（作者和读者的）信息状态的变化。

需要特别指出的是，从言语行为理论的意义上说，语言行动被确定为社会行为，也就是说，必须要得到言者或作者的许可。在文本生成的框架中，对应的想法涉及到这样一个事实，某一文本的信息总是作为信息存在，而信息被纳入某一交流状态。所以，它可能是描述、报道、叙事或论证中的某一个，不同的状态向作者提供不同的顺序。例如，在一篇报告中，作者会致力于所报道的真实情况和事件顺序。如果作者选择不同的顺序（不同的文本结构），那么，他就不得不引入特定的语言标志，否则，某一事实的描述就需要某些其它顺序，而不是作为证据，赞成或反对该作者主张，并对某一事实加以运用。根据作者的活动，对某一文本结构的建立进行解释，似乎是非常合理的。

让我们再回到文本生成模型的三个层次：内容方面（包装和结构化）、功能方面（表达风格）及形式方面（线性模型）。这3个层次的信息在文本空间内相互组合，文本空间为结构化排列提供框架。本文中，我们主要研究包括完整的结果文本在内的全程排列，另外还有一些局部排列，它决定文本中相邻段落之间的特定关系。可以假定，功能与形式因素共同提供内容片断的排列。

基本的全程排列被认为是链接，这意味着要素（如内容片断）导致顺序的线性化。我们假定其中存在某种顺序，那么，现在的问题是这个顺序是如何确定的。我们认为，表达风格的全程模型代表了最初结构，所以就出现了某些组合，如：[描述+链接]、[报道+链接]、[叙事+链接]、[论证+链接]。

下一步是指定两个配对活动，在把该模型运用于某些例子之前（见第四部分），我们先概括[描述+链接]的情况。

这个模型包括论题展开的不同模型，如整体—部分，部分—表列等。

整体—部分结构往往是针对描述最大文本论题（本文不详述各种模型），而且“整体”信息包包括最大文本的一般论题，而“部分”信息包则指不同的副论题，这些副论题对应于最大文本各个章节的内容。

“整体”与“部分”通过链接进行排列，可以有不同的方法，如首先是整体，然后是部分；先是整体的一个方面，然后罗列所有部分，最后是整体的另一方面；或者根本没有整体，而针对部分描述整体的各个方面。相应地，我们也将链接分为不同类型，至少有以下几种：线型、帧型、环型、头—身型。

线型产生于链接的原则基础上，也就是按其“自然顺序”，一部分紧接在前面部分的后面。例如，按事件的时间顺序或对象的时间规律，给定某一顺序（见例1）。也可以按帧型成链，文本的开头与结尾部分按相同类目描述，这一类目不同于中间部分的那些类目。当文本的开头与结尾连在一起时，就被当作环型，这可能发生在内容与功能层上，即当运用较为复杂的全程文本模型时，如论述文体（见例2），这样的模型指明文本的某种结束与分界。与此相反，也有带开放性的结尾的链，最重要的信息被安排在文本的开头（特别是第一句），后面的位置越来越弱，这一原则允许删除从文本结尾开始的部分，以便连续压缩或分别扩充文本。

在较为正式的表达中，可以把我们的例子[描述（整体—部分）+链接（环）]看成如下形式：

[描述（论题：整体—部分）+链接：（“环”：1／论题／整体，2／论题／部分2,…,n-1／论题／部分n-1，n／论题／整体）]

现在可以通过一个组合（如描述+链接）连同核心内容的结构（或用言语行为理论术语表示的写作内容）来确定作者的活动。有关内容的信息往往以写作（属性—论据结构）来表达，这种结构化位置（＝论据）是由词位或概念以及普通语义职能或特定域文本职能填充的[3]。帧的概念为内容结构位置的组织提供可能[4]，它为区别很大的知识源提供一种组织结构，而知识源对于文本内容是相关的。对于文摘编写过程，就某一文摘的期望而言，上文所提到的最大文本具有某种作用。下面列出文本（图书）域中的位置集合：

文本：总体

部分：第一部分（引言，第一部分，……）

第二部分（第二章，第二部分，……）

分体：索引（主题，作者，……）

参考文献

出版：时间

地点

语种

版本（精装、平装、磁盘）

文本类型：专著

论题层次：主论题

副论题(1,…,n)

领域：科学

文学

政治

作者：姓名

资格：专家

著名程度

读者：资格：专家

有无背景

动力：赤字

问题

意图：证明

检验

效果：信息

娱乐

此外，我们可以通过对实例的分析证明附加一些指明特定模型的语言特征（关联符号）。

3 实例

这里的实例都是给出科学文献某些信息的简短文本，第一个是一篇论文的文摘，另外两篇是文本较长的图书摘要[1]。

例1：论文摘要。

活动：[报道（部分）+链接（线型）]。①用历史术语进行障碍的简要概括，这个障碍妨碍传统语言展开文本生成模型。②然后，在语言学范围之外，对文本生成的现有研究组合进行调查。③接着，概括设计标准，这对于要设计的文本生成模型是重要的。④最后，利用佛罗里达大学最近的一项实验教学项目中有关英语写作内容组织的数据，对这类模型的理论与实际问题进行讨论与描述。

该例文本的语言链依据最大文本的线性结构，把①～④部分连接起来，①部分以最大文本开头开始，用“然后”把②部分与①部分连上，用“接着”把③部分与②部分连上，④部分通过“最后”指出最大文本和最小文本的结尾。这里有一条从开头到结尾展开的线（—，然后，接着，最后），这一展开是通过某一“想象的作者”的应用观点提供出来的，而这位作者生成了最大文本。这是表达文本文献、图书等的常用文体，即使没有明确提到原文作者（如使用被动语态），也还是适用的。在上例中，各部分的链接反映了按“自然顺序”发展一步步生成过程。如果把文本框架（第3部分）用于线性模型则得到下面的结果：

[报道（部分）+链接（线型）]。

副论题1：①／—；

副论题2：②／然后；

副论题3：③／接着；

副论题4：④／最后。

例2：图书摘要。

活动：[论述（部分）+链接（环型）]①这部著作的主题内容是词形变化结构；②一个并非十分“有价值”的主题；③该项研究持这种观点；④这种忽略各要素之间的关系是很不恰当的；⑤就词语结构而言；⑥因为，本文认为；⑦在词法理论中，只有那些才适合；⑧揭示基本原则……；⑨在这些原则中，词语结构的词形变化被放在中心位置。

这篇文本加入了书（或本书作者）的论述，并将它结合成以上表达，论述的思路如下：①部分对象有x（即论题“词形变化结构”）；②部分这个x是——通常——负值(-x)；③～⑤部分：本书的态度：无x是负值(-(-x))；⑥～⑨部分：有x是正值。

此例各部分之间的链接反映了论述的大纲，包括一个否定态度②部分和一个赞成态度③～⑤部分，未表达出来的结论则在⑥～⑨部分与①部分之间进行了推论：只有那些有x和对象有x的才是正值，于是得出对象是正值。因此最小文本的目的是以某种论述文本得出的评价，最重要的评价（结论）是把这篇文本的结尾与开头连接起来，所以我们把这种形式称之为环。这个例子中的关联符号对应于如下链：x、并非、这种忽略（否定关联）、因为、只有包含x的那些。包括文本框架与线性模型的文本分析，得到如下模型：

[论述（部分）+链接（环型）]。

主论题：①／—；

主论题：②／并非（评价（－））；

文本—总体：③／—；

评价：④／这种忽略（评价（－（－）））；

副论题：⑤／—；

文本—总体：⑥／因为；

副论题：⑦／只有那些；

副论题：⑧／—；

主论题：⑨／这些原则。

例3：图书摘要。

活动：[描述（整体／细节）+链接（头—身）]。①话语标识——虚词：啊、好、现在、那么、你知道和我是说；连词：因此、因为、和、但是、或，它们在谈话中都起重要作用。②并且要求该项研究提供严密分析。③Schiffrin博士的研究方法介于语言学与社会学之间的交叉学科。④而且，她清楚地论述了标识或者它们在其中起作用的词语都不能仅从一种观点去理解，而是作为结构的、语义的、实用的与社会的因素的统一体。⑤本书的核心是对schiffrin博士搜集的自然数据进行分析，从而与举例中的个别标识的作用进行比较。⑥本文提出了范围广泛的理论问题。⑦同时，它所提供的见解对于面临非常实际问题的读者将别有价值，而这些问题是从探讨合适的话语模型中提出来的。

以上文本的链接原则是增加用“而且”这个词，在语言学上表达（往往不清楚）。①～④部分，提出该书的论题并将其纳入科学背景，这个信息被认为是最重要的；在⑤～⑦部分给出了更多细节；第⑤部分通过作为这一过渡的那个“核心”，指明开始进入细节。如果不破坏图书摘要其余的内容，可以依次删除第⑦、⑥、⑤部分，①～②部分代表“头部”，它是文本的第一部分，并为后继部分做铺垫，后继部分即③～⑦的“身体”部分，在结构上不定界。

该例的文本结构反映了如下模型：

[描述（整体／细节）+链接（头—身）]。

主论题：①／—；

主论题：②／而且；

主论题：③／—；

主论题：④／而且；

论题细节：⑤／核心；

论题细节：⑥／—；

论题细节：⑦／而且。

4 结论

文本生成模型被认为是一种研究作者文本生成策略的工具。在这种框架结构中，文摘编写是作者一般活动的一个子类，可以用文本活动来描述。研究表明，诸如结构性内容方面以及线性模型与语言关联符号之间关系共同构成一种系统。这个系统可以作为指导文本生成的表达系统，对这些关系的明确表达有利于构建计算机模型，这一模型可用于研究和支持人工文本生成。

标签：文本分析论文; 部分与整体论文;

文本生成模型与摘要写作的理论探讨_文本分析论文

猜你喜欢