Manual de referencia de PC-PATR 04/09/2022 17:48 Manual de referencia de PC-PATR un analizador sintáctico basado en la unificación versión 1.4.0 Noviembre de 2006 por Stephen McConnel (cambios para v. 1.2.5-1.4.0 por H. Andrew Black) Tabla de contenidos 1 Introducción al programa PC-PATR 2 El formalismo PATR-II 2.1 Reglas de estructura de frases 2.2 Estructuras de características 2.3 Unificación 2.4 Restricciones de características 2.5 El léxico 3 PC-PATR en ejecución 3.1 Opciones de línea de comandos de PC-PATR 3.2 Comandos interactivos 3.2.1 cd 3.2.2 claro 3.2.3 cerrar 3.2.4 directorio 3.2.5 editar 3.2.6 salida 3.2.7 archivo 3.2.7.1 desambiguación del archivo 3.2.7.2 análisis de archivos 3.2.8 ayuda 3.2.9 carga 3.2.9.1 amplio control de carga 3.2.9.2 cargar un diccionario amplio 3.2.9.3 carga amplio control de texto 3.2.9.4 análisis de carga 3.2.9.5 gramática de carga 3.2.9.6 carga de gramática kimmo 3.2.9.7 léxico kimmo de carga 3.2.9.8 reglas de kimmo de carga 3.2.9.9 léxico de carga 3.2.10 registro 3.2.11 análisis 3.2.12 salir 3.2.13 guardar 3.2.13.1 guardar léxico 3.2.13.2 Guardar estado 3.2.14 conjunto 3.2.14.1 ambigüedades del conjunto 3.2.14.2 conjunto de diccionario amplio 3.2.14.3 ciclos de comprobación del conjunto Comentario del conjunto 3.2.14.4 3.2.14.5 errores de configuración 3.2.14.6 características del conjunto 3.2.14.7 establecer la puntuación final 3.2.14.8 brillo del conjunto 3.2.14.9 conjunto de ciclos de comprobación de kimmo 3.2.14.10 establecer kimmo promover los predeterminados 3.2.14.11 conjunto de filtro de arriba hacia abajo kimmo 3.2.14.12 límite establecido 3.2.14.13 categoría de marcador de conjunto 3.2.14.14 características del marcador de ajuste 3.2.14.15 brillo del marcador de conjunto 3.2.14.16 establecido el registro del marcador 3.2.14.17 establecer brillo de raíz de marcador 3.2.14.18 establecer la palabra marcadora 3.2.14.19 establecer incumplimientos de la promoción 3.2.14.20 establecer propiedad-es-función 3.2.14.21 conjunto de solo reconocimiento 3.2.14.22 conjunto de brillo de raíz 3.2.14.23 tiempo establecido 3.2.14.24 establecer el filtro de arriba hacia abajo 3.2.14.25 árbol de conjunto 3.2.14.26 establece características vacías de recorte https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 1 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 3.2.14.27 unificación del conjunto 3.2.14.28 establecer verboso 3.2.14.29 establecer advertencias 3.2.14.30 conjunto de análisis de escritura-ample-parse 3.2.15 mostrar 3.2.15.1 mostrar léxico 3.2.15.2 mostrar estado 3.2.16 estado 3.2.17 sistema 3.2.18 tomar 4 El archivo de gramática PC-PATR 4.1 Reglas 4.1.1 Operaciones sindicales prioritarias 4.1.2 Operaciones de restricción lógica 4.2 Plantillas de funciones 4.3 Ajustes de parámetros 4.4 Reglas léxicos 4.5 Plantillas de restricciones 5 Formato estándar 6 El archivo Léxico PC-PATR 7 El archivo de análisis AMPLE 7.1 Campos de archivo de análisis AMPLE 7.1.1 Análisis: \a 7.1.2 Descomposición (formas superficiales): \d 7.1.3 Categoría (posible palabra o morfema): \cat 7.1.4 Propiedades: \p 7.1.5 Descriptores de características: \fd 7.1.6 Formas subyacentes (descomposición): \u 7.1.7 Word (antes de la descapitalización y los cambios de ortografía): \w 7.1.8 Formato (basura antes de la palabra): \f 7.1.9 Indicador de mayúsculas: \c 7.1.10 No alfabético (basura después de la palabra): \n 7.2 Análisis ambiguos 7.3 Fallos de análisis 8 Uso de los analizadores morfológicos integrados 8.1 PC-Kimmo 8.2 AMPLITUD 9 Índice 1 Introducción al programa PC-PATR Este documento describe PC-PATR, una implementación del formalismo lingüístico computacional PATR-II (además de algunas mejoras) para ordenadores personales. Está disponible para MS-DOS, Microsoft Windows, Macintosh y Unix.( 1) PC-PATR utiliza un analizador de gráficos en la esquina izquierda con estas características: análisis de abajo hacia arriba con filtrado de arriba hacia abajo basado en las categorías orden de izquierda a derecha: después de que cada palabra se agregue al gráfico, todos los bordes posibles que se pueden derivar de ese punto se calculan como un efecto secundario PC-PATR todavía está en desarrollo. El autor agradecería los comentarios dirigidos a la siguiente dirección: Stephen McConnel (972)708-7361 (oficina) Desarrollo de software de lenguaje (972)708-7561 (fax) SIL Internacional 7500 W. Camp Wisdom Road Dallas, 2 El formalismo PATR-II El formalismo PATR-II puede verse como un lenguaje informático para codificar información lingüística. No presupone ninguna teoría particular de la sintaxis. Fue desarrollado originalmente por Stuart M. Shieber en la Universidad de Stanford a principios de la década de 1980 (Shieber 1984, Shieber 1986). Una gramática PATR-II consiste en un conjunto de reglas y un léxico. Cada regla consiste en una regla de estructura de frases sin contexto y un conjunto de restricciones de características, es decir, unificaciones en las estructuras de características asociadas con los componentes de las reglas de estructura de frases. El léxico proporciona los elementos que pueden reemplazar los símbolos terminales de las reglas de estructura de la frase, es decir, las palabras del idioma junto con sus características relevantes. Reglas de la estructura de la frase Estructuras de características unificación Restricciones de características El léxico 2.1 Reglas de estructura de frases Las reglas de estructura de frases sin contexto deben ser familiares para cualquier persona que haya estudiado teoría lingüística o informática. Se ven así: LHS -> RHS_1 RHS_2 ... `LHS'(el símbolo a la izquierda de la flecha) es un símbolo no terminal para el tipo de frase que se está describiendo. A la derecha de la flecha hay una lista ordenada de los componentes de la frase. Estos componentes son símbolos no terminales, que aparecen en el lado izquierdo de alguna regla de la gramática, o símbolos terminales, que representan clases básicas de elementos del léxico. Estas clases básicas suelen corresponder a lo que comúnmente se llama partes del habla. En PATR-II, los símbolos https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 2 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 terminal y no terminal se denominan categorías. Figura 1. Gramática de estructura de frases sin contextoRegla S -> NP VP (SubCl) Regla NP -> {(Det) (AdjP) N (PrepP)} / PR Regla Det -> DT / PR Considere la gramática de la estructura de frases sin contexto al estilo PC-PATR en la figura 1. Tiene diez símbolos no terminales (S, NP, Det, VP, VerbalP, AuxP, PrepP, AdjP, AdvP y SubCl) y nueve símbolos terminales (N, PR, DT, V, AUX, PP, AV, AJ y CJ). Esta gramática describe un pequeño subconjunto de oraciones en inglés. Vale la pena mencionar varios aspectos de esta gramática. 1. 2. 3. 4. Los componentes opcionales (o conjuntos de constituyentes) en el lado derecho están entre paréntesis. Los componentes alternativos (o conjuntos de componentes) en el lado derecho están separados por barras. Los corsés se utilizan para agrupar conjuntos alternativos de elementos, de modo que las alternancias no sean ambiguas. Los símbolos no deben repetirse literalmente dentro de una regla. Los símbolos repetidos deben distinguirse entre sí añadiendo un número de índice diferente a un símbolo cada vez que se repita. Los números de índice se introducen con el carácter de guión bajo (_). Figura 2. Análisis de la frase de ejemplo en inglés segundo Figura 3. Análisis de la oración de muestra (salida de PC-PATR) segundo /\ / \ __________|__________ VP de NP ___|_____ Se puede hacer una cantidad significativa de desarrollo gramatical solo con reglas de estructura de frases sin contexto como estas. Por ejemplo, analizar la frase "el hombre nos ve con un telescopio" con esta gramática simple produce un árbol de análisis como el que se muestra en la figura 2. (Con el fin de minimizar la altura de los árboles de análisis sin necesidad de usar una interfaz gráfica, PC-PATR en realidad dibuja árboles de análisis como el que se muestra en la figura 3.) Analizar la frase similar "vemos al hombre con un telescopio" produce dos análisis diferentes como se muestra en la figura 4, mostrando correctamente la ambigüedad entre si usamos un telescopio para ver al hombre, o si el hombre tenía un telescopio cuando lo vimos. Figura 4. Análisis de una frase ambigua en inglés S_1 __________|__________ NP_2+ VP_4 | _____________|_____________ PR_3+ V Un problema fundamental con las gramáticas de estructura de frases sin contexto es que tienden a sobregenerar. Por ejemplo, la gramática de muestra reconocería incorrectamente la frase "* ve al hombre con un telescopio", asignándole estructuras de árbol similares a las que se muestran en la figura 4. Con solo las categorías simples utilizadas por las reglas de estructura de frases sin contexto, se requiere un gran número de reglas para manejar con precisión incluso un pequeño subconjunto de la gramática de un idioma. Esta es la motivación principal detrás de las estructuras de características, la mejora básica de PATR-II sobre las gramáticas de la estructura de frases sin contexto.( 2) 2.2 Estructuras de características La estructura de datos básica del formalismo PATR-II se llama estructura característica. Una estructura de características contiene una o más características. Una característica consiste en un nombre de atributo y un valor. Las estructuras de características se escriben comúnmente como matrices de atributos-valor como esta (ejemplo 1): (1) [ lex: telescopio gato: N ] donde lex y cat son nombres de atributos, y telescopio y N son los valores de esos atributos. Tenga en cuenta que la estructura de características está entre paréntesis. Cada característica se produce en una línea separada, con el nombre primero, seguido de un punto y luego su valor. Los nombres de las características y los valores (simples) son palabras individuales que consisten en caracteres alfanuméricos. Las estructuras de características pueden tener valores simples, como el ejemplo anterior, o valores complejos, como este (ejemplo 2): (2) [ lex: telescopio gato: N brillo: `telescopio cabeza: [ agr: [ 3sg: + ] donde el valor de la característica principal es otra estructura de características, que también contiene una estructura de características incrustada. Las estructuras de características se pueden anidar arbitrariamente de esta manera. Se puede hacer referencia a partes de una estructura de características utilizando la notación de ruta. Una ruta es una secuencia de uno o más nombres de entidades encerrados entre corchetes en ángulo (<>). Por ejemplo, los ejemplos 3-5 serían rutas de características válidas basadas en la estructura de características del ejemplo 2: (3) <head> (4) <número de cabeza> (5) <head agr 3sg> Las rutas se utilizan en las plantillas de características y las restricciones de características, que se describen a continuación. Different features within a feature structure can share values. This is not the same thing as two features having identical values. In Example 6 below, the <head agr> and <subj head agr> features have identical values, but in Example 7, they share the same value: (6) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: [ 3sg: + ] (7) [ gato: S pred: [ gato: vicepresidente cabeza: [ agr: $1[ 3sg: + ] Los valores compartidos se indican con los marcadores de coindexación de $1, $2, etc. Tenga en cuenta que las letras mayúsculas y minúsculas utilizadas en los nombres y valores de las entidades son distintivas. Por ejemplo, NUMBER no es lo mismo que Number o number. (Esto también es cierto para los símbolos utilizados en las reglas de estructura de frases sin contexto). 2.3 Unificación La unificación es la operación básica aplicada a las estructuras de características en PC-PATR. Consiste en la fusión de la información de dos estructuras de características. Dos estructuras de características pueden unificar si sus características comunes tienen los mismos valores, pero no se unifican si algún valor de característica entra en conflicto. Considere las siguientes estructuras de características: (8) [ acuerdo: [ número: singular persona: primero ] ] (9) [ acuerdo: [ número: singular ] La función 9 se puede unificar con la función 8 (función de producción 11) o la función 10 (función de producción 12). Sin embargo, la función 8 no puede unificarse con https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 3 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 la función 10 debido al conflicto en los valores de sus características <agreement person>. 2.4 Restricciones de características Las restricciones de características asociadas con las reglas de estructura de frases en PATR-II consisten en un conjunto de expresiones de unificación (las restricciones de unificación). Cada expresión de unificación tiene tres partes, en este orden: 1. una ruta de función, cuyo primer elemento es uno de los símbolos de la regla de la estructura de la frase 2. un signo igual (=) 3. ya sea un valor simple u otra ruta de función que también comience con un símbolo de la regla de estructura de la frase Por ejemplo, considere las siguientes reglas de PC-PATR: (13) Regla S -> NP VP (SubCl) <NP head agr> = <VP head agr> <estuche de cabezaNP> = NOM <S subj> = <NP> Rule 13 has two feature constraints that limit the co-occurrence of NP and VP, and two feature constraints that build the feature structures for S. This highlights the dual purpose of feature constraints in PC-PATR: limiting the co-occurrence of phrase structure elements and constructing the feature structure for the element defined by a rule. The first constraint states that the NP and VP <head agr> features must unify successfully, and also modifies both of those features if they do unify. The second constraint states that NP's <head case> feature must either be equal to NOM or else be undefined. In the latter case, it is set equal to NOM. The last two constraints create a new feature structure for S from the feature structures for NP and VP. La regla 14 ilustra otro punto importante sobre las restricciones de unificación de características: se aplican solo si implican los componentes de la estructura de la frase que realmente se encuentran para la regla. Figura 5. Gramática PC-PATR del subconjunto inglésRegla S -> NP VP (SubCl) <NP head agr> = <VP head agr> <estuche de cabeza Figura 6. Salida PC-PATR con estructura de características1: segundo VP de NP ___|_____ __________|__________ Figure 5 shows the grammar of figure 1 augmented with a number of feature constraints. With this grammar (and a suitable lexicon), the parse output shown in figure 2 would include the sentence feature structure, as shown in figure 6. Note that the <subj head agr> and <pred head agr> features share a common value as a result of the feature constraint unifications associated with the rule S -> NP VP (SubCl). PC-PATR permite restricciones de unificación de características disyuntivas con sus reglas de estructura de frases. Considere las reglas 15 y 16 a continuación. Estas dos reglas tienen la misma parte de la regla de estructura de la frase. Por lo tanto, pueden convertirse en la única regla 17, que tiene una disyunción en sus restricciones de unificación. (15) Regla CP -> NP C' ; para preguntas con NP frontal <NP tipo wh> = + <C' movió A-bar> = <NP> PC-PATR no solo permite restricciones de unificación disyuntiva, sino que también permite reglas de estructura de frases disyuntivas. Considere la regla 18: es muy similar a la regla 17. Estas dos reglas se pueden combinar aún más para formar la regla 19, que tiene desvinciones tanto en su regla de estructura de frases como en sus restricciones de unificación. (18) Regla CP -> PP C' ; para preguntas con PP frontal <PP tipo wh> = + <C' movido A-bar> = <PP> Dado que el corsé abierto ({) introduce disyunciones tanto en la regla de la estructura de la frase como en las restricciones de unificación, se debe tener cuidado de evitar confundir a PC-PATR cuando se está cargando el archivo gramatical. El final de la regla de la estructura de la frase, y el comienzo de las restricciones de unificación, se indica mediante la primera restricción que comienza con un corchete de ángulo abierto (<) o con dos puntos (:). Si la primera restricción es parte de una disyunción, entonces la regla de la estructura de la frase debe terminar con dos puntos. De lo contrario, PC-PATR tratará la restricción de unificación como parte de la regla de la estructura de la frase y en breve se quejará de los errores de sintaxis en el archivo gramatical. Tal vez debería tenerse en cuenta que las disyunciones en las reglas de estructura de frases o las unificaciones se amplían cuando se lee el archivo gramatical. Solo sirven como una conveniencia para la persona que escribe las reglas. 2.5 El léxico El léxico proporciona los elementos básicos (átomos) de la gramática, que suelen ser palabras. Se proporciona información como la que se muestra en la función 2 para cada entrada del léxico. A diferencia de la implementación original de PATR-II, PC-PATR almacena el léxico en un archivo separado de las reglas gramaticales. Consulte la sección 6 El archivo de léxico PC-PATR, a continuación para obtener más detalles. 3 PC-PATR en ejecución PC-PATR es un programa interactivo. Tiene algunas opciones de línea de comandos, pero se controla principalmente mediante comandos escritos en el teclado (o cargados desde un archivo previamente preparado). Opciones de línea de comandos Comandos interactivos 3.1 Opciones de línea de comandos de PC-PATR El programa PC-PATR utiliza una interfaz de línea de comandos anticuada siguiendo la convención de opciones que comienzan con un carácter de guión (``-'). Las opciones disponibles se enumeran a continuación en orden alfabético. Las opciones que requieren un argumento tienen el tipo de argumento que sigue a la letra de opción. -a filename carga el léxico desde un archivo de salida de análisis AMPLE. -g filename carga la gramática de un archivo gramatical PC-PATR. -l filename carga el léxico de un archivo de léxico PC-PATR. -t filename https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 4 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 abre un archivo que contiene uno o más comandos PC-PATR. Consulte la sección 3.2 Comandos interactivos. Las siguientes opciones solo existen en las versiones de prueba beta del programa, ya que se utilizan solo para la depuración. -/ incrementa el nivel de depuración. El valor predeterminado es cero (sin salida de depuración). -z filename abre un archivo para registrar un registro de asignación de memoria. -Z address,count traps the program at the point where address is allocated or freed for the count'th time. 3.2 Comandos interactivos A continuación se describe cada uno de los comandos disponibles en PC-PATR. Cada comando consta de una o más palabras clave seguidas de cero o más argumentos. Las palabras clave se pueden abreviar a la longitud mínima necesaria para evitar ambigüedades. candela borrar CERRAR Directorio editar salida Archivo ayuda carga registro analizar dejar de fumar guardar Conjunto Mostrar Estado Sistema toma 3.2.1 cd cd directorycambia el directorio actual al especificado. No se permiten espacios en la ruta de acceso del directorio. For MS-DOS or Windows, you can give a full path starting with the disk letter and a colon (for example, a:); a path starting with \ which indicates a directory at the top level of the current disk; a path starting with .. which indicates the directory above the current one; and so on. Directories are separated by the \ character. (The forward slash / works just as well as the backslash \ for MS-DOS or Windows.) For the Macintosh, you can give a full path starting with the name of a hard disk, a path starting with : which means the current folder, or one starting :: which means the folder containing the current one (and so on). For Unix, you can give a full path starting with a / (for example, /usr/pcpatr); a path starting with .. which indicates the directory above the current one; and so on. Directories are separated by the / character. 3.2.2 claro clear erases all existing grammar and lexicon information, allowing the user to prepare to load information for a new language. Strictly speaking, it is not needed load grammar command erases the previously existing grammar, and the load lexicon and load analysis commands erase any previously existing lexicon. since the 3.2.3 cerrar close closes the current log file opened by a previous log command. 3.2.4 directorio directoryenumera el contenido del directorio actual. Este comando solo está disponible para las implementaciones de MS-DOS y Unix. No existe para Microsoft Windows ni para Macintosh. 3.2.5 editar filename attempts to edit the specified file using the program indicated by the environment variable EDITOR. If this environment variable is not defined, then edlin is used to edit the file on MS-DOS, and vi is used to edit the file on Unix. (These defaults should convince you to set this variable!) This command is not available for Microsoft Windows or the Macintosh. edit 3.2.6 salida exitdetiene PC-PATR, devolviendo el control al sistema operativo. Esto es lo mismo que quit. 3.2.7 archivo The file commands process data from a file, optionally writing the parse results to another file. Each of these commands is described below. desambiguación del archivo análisis de archivos https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 5 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 3.2.7.1 desambiguación del archivo input.ana [out.ana]lee oraciones del archivo de análisis AMPLE especificado y escribe los árboles de análisis y las estructuras de características correspondientes, ya sea en la pantalla o en el archivo de salida especificado opcionalmente. Si se escribe el archivo de salida, los análisis de palabras ambiguos se eliminan tanto como sea posible como resultado del análisis de la oración. Cuando haya terminado, se muestra en la pantalla un informe estadístico de análisis exitosos (sentencia). file disambiguate 3.2.7.2 análisis de archivos input-file [output-file]lee oraciones del archivo de entrada especificado, una por línea, y escribe los árboles de análisis y las estructuras de características correspondientes en la pantalla o en el archivo de salida especificado opcionalmente. El carácter de comentario está en vigor mientras se lee este archivo. Actualmente, PCPATR no intenta manejar mayúsculas ni puntuación. PROBABLEMENTE SE AÑADIRÁ ALGUNA CAPACIDAD PARA MANEJAR LA PUNTUACIÓN EN ALGÚN MOMENTO. file parse This command behaves the same as parse except that input comes from a file rather than the keyboard, and output may go to a file rather than the screen. When finished, a statistical report of successful parses is displayed on the screen. 3.2.8 ayuda help command displays a description of the specified command. If help is typed by itself, PC-PATR displays a list of commands with short descriptions of each command. 3.2.9 carga The load commands all load information stored in specially formatted files. The load ample and load kimmo commands activate morphological parsers, and serve as alternatives to load lexicon (or load analysis) for obtaining the category and other feature information for words. Each of the load commands is described below. amplio control de carga cargar un diccionario amplio cargar un amplio control de texto análisis de carga cargar gramática cargar la gramática kimmo léxico de carga kimmo reglas de carga de kimmo léxico de carga 3.2.9.1 amplio control de carga xxad01.ctl xxancd.tab [xxordc.tab]borra cualquier información de AMPLE existente (incluidos los diccionarios) y lee la información de control de los archivos especificados. Esto también borra cualquier información almacenada de PC-Kimmo. load ample control At least two and possibly three files are loaded by this command. The first file is the AMPLE analysis data file. It has a default filetype extension of .ctl but no default filename. The second file is the AMPLE dictionary code table file. It has a default filetype extension of .tab but no default filename. The third file is an optional dictionary orthography change table. It has a default filetype extension of .tab and no default filename. l am ces sinónimo de load ample control. 3.2.9.2 cargar un diccionario amplio [prefix.dic] [infix.dic] [suffix.dic] root1.dic [...]Oregón file01.dic [file02.dic ...]borra cualquier información existente del diccionario AMPLE y lee los archivos especificados. Esto también borra cualquier información almacenada de PC-Kimmo. load ample dictionary load ample dictionary La primera forma del comando es para usar un diccionario cuyos archivos se dividen de acuerdo con el tipo de morfema (set ample-dictionary split). Los diferentes tipos de archivos de diccionario deben cargarse en el orden que se muestra, omiten los diccionarios de archivos afijos que no sean necesarios. La segunda forma del comando es para usar un diccionario cuyas entradas contengan el tipo de morfema (set ample-dictionary unified).( 3) l am des un sinónimo de load ample dictionary. 3.2.9.3 carga amplio control de texto xxintx.ctlborra cualquier información de control de entrada de texto AMPLE existente y lee el archivo especificado. Esto también borra cualquier información almacenada de PC-Kimmo. load ample text-control El archivo de control de entrada de texto tiene una extensión de tipo de archivo predeterminada de .ctl, pero no un nombre de archivo predeterminado. l am tes sinónimo de load ample text-control. 3.2.9.4 análisis de carga file1.ana [file2.ana ...] erases any existing lexicon and reads a new lexicon from the specified AMPLE analysis file(s). Note that more than one file may be loaded with the single load analysis command: duplicate entries are not stored in the lexicon. load analysis The default filetype extension for load analysis is .ana, and the default filename is ample.ana. l a is a synonym for load analysis. 3.2.9.5 gramática de carga https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 6 sur 21 Manual de referencia de PC-PATR load grammar 04/09/2022 17:48 file.grmborra cualquier gramática existente y lee una nueva gramática del archivo especificado. The default filetype extension for load grammar is .grm, and the default filename is grammar.grm. l g is a synonym for load grammar. 3.2.9.6 carga de gramática kimmo load kimmo grammar file.grmborra cualquier gramática de PC-Kimmo (palabra) existente y lee una nueva gramática de palabras del archivo especificado. The default filetype extension for load kimmo grammar is .grm, and the default filename is grammar.grm. l k g is a synonym for load kimmo grammar. 3.2.9.7 léxico kimmo de carga file.lexborra cualquier información de léxico PC-Kimmo existente y lee un nuevo léxico de morfema del archivo especificado. Se debe cargar un archivo de reglas de PC-Kimmo antes de que se pueda cargar un archivo de léxico de PC-Kimmo. load kimmo lexicon The default filetype extension for load kimmo lexicon is .lex, and the default filename is lexicon.lex. l k les sinónimo de load kimmo lexicon. 3.2.9.8 reglas de kimmo de carga file.rulborra cualquier regla de PC-Kimmo existente y lee un nuevo conjunto de reglas del archivo especificado. Esto también borra cualquier información AMPLE almacenada. load kimmo rules The default filetype extension for load kimmo rules is .rul, and the default filename is rules.rul. l k r is a synonym for load kimmo rules. 3.2.9.9 léxico de carga file1.lex [file2.lex ...]borra cualquier léxico existente y lee un nuevo léxico de los archivos especificados. Tenga en cuenta que se puede cargar más de un archivo con un solo comando load lexicon. load lexicon The default filetype extension for load lexicon is .lex, and the default filename is lexicon.lex. l les sinónimo de load lexicon. 3.2.10 registro log [file.log] opens a log file. Each item processed by a parse command is stored to the log file as well as being displayed on the screen. If a filename is given on the same line as the log command, then that file is used for the log file. Any previously existing file with the same name will be overwritten. If no filename is provided, then the file pcpatr.log in the current directory is used for the log file. Use close to stop recording in a log file. If a log command is given when a log file is already open, then the earlier log file is closed before the new log file is opened. 3.2.11 análisis [sentence or phrase] attempts to parse the input sentence according to the loaded grammar. If a sentence is typed on the same line as the command, then that sentence is parsed. If the parse command is given by itself, then the user is prompted repeatedly for sentences to parse. This cycle of typing and parsing is terminated by typing an empty "sentence" (that is, nothing but the Enter or Return key). parse Tanto la gramática como el léxico deben cargarse antes de usar este comando. 3.2.12 salir quitdetiene PC-PATR, devolviendo el control al sistema operativo. Esto es lo mismo que exit. 3.2.13 guardar The save commands write information stored in memory to a file suitable for reloading into PC-PATR later. Each of these commands is described below. guardar léxico guardar estado 3.2.13.1 guardar léxico [file.lex]escribe el contenido del léxico actual en el archivo designado. Se debe especificar el archivo léxico de salida. Esto puede ser útil si está utilizando un analizador morfológico para rellenar el léxico. save lexicon 3.2.13.2 Guardar estado save status [file.tak] writes the current pcpatr.tak in the current directory. settings to the designated file in the form of PC-PATR commands. If the file is not specified, the settings are written to https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 7 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 3.2.14 conjunto The set commands control program behavior by setting internal program variables. Each of these commands (and variables) is described below. establecer ambigüedades establecer un diccionario amplio establecer ciclos de control establecer comentario establecer fallos establecer características establecer la puntuación final brillo de conjunto conjunto de ciclos de comprobación de kimmo establecer kimmo promote-defaults conjunto de filtro de arriba hacia abajo de kimmo establecer el límite establecer la categoría del marcador establecer características del marcador brillo del marcador de ajuste establecer un récord de marcador establecer brillo de raíz de marcador establecer la palabra marcadora establecer los predeterminados de promoción establecer propiedad-es-función establecer solo reconocimiento establecer brillo de raíz establecer el tiempo establecer el filtro de arriba hacia abajo establecer el árbol establecer características vacías de trim-vacío establecer la unificación establecer verboso establecer advertencias establecer análisis de escritura-ample-parse 3.2.14.1 ambigüedades del conjunto numberlimita el número de análisis impresos al número dado. El valor predeterminado es 10. Tenga en cuenta que esto no limita el número de análisis producidos, solo el número impreso. set ambiguities 3.2.14.2 conjunto de diccionario amplio value determines whether or not the AMPLE dictionary files are divided according to morpheme type. set ample-dictionary split declares that the AMPLE dictionary is divided into a prefix dictionary file, an infix dictionary file, a suffix dictionary file, and one or more root dictionary files. The existence of the three affix dictionary depends on settings in the AMPLE analysis data file. If they exist, the load ample dictionary command requires that they be given in this relative order: prefix, infix, suffix, root(s). set ample-dictionary declares that any of the AMPLE dictionary files may contain any type of morpheme. This implies that each dictionary entry may contain a field specifying the type of morpheme (the default is root), and that the dictionary code table contains a \unified field. One of the changes listed under \unified must convert a backslash code to T. set ample-dictionary unified El valor predeterminado es dividir el diccionario AMPLE.( 4) 3.2.14.3 ciclos de comprobación del conjunto value enables or disables a check to prevent cycles in the parse chart. set check-cycles on turns on this check, and set check-cycles off turns it off. This check slows down the parsing of a sentence, but it makes the parser less vulnerable to hanging on perverse grammars. The default setting is on. set check-cycles Comentario del conjunto 3.2.14.4 character sets the comment character to the indicated value. If character is missing (or equal to the current comment character), then comment handling is disabled. The default comment character is ; (semicolon). set comment 3.2.14.5 errores de configuración value enables or disables grammar failure mode. set failures on turns on grammar failure mode, and set failures off turns it off. When grammar failure mode is on, the partial results of forms that fail the grammar module are displayed. A form may fail the grammar either by failing the feature constraints or by failing the constituent structure rules. In the latter case, a partial tree (bush) will be returned. The default setting is off. set failures Be careful with this option. Setting failures to on can cause the PC-PATR to go into an infinite loop for certain recursive grammars and certain input sentences. WE MAY TRY TO DO SOMETHING TO DETECT THIS TYPE OF BEHAVIOR, AT LEAST PARTIALLY. 3.2.14.6 características del conjunto set features valuedetermina cómo se mostrarán las funciones. set features allpermite la visualización de las características de todos los nodos del árbol de análisis. set features toppermite la visualización de la estructura de características solo para el nodo superior del árbol de análisis. Esta es la configuración predeterminada. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 8 sur 21 Manual de referencia de PC-PATR set features flathace 04/09/2022 17:48 que las funciones se muestren en una cadena plana y lineal que consume menos espacio en la pantalla. set features fullhace que las características se muestren en una forma de sangría que deja clara la estructura incrustada del conjunto de características. Esta es la configuración predeterminada. set features onactiva el modo de visualización de funciones, lo que permite mostrar las funciones. Esta es la configuración predeterminada. set features offdesactiva el modo de visualización de funciones, evitando que se muestren las funciones. 3.2.14.7 establecer la puntuación final valuedefine el conjunto de caracteres utilizados para marcar los extremos de las oraciones. Los caracteres individuales deben estar separados por espacios para que se puedan usar dígrafos y trígrafos, no solo unidades de un solo carácter. El valor predeterminado es . ! ? : ;. set final-punctuation Esta configuración de variable solo afecta al comando file disambiguate. 3.2.14.8 brillo del conjunto set gloss value enables the display of glosses in the parse tree output if value is on, and disables the display of glosses if value is off. file, then gloss is automatically turned on when the lexicon is loaded. If no glosses exist in the lexicon, then this flag is ignored. If any glosses exist in the lexicon 3.2.14.9 conjunto de ciclos de comprobación de kimmo set kimmo check-cycles value enables or disables a check to prevent cycles in a word parse chart created by the embedded PC-Kimmo morphological parser. set kimmo check-cycles on turns on this check, and set kimmo check-cycles off turns it off. This check slows down the parsing of a sentence, but it makes the parser less vulnerable to hanging on perverse grammars. The default setting is on. 3.2.14.10 establecer kimmo promover los predeterminados value controls whether default atomic values in the feature structures loaded from the lexicon are "promoted" to ordinary atomic values before parsing a word with the embedded PC-Kimmo morphological parser. set kimmo promote-defaults on turns on this behavior, and set kimmo promote-defaults off turns it off. The default setting is on. (It is arguable that this is the wrong choice for the default, but this has been the behavior since the program was first written.) set kimmo promote-default 3.2.14.11 conjunto de filtro de arriba hacia abajo kimmo set kimmo top-down-filter value enables or disables top-down filtering in the embedded PC-Kimmo morphological parser, based on the morpheme categories. set kimmo top-down-filter on turns on this filtering, and set kimmo top-down-filter off turns it off. The top-down filter speeds up the parsing of a sentence, but might cause the parser to miss some valid parses. The default setting is on. Esto no debería ser necesario en la versión final de PC-PATR. 3.2.14.12 límite establecido numberestablece el límite de tiempo (en segundos) para analizar una oración. Su argumento es un número mayor o igual a cero, que es el número máximo de segundos que se permite un análisis antes de ser cancelado. El valor predeterminado es 0, que tiene el significado especial de que no se impone ningún límite de tiempo. set limit NOTA: esta función es nueva y sigue siendo algo experimental. Puede que no se debapura por completo y puede causar efectos secundarios imprevistos, como bloqueos del programa algún tiempo después de que se cancelen uno o más análisis debido a que se excede el límite de tiempo establecido. 3.2.14.13 categoría de marcador de conjunto set marker category markerestablece el marcador para el campo que contiene la función de categoría (parte del habla). El valor predeterminado es \c. 3.2.14.14 características del marcador de ajuste set marker features predeterminado es \f. markerestablece el marcador para el campo que contiene características diversas. (Este campo no es necesario para muchas palabras). El valor 3.2.14.15 brillo del marcador de conjunto set marker gloss markerestablece el marcador para el campo que contiene la palabra brillo. El valor predeterminado es \g. 3.2.14.16 establecido el registro del marcador markerestablece el marcador de campo que inicia un nuevo registro en el archivo léxico. Esto puede o no ser lo mismo que el marcador de word. El valor predeterminado es \w. set marker record 3.2.14.17 establecer brillo de raíz de marcador markerestablece el marcador para el campo que contiene la palabra rootgloss. El valor predeterminado es \r. El brillo de raíz de la palabra puede ser útil para manejar construcciones sintácticas como la reduplicación de verbos. Se puede escribir una restricción de unificación que garantice que el brillo raíz se unifique entre dos elementos léxicos/símbolos terminales sucesivos. Ten en cuenta que esto no funciona cuando se usa Kimmo para analizar palabras. set marker rootgloss 3.2.14.18 establecer la palabra marcadora set marker word markerestablece el marcador para el campo de palabras. El valor predeterminado es \w. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 9 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 3.2.14.19 establecer incumplimientos de la promoción set promote-defaults value controls whether default atomic values in the feature structures loaded from the lexicon are "promoted" to ordinary atomic values before parsing a sentence. set promote-defaults on turns on this behavior, and set promote-defaults off turns it off. (This can affect feature unification since a conflicting default value does not cause a failure: the default value merely disappears.) The default setting is on. (It is arguable that this is the wrong choice for the default, but this has been the behavior since the program was first written.) 3.2.14.20 establecer propiedad-es-función value controls whether the values in the AMPLE analysis \p (property) field are to be interpreted as feature template names, the same as the values in the AMPLE analysis \fd (feature descriptor) field. set property-is-feature on turns on this behavior, and set property-is-feature off turns it off. The default setting is off. (It is arguable that this is the wrong choice for the default, but this has been the behavior since the program was first written.) set property-is-feature 3.2.14.21 conjunto de solo reconocimiento set recognize-only valuecontrola si el analizador actúa como un reconocedor o como un analizador real y, por lo tanto, produce todas las analizaciones posibles. set recognize-only onhace que el primer análisis exitoso termine el proceso de análisis. set recognize-only offpermite que todas las análisis posibles se comprueben y devuelvan mediante el proceso de análisis. La configuración predeterminada está off. 3.2.14.22 conjunto de brillo de raíz valueespecifica si los brillos de raíz deben tratarse como una característica léxica y, de ser así, qué raíz(s) en las raíces compuestas se utilizan. El brillo de raíz de la palabra puede ser útil para manejar construcciones sintácticas como la reduplicación de verbos. Ten en cuenta que esto no funciona cuando se usa Kimmo para analizar palabras. set rootgloss set rootgloss offdesactiva el uso de la función de brillo raíz. Esta es la configuración predeterminada. set rootgloss onactiva el uso de la función de brillo raíz. Este valor lexicon file). N.B. que debe establecerse antes de cargar el archivo debe usarse cuando se utiliza un léxico de palabras (es decir, cuando se utiliza el comando de load léxico (de lo contrario, no se cargarán brillos raíz). set rootgloss leftheadedactiva el uso de la función de brillo raíz y, si uno está desambiguando un archivo ANA o usando AMPLE para analizar las palabras de una oración, solo se utilizará la raíz más a la izquierda en las raíces compuestas como valor de la característica de brillo raíz. set rootgloss rightheadedactiva el uso de la función de brillo raíz y, si uno está desambiguando un archivo ANA o usando AMPLE para analizar las palabras de una oración, solo se utilizará la raíz más a la derecha en las raíces compuestas como valor de la característica de brillo raíz. set rootgloss allactiva el uso de la función de brillo raíz y, si se está desambiguando un archivo ANA o se está usando AMPLE para analizar las palabras de una oración, cada brillo raíz en las raíces compuestas se utilizará como valor de la característica de brillo raíz. 3.2.14.23 tiempo establecido value enables timing mode if value is on, and disables timing mode if value is off. If timing mode is on, then the elapsed time required to process a command is displayed when the command finishes. If timing mode is off, then the elapsed time is not shown. The default is off. (This option is useful only to satisfy idle curiosity.) set timing 3.2.14.24 establecer el filtro de arriba hacia abajo set top-down-filter value enables or disables top-down filtering based on the categories. set top-down-filter on turns on this filtering, and set top-down-filter off turns it off. The top-down filter speeds up the parsing of a sentence, but might cause the parser to miss some valid parses. The default setting is on. Esto no debería ser necesario en la versión final de PC-PATR. 3.2.14.25 árbol de conjunto set tree valueespecifica cómo se deben mostrar los árboles de análisis. set tree fullactiva la pantalla del árbol de análisis, mostrando el resultado del análisis como un árbol completo. Esta es la configuración predeterminada. Una frase corta se vería así: Sentencia_1 | Declarativo_2 _____|_____ NP_3 VP_5 | ___|____ N_4 V_6 COMP_7 las vacas comen | NP_8 set tree flatactiva la pantalla del árbol de análisis, mostrando el resultado del análisis como una estructura de árbol plana en forma de una cadena entre corchetes. La misma frase corta se vería algo así: (Sentence_1 (Declarative_2 (NP_3 (N_4 vacas))(VP_5 (V_6 eat)(COMP_7 set tree indentedactiva (NP_8 (N_9 hierba)))))) la visualización del árbol de análisis, mostrando el resultado del análisis en un formato de sangría a veces llamado árbol noroeste. La misma frase corta se vería así: Sentencia_1 Declarativo_2 set tree xmlactiva la visualización del árbol de análisis, mostrando el resultado del análisis en formato XML. La misma frase corta se vería así: <Análisis count="1"> <Parse> set tree offdesactiva NP_3 N_4 vacas <Node cat="Sentence" id="_1. _1"> <Fs> VP_5 V_6 comer <F name="cat"><str>Sentence</str></f> </Fs> <Node cat="Declara la visualización de los árboles de análisis por completo. 3.2.14.26 establece características vacías de recorte https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 10 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 value disables the display of empty feature values if value is on, and enables the display of empty feature values if value is off. The default is not to display empty feature values. set trim-empty-features 3.2.14.27 unificación del conjunto set unification value enables or disables feature unification. set unification on turns on unification mode. This is the default setting. set unification offdesactiva la unificación de funciones en la gramática. Solo se utilizan las reglas de estructura de frases sin contexto para guiar el análisis; se ignoran las restricciones de características. Esto puede ser peligroso, ya que es fácil introducir ciclos infinitos en las reglas de estructura de frases recursivas. 3.2.14.28 establecer verboso set verbose verbose off value enables or disables the screen display of parse trees in the file parse command. set verbose on enables the screen display of parse trees, and set disables such display. The default setting is off. 3.2.14.29 establecer advertencias value enables warning mode if value is on, and disables warning mode if value is off. If warning mode is enabled, then warning messages are displayed on the output. If warning mode is disabled, then no warning messages are displayed. The default setting is on. set warnings 3.2.14.30 conjunto de análisis de escritura-ample-parse value enables writing \parse and \features fields at the end of each sentence in the disambiguated analysis file if value is on, and disables writing these fields if value is off. The default setting is off. set write-ample-parses Esta configuración de variable solo afecta al comando file disambiguate. 3.2.15 mostrar The show commands display internal settings on the screen. Each of these commands is described below. mostrar léxico mostrar estado 3.2.15.1 mostrar léxico show lexiconimprime el contenido del léxico almacenado en la memoria en la salida estándar. ESTO NO ES MUY ÚTIL Y PUEDE ELIMINARSE. 3.2.15.2 mostrar estado show statusmuestra show los nombres de la gramática, las oraciones y los archivos de registro actuales, y los valores de los interruptores establecidos por el comando set. (by itself) and status are synonyms for show status. 3.2.16 estado statusmuestra los nombres de la gramática, las oraciones y los archivos de registro actuales, y los valores de los interruptores establecidos por el comando set. 3.2.17 sistema [command]permite al usuario ejecutar un comando del sistema operativo (como comprobar el espacio disponible en un disco) desde PC-PATR. Esto solo está disponible para MS-DOS y Unix, no para Microsoft Windows o Macintosh. system If no system-level command is given on the line with the system command, then PC-PATR is pushed into the background and a new system command processor (shell) is started. Control is usually returned to PC-PATR in this case by typing exit as the operating system command. !(punto de exclamación) es sinónimo de system. 3.2.18 tomar take [file.tak]redirige la entrada de comandos al archivo especificado. The default filetype extension for take is .tak, and the default filename is pcpatr.tak. files can be nested three deep. That is, the user types take file1, file1 contains the command take file2, and file2 has the command take file3. It would be an error for file3 to contain a take command. This should not prove to be a serious limitation. take A take file can also be specified by using the -t command line option when starting PC-PATR. When started, PC-PATR looks for a take file named `pcpatr.tak' in the current directory to initialize itself with. 4 El archivo de gramática PC-PATR Las siguientes especificaciones se aplican generalmente al archivo gramatical: Las líneas, espacios y pestañas en blanco separan los elementos del archivo de gramática entre sí, pero se ignoran de otra manera. The comment character declared by the set comment command (see section 3.2.14.4 set comment) is operative in the grammar file. The default comment character is the semicolon (;). Comments may be placed anywhere in the grammar file. Everything following a comment character to the end of the line is ignored. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 11 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 Un archivo de gramática se divide en campos identificados por un pequeño conjunto de palabras clave. 1. Ruleinicia una regla de estructura de frases sin contexto con su conjunto de restricciones de características. Estas reglas definen cómo las palabras se unen para formar frases, cláusulas o oraciones. El léxico y la gramática están unidos mediante el uso de las categorías léxicas como símbolos terminales de las reglas de la estructura de la frase y mediante el uso de las otras características léxicas en las restricciones de la característica. 2. Letinicia una definición de plantilla de función. Las plantillas de características se utilizan como macros (abreviaturas) en el léxico. También se pueden usar para asignar estructuras de características predeterminadas a las categorías. 3. Parameterinicia una definición de parámetro de programa. Estos parámetros controlan varios aspectos del programa. 4. Defineinicia una definición de regla léxica. Como se señaló en Shieber (1985), a veces se necesita algo más poderoso que solo abreviaturas de elementos de características comunes para representar las relaciones sistemáticas entre los elementos de un léxico. Esta necesidad se cumple con reglas léxicas, que expresan transformaciones en lugar de meras abreviaturas. Las reglas léxicas tienen dos propósitos principales en PC-PATR: modificar las estructuras de características asociadas con las entradas de léxico para producir entradas de léxico adicionales, y modificar las estructuras de características producidas por un analizador morfológico para que se ajusten a la descripción de la gramática sintáctica. 5. Constraintinicia una definición de plantilla de restricción. Las plantillas de restricción se utilizan como macros (abreviaturas) en el archivo de gramática. 6. Lexiconinicia una sección de léxico. Esto es solo para la compatibilidad con el PATR-II original. El nombre de la sección se omite correctamente, pero no se hace nada con él. 7. Wordinicia una entrada en el léxico. Esto es solo para la compatibilidad con el PATR-II original. La entrada se omite correctamente, pero no se hace nada con ella.( 5) 8. Endtermina efectivamente el archivo. Cualquier cosa que siga esta palabra clave se ignora. 9. Comment starts a comment field. The rest of the line following the keyword is skipped over, and everything in following lines until the next keyword is also ignored. If you must use a keyword (other than comment verbatim in one of the extra lines of a comment, put a comment character at the beginning of the line containing the keyword. Note that these keywords are not case sensitive: RULE is the same as rule, and both are the same as Rule. Also, in order to facilitate interaction with the `Shoebox' program, any of the keywords may begin with a backslash \ character. For example, \Rule and \rule are both acceptable alternatives to RULE or rule. The abbreviated form \co is a special synonym for comment or \comment. Note that there is no requirement that these keywords appear at the beginning of a line. A excepción de los comment, cada uno de los campos del archivo de gramática puede terminar opcionalmente con un punto. Si no hay punto, la siguiente palabra clave (en una ranura adecuada) marca el final de un campo y el comienzo del siguiente. Reglas: Regla... Plantillas de características: Que <nombre> sea ... Configuración del parámetro: El parámetro <nombre> es ... Reglas léxicas: Definir <nombre> como ... Plantillas de restricción: La restricción <nombre> es ... 4.1 Reglas Una regla gramatical de PC-PATR tiene estas partes, en el orden indicado: 1. la palabra claveRule 2. un identificador de regla opcional incluido en llaves ({}) 3. una regla de estructura de frases que consta de lo siguiente: 1. el símbolo no terminal que se expandirá 2. una flecha (->) o un signo igual (=) 3. cero o más símbolos terminales o no terminales, posiblemente marcados para alternancia u opcionalidad 4. dos puntos opcionales (:) 5. cero o más restricciones de unificación 6. cero o más operaciones sindicales prioritarias 7. cero o más operaciones de restricción lógica 8. un período opcional (.) El identificador de regla opcional consiste en una o más palabras incluidas en llaves. Su utilidad actual es solo como una forma especial de comentario que describe la intención de la regla. (Finalmente, se puede usar como una etiqueta para añadir y eliminar reglas de forma interactiva). Los únicos límites del identificador de la regla son que no contiene el carácter de comentario y que todo aparece en la misma línea en el archivo gramatical. Los símbolos terminales y no terminales de la regla tienen las siguientes características: Upper and lower case letters used in symbols are considered different. For example, NOUN is not the same as Noun, and neither is the same as noun. The symbol X (capital letter x) may be used to stand for any terminal or nonterminal. For example, this rule says that any category in the grammar rules can be replaced by two copies of the same category separated by a CJ. Regla X -> X_1 CJ X_2 <X gato> = <X_1 gato> <X gato> = <X_2 gato> <X arg1> = <X_1 arg1> <X arg1> = <X El símbolo X puede ser útil para capturar generalidades. Se debe tener cuidado, ya que puede ser reemplazado por cualquier cosa. Los números de índice se utilizan para distinguir las instancias de un símbolo que se utiliza más de una vez en una regla. Se añaden al final de un símbolo después de un guión bajo (_). Esto se ilustra en la regla de X anterior. The characters (){}[]<>=:/ cannot be used in terminal or nonterminal symbols since they are used for special purposes in the grammar file. The character _ can be used only for attaching an index number to a symbol. De forma predeterminada, el símbolo de la izquierda de la primera regla en el archivo de gramática es el símbolo de inicio de la gramática. Los símbolos en el lado derecho de una regla de estructura de frase se pueden marcar o agrupar de varias maneras: Los paréntesis alrededor de un elemento de la parte de expansión (mano derecha) de una regla indican que el elemento es opcional. Los paréntesis se pueden colocar alrededor de varios elementos. Esto hace que sea un grupo opcional de elementos. Se utiliza una barra diagonal (/) para separar elementos alternativos de la parte de expansión (mano derecha) de una regla. Los corchetes rizados se pueden usar para agrupar elementos alternativos. Por ejemplo, lo siguiente dice que una S consiste en un NP seguido de un TVP o un IV: Regla S -> NP {TVP / IV} Se toman alternativas para que sean el mayor tiempo posible. Por lo tanto, si se omitieran los corchetes de la regla anterior, como en la regla de abajo, el TVP se trataría como parte de la alternativa que contiene el NP. No se permitiría antes de la IV. Regla S -> NP TVP / IV Los paréntesis agrupan elementos cerrados de la misma manera que los corchetes. Las alternativas y los grupos delimitados por paréntesis o llaves pueden anidar a https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 12 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 cualquier profundidad. La regla de la estructura de la frase puede ir seguida de cero o más restricciones de unificación que se refieren a los símbolos utilizados en la regla. Una restricción de unificación tiene estas partes, en el orden indicado: 1. una ruta de función que comienza con uno de los símbolos de la regla de la estructura de la frase 2. un signo igual 3. ya sea otra ruta o un valor Una restricción de unificación que se refiere solo a los símbolos en el lado derecho de la regla restringe su co-ocurrencia. En la siguiente regla y restricción, los valores de las características agr para los nodos NP y VP del árbol de análisis deben unificarse: Regla S -> VP de NP <NP agr> = <VP agr> Si una restricción de unificación se refiere a un símbolo en el lado derecho de la regla y tiene un valor atómico en su lado derecho, entonces la característica designada no debe tener un valor diferente. En la siguiente regla y restricción, la característica de mayúsculas y minúsculas para el nodo NP del árbol de análisis debe estar originalmente indefinida o igual a NOM: Regla S -> VP de NP <estuche de cabezaNP> = NOM (Después de que la unificación tenga éxito, la característica del caso principal para el nodo NP del árbol de análisis será igual a NOM). Una restricción de unificación que se refiere al símbolo en el lado izquierdo de la regla pasa información por el árbol de análisis. En la siguiente regla y restricción, el valor de la característica de tiempo se pasa desde el nodo VP hasta el nodo S: Regla S -> VP de NP <S tense> = <VP tense> Consulte la sección 2.4 Restricciones de características para obtener más detalles sobre las restricciones de unificación. La regla de estructura de la frase también puede ir seguida de cero o más operaciones de unión prioritarias que se refieren a los símbolos utilizados en la regla. Una operación de unión prioritaria tiene estas partes, en el orden indicado: 1. una ruta de función que comienza con uno de los símbolos de la regla de la estructura de la frase 2. un signo de operación de unión de prioridad (<=) 3. ya sea otra ruta o un valor atómico Aunque las operaciones sindicales prioritarias pueden mezclarse con restricciones de unificación siguiendo la regla de estructura de frases, solo se aplican después de que todas las restricciones de unificación hayan tenido éxito. Por lo tanto, tiene más sentido colocarlos después de todas las restricciones de unificación como recordatorio del orden de aplicación. Las operaciones de unión prioritaria pueden no aparecer dentro de una disyunción: si dos reglas difieren lógicamente solo en la aplicación de una unión prioritaria u otra, ambas reglas deben estar escritas en su totalidad. La regla de la estructura de la frase también puede ir seguida de cero u más operaciones de restricción lógicas que se refieren a los símbolos utilizados en la regla. Una operación de restricción lógica tiene estas partes, en el orden indicado: 1. una ruta de función que comienza con uno de los símbolos de la regla de la estructura de la frase 2. un signo de operación de restricción lógica (===) 3. una expresión de restricción lógica o una etiqueta de plantilla de restricción Aunque las operaciones de restricción lógica pueden mezclarse con restricciones de unificación u operaciones sindicales prioritarias siguiendo la regla de estructura de la frase, solo se aplican después de que todas las restricciones de unificación hayan tenido éxito y se hayan aplicado todas las operaciones sindicales prioritarias. Por lo tanto, tiene más sentido colocarlos después de todas las restricciones de unificación, y después de cualquier operación sindical prioritaria, como recordatorio del orden de aplicación. Las operaciones de restricción lógica pueden no aparecer dentro de una disyunción: si dos reglas difieren lógicamente solo en la aplicación de una restricción lógica u otra, ambas reglas deben escribirse en su totalidad. Estos dos últimos elementos de una regla PC-PATR son mejoras en el formalismo original de PATR-II. Por esta razón, se discuten con más detalle en las dos secciones siguientes. Operaciones sindicales prioritarias Operaciones de restricción lógica 4.1.1 Operaciones sindicales prioritarias La unificación es el único mecanismo implementado en el formulismo original de PATR-II para fusionar dos estructuras características. Hay situaciones en las que la percolación deseada de la información no se expresa fácilmente en términos de unificación. Por ejemplo, considere la siguiente regla (donde ms significa características morfosintácticas): Tallo -> Derivación de la raíz: <Root ms> = <Deriva msFrom> <Stem ms> = <Root ms> <Stem ms> = <Deriva msTo> The first unification expression above imposes the agreement constraints for this rule. The second and third unification expressions attempt to provide the percolation of information up to the Stem. However, it is quite possible for there to be a conflict between <Root ms> and <Deriv msTo>. Any such conflict would cause the third unification expression to fail, causing the rule as a whole to fail. The only way around this at present is to provide a large number of unification expressions that go into greater depth in the feature structures. Even then it may not be possible to always avoid conflicts. Se proporciona un mecanismo adicional para fusionar estructuras de características para manejar adecuadamente la percolación de la información: sobreescritura a través de la unión prioritaria. La notación del ejemplo anterior cambia ligeramente a la siguiente: Tallo -> Derivación de la raíz: <Root ms> = <Deriva msFrom> <Stem ms> = <Root ms> <Stem ms> <= <Deriv msTo> The only change is in the third expression under the rule: the unification operator = has been changed to a priority union operator <=. This new operator is the same as unification except for handling conflicts and storing results. In unification, a conflict causes the operation to fail. In priority union, a conflict is resolved by taking the value https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 13 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 in the right hand feature structure. In unification, both the left hand feature structure and the right hand feature structure are replaced by the unified result. In priority union, only the left hand feature structure is replaced by the result. Hay otra diferencia significativa entre la unificación y la unión prioritaria. La unificación es lógicamente un proceso sin orden; no importa en qué orden se escriben las expresiones de unificación. La unión prioritaria, por otro lado, está intrínsecamente ordenada; una operación sindical prioritaria siempre anula cualquier resultado anterior de la unión prioritaria (o la unificación). Por esta razón, todas las expresiones de unificación se evalúan antes que cualquier expresión de unión prioritaria, y el orden de las expresiones de unión prioritarias es significativo. A continuación se muestra una gramática BNF para las operaciones sindicales prioritarias de PC-PATR. <priority-union> ::= <feature-path> '<=' <feature-path> | <feature-path> '<=' <ATOM> <feature-path> ::= '<' <label-list> Note that both <LABEL> and <ATOM> refer to a single string token of contiguous characters. 4.1.2 Operaciones de restricción lógica La unificación es el único mecanismo implementado en el formulismo original de PATR-II para imponer restricciones a las estructuras de características. Hay situaciones en las que la restricción deseada no se expresa fácilmente en términos de unificación. Por ejemplo, considere la siguiente regla: Tallo -> Derivación de la raíz: <Root ms> = <Deriva msFrom> <Stem ms> = <Root ms> <Stem ms> <= <Deriv msTo> where <Root ms> and <Deriv msFrom> have the following feature structures: [Root: [ms: [finito: - ...]]] [Deriva: [msFrom: [tense: pasado ...]]] Assume that from our knowledge of verb morphology, we would like to rule out this analysis because only finite verb roots ([finite: +]) are marked for tense. The only way to do this with unification is to add [finite: +] to the msFrom feature of all the tense bearing derivational suffixes. This would work, but it adds information to suffixes that properly belongs only to roots. A better approach would be some way to express the desired constraint more directly. Consider the following rule: Tallo -> Derivación de la raíz: <Root ms> = <Deriva msFrom> <Stem ms> = <Root ms> <Stem ms> <= <Deriv msTo> The fourth feature expression under the rule is a new operation called a constraint. This particular constraint is interpreted as follows: if the feature structure [finite: +] subsumes the feature structure that is the value of <Stem ms>, then the feature structure [tense: []] must also subsume the feature structure that is the value of <Stem ms>, and if the feature structure [finite: +] does not subsume the feature structure that is the value of <Stem ms>, then the feature structure [tense: []] must not subsume the feature structure that is the value of <Stem ms>. (A feature structure F1 subsumes another feature structure F2 if F1 contains a subset of the information contained by F2. The empty feature structure [] subsumes all other feature structures. Subsumption is a partial ordering: not every two feature structures are in a subsumption relation to each other.) Una restricción es muy diferente tanto sintáctica como semánticamente de la unificación o de la unión prioritaria. La primera diferencia es que una restricción no modifica ninguna estructura de características; simplemente compara el contenido de dos estructuras de características. La segunda diferencia es que el lado derecho de una expresión de restricción es una expresión lógica que involucra una o más estructuras de características en lugar de una ruta de características. Constraints support two unary and four binary logical operations: existence, negation, logical and, logical or, conditional, and biconditional. The following tables summarize these logical operations. ($ is used for the subsumption operation. *P represents the feature structure pointed to by the feature path associated with the logical constraint. F, L, and R represent a feature structure associated with the logical constraint.) existencia negación F $ *P P == F P == ~F Verdadero Verdadero Falso Falso Falso Verdadero lógico y lógico o condicional biconditional L $ *P R $ *P P == L & R P == L / R P == L -> R P == L <-> R Verdadero Verdadero Verdadero Verdadero Verdadero Verdadero Verdadero Falso Falso Verdadero Falso Falso Falso Verdadero Falso Verdadero Verdadero Falso Falso Falso Falso Falso Verdadero Verdadero Dado que se aplican a la estructura de características final, las expresiones de restricción se evalúan después de todas las expresiones de unificación y unión prioritaria. Al igual que la unificación y a diferencia de la unión prioritaria, el orden relativo de las restricciones no es (lógicamente) importante. A continuación se muestra una gramática BNF para las operaciones de restricción lógica PC-PATR. <logical-constraint> ::= <feature-path> '==' <expression> <feature-path> ::= '<' <label-list> '>' <label-list> ::= <LABEL> Note that both <LABEL> and <ATOM> refer to a single string token of contiguous characters. An <indexedvariable> is interpreted as a variable for the atomic value at that place in the feature structure. The first such variable is instantiated by the atomic value of the feature at that place in the feature-path. All subsequent instances of the variable are compared for equality with the first instantiated one. Why might one need such an indexed variable? In some SOV languages with pro-drop and noun-verb compounding, a clause consisting just of a Noun Verb sequence is potentially at least three ways ambiguous: Subject Verb pro-drop Object Verb pro-drop Noun-Verb-compound En al menos uno de estos idiomas, es el caso de que cuando es posible un compuesto sustantivo-verbo, es la única lectura válida. Por lo tanto, lo correcto es asegurarse de que la gramática no permita ninguna de las otras lecturas posibles. Here's a (simplified) example of how one can use indexed variables to rule out the Subject Verb case. (The Noun is realized as the DP node and the Verb is realized as a VP which is a daughter of the I' node in the following rule.) regla {opción IP 2cI - asunto inicial, obligatorio, cláusula raíz} IP = DP I' https://software.sil.org/downloads/r/pc-patr/pcpatr.html < cabeza IP> = <cabeza de la I> <Tipo de cabezal IP raíz> Page 14 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 In the final logical constraint above (which is shown in bold), the atomic value of the rootgloss feature is stored in variable ^1 in the antecedent (the "if" part) of the conditional. This atomic value is then compared with the values of the various compounds_with features. The idea is that the value of the rootgloss feature should not be any of the values of the various compounds_with features (there are more than one of these because a given noun may compound with more than one verb). 4.2 Plantillas de funciones Una plantilla de función de PC-PATR tiene estas partes, en el orden indicado: 1. 2. 3. 4. 5. la palabra claveLet el nombre de la plantilla la palabra clavebe una definición de función un período opcional (.) Si el nombre de la plantilla es una categoría de terminal (un símbolo de terminal en una de las reglas de estructura de frases), la plantilla define las características predeterminadas para esa categoría. De lo contrario, el nombre de la plantilla sirve como abreviatura de la estructura de características asociada. The characters (){}[]<>=: cannot be used in template names since they are used for special purposes in the grammar file. The characters /_ can be freely used in template names. The character \ should not be used as the first character of a template name because that is how fields are marked in the lexicon file. Las abreviaturas definidas por las plantillas se suelen utilizar en el campo de características de las entradas del archivo léxico. Por ejemplo, la entrada léxica para los pies de forma plural irregular puede tener la abreviatura pl en su campo de características. El archivo de gramática definiría esta abreviatura con una plantilla como esta: Que sea [número: PL] También se puede usar la notación de ruta: Que sea <número> = PL Las estructuras de características más complicadas se pueden definir en las plantillas. Por ejemplo, Que 3sg sea [tense: PRES agr: 3SG finito: + vform: S] que es equivalente a: Que 3sg sea <tense> = PRES <agr> = 3SG <finito> = + <vform> = S En el siguiente ejemplo, la abreviatura irreg se define usando otra abreviatura: Que irreg sea <reg> = - por favor La abreviatura pl debe definirse previamente en el archivo de gramática o se producirá un error. Una plantilla posterior también podría usar la abreviatura irreg en su definición. De esta manera, se pueden construir características de una jerarquía de herencia. Las plantillas de características permiten definiciones disyuntivas. Por ejemplo, la entrada léxica para la palabra ciervo puede especificar la abreviatura de la función sg-pl. El archivo de gramática definiría esto como una disyunción de estructuras de características que reflejan el hecho de que la palabra puede ser singular o plural: Que sg/pl sea {[number:SG] [número:PL]} Esto tiene el efecto de crear dos entradas para ciervos, una con número singular y otra con plural. Tenga en cuenta que no hay límite en el número de estructuras disyunas enumeradas entre los frenos. Además, no hay barra (/) entre los elementos de la disyunción, ya que hay entre los elementos de una disyunción en las reglas. Una versión más corta de la plantilla anterior usando la notación de ruta se ve así: Que sg/pl sea <number> = {SG PL} Las abreviaturas también se pueden utilizar en disyunciones, siempre que se hayan definido previamente: Que sg sea <número> = SG Que sea <número> = PL Que sg/pl sea {[sg] [pl]} Tenga en cuenta los corchetes alrededor de las abreviaturas sg y pl; sin corchetes se interpretarían como valores simples en su lugar. Las plantillas de características pueden asignar valores de características atómicas predeterminados, indicados prefijándose por un signo de exclamación (!). Una asignación explícita de características puede anular un valor predeterminado. Esta plantilla dice que todos los miembros de la categoría N tienen un número singular como valor predeterminado: Que N sea <número> = ! SG The effect of this template is to make all nouns singular unless they are explicitly marked as plural. For example, regular nouns such as book do not need any feature in their lexical entries to signal that they are singular; but an irregular noun such as feet would have a feature abbreviation such as pl in its lexical entry. This would be defined in the grammar as [number: PL], and would override the default value for the feature number specified by the template above. If the N template above used SG instead of !SG, then the word feet would fail to parse, since its number feature would have an internal conflict between SG and PL. 4.3 Ajustes de parámetros Una configuración de parámetros PC-PATR tiene estas partes, en el orden indicado: 1. 2. 3. 4. 5. 6. la palabra claveParameter dos puntos opcionales (:) una o más palabras clave que identifican el parámetro la palabra claveis el valor del parámetro un período opcional (.) PC-PATR reconoce los siguientes parámetros: https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 15 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 Start symbol define el símbolo de inicio de la gramática. Por ejemplo, El símbolo de inicio del parámetro es S declara que el objetivo de análisis de la gramática es la categoría no terminal S. El símbolo de inicio predeterminado es el símbolo de la izquierda de la primera regla de estructura de la frase en el archivo gramatical. Restrictor define un conjunto de características para usar para el filtrado de arriba hacia abajo, expresado como una lista de rutas de características. Por ejemplo, El restringidor de parámetros es <cat> <formulario de encabezado> declara que las características del formulario de gato y cabeza deben usarse para filtrar las reglas antes de agregarlas al gráfico de análisis. El valor predeterminado es no usar ninguna función para dicho filtrado. Este filtrado, llamado restricción en Shieber (1985), se realiza además del filtrado normal de arriba hacia abajo basado solo en las categorías. LA RESTRICCIÓN AÚN NO SE HA IMPLEMENTADO. ¿DEBERÍA SER EN LUGAR DE UN FILTRADO NORMAL EN LUGAR DE ADEMÁS? Attribute order especifica el orden en el que se muestran los atributos de las características. Por ejemplo, El orden del atributo del parámetro es la cabeza de sentido del gato lex acuerdo de pr declara que el atributo cat debe ser el primero que se muestre en cualquier salida de PC-PATR, y que los otros atributos deben mostrarse en el orden relativo que se muestra, con el atributo de acuerdo mostrado el último de los enumerados, pero por delante de cualquier atributo que no esté en la lista anterior. Los atributos que no están en la lista se ordenan de acuerdo con su orden de código de carácter. Si no se especifica el orden de los atributos, entonces se muestra primero la función de la categoría cat, con todos los demás atributos ordenados de acuerdo con sus códigos de carácter. Category feature define la etiqueta para el atributo category. Por ejemplo, La función de categoría de parámetro es Categ declara que Categ es el nombre del atributo category. El nombre predeterminado de este atributo es cat. Lexical feature define la etiqueta del atributo léxico. Por ejemplo, Parámetro La característica léxica es Lex declara que Lex es el nombre del atributo léxico. El nombre predeterminado de este atributo es lex. Gloss feature define la etiqueta para el atributo de brillo. Por ejemplo, La función de brillo de parámetros es brillo declara que Gloss es el nombre del atributo gloss. El nombre predeterminado de este atributo es gloss. RootGloss feature define la etiqueta del atributo de brillo raíz. Por ejemplo, La función del parámetro RootGloss es RootGloss declara que RootGloss es el nombre del atributo root gloss. El nombre predeterminado de este atributo es rootgloss. Ten en cuenta que esto no funciona cuando se usa Kimmo para analizar palabras. 4.4 Reglas léxicos Las reglas léxicas tienen dos propósitos: proporcionar un medio flexible para crear múltiples entradas de léxico relacionadas y convertir la salida del analizador morfológico en una forma adecuada para la entrada del analizador sintáctico. Figura 7. Ejemplo de regla léxica PC-PATR; entrada de léxico \w irrumpió \c V \f Agente transitivo sin pasivo <head trans pred> = tormenta ; defin Figura 8. Estructura de características antes de la regla léxica[ lex: asaltado gato: V cabeza: [ trans: [ arg1: $1 [] Figura 9. Estructuras de características después de la regla léxica[ lex: asaltado gato: V cabeza: [ trans: [ arg1: $1 [] Una regla léxica PC-PATR tiene estas partes, en el orden indicado: 1. 2. 3. 4. 5. la palabra claveDefine el nombre de la regla léxica la palabra claveas la definición de la regla un período opcional (.) The rule definition consists of one or more mappings. Each mapping has three parts: an output feature path, an assignment operator, and the value assigned, either an input feature path or an atomic value. Every output path begins with the feature name out and every input path begins with the feature name in. The assignment operator is either an equal sign (=) or an equal sign followed by a "greater than" sign (=>).(6) Consider the information shown in figure 7. When the lexicon entry is loaded, it is initially assigned the feature structure shown in figure 8, which is the unification of the information given in the various fields of the lexicon entry. Since one of the the labels stored in the \f (feature) field is actually the name of a lexical rule, after the complete feature structure has been built, the named lexical rule is applied. After the rule has been applied, the original single feature structure has been changed to the two feature structures shown in figure 9. Note that not all of the input feature information is found in both of the output feature structures. Figura 10. Regla léxica PC-PATR para usar PC-KimmoDefinir MapKimmoFeatures como <out cat> = <in head pos> <fuera de la cabez Figura 11. Estructura de características recibida de PC-Kimmo[ gato: Palabra clíticos: - drvstem: - cabeza: [ agr: [ 3sg: + ] Figura 12. Estructura de características enviada a PC-PATR[ gato: V brillo: `dormir cabeza: [ agr: [ 3sg: + ] https://software.sil.org/downloads/r/pc-patr/pcpatr.html finito: + Page 16 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 Using a lexical rule in conjunction with the PC-Kimmo morphological parser within PC-PATR is illustrated in figures 10-12. Figure 10 shows the lexical rule for mapping from the top-level feature structure produced by the morphological parser to the bottom-level feature structure used by the sentence parser. Note that this rule must be named MapKimmoFeatures (unorthodox capitalization and all). Figure 11 shows the feature structure created by the PC-Kimmo parser. After the lexical rule shown in figure 10 has been applied (and after some additional automatic processing), the feature structure shown in figure 12 is passed to the PC-PATR parser. Note that only a single feature structure results from this operation, unlike the result of a lexical rule applied to a lexicon entry. Note that the feature structure passed to the PC-PATR parser always has both a lex feature and a gloss feature, even if the MapKimmoFeatures lexical rule does not create them. The default value for the lex feature is the original word from the sentence being parsed. The default value for the gloss feature is the concatenation of the glosses of the individual morphemes in the word. In contrast to the lex and gloss features which are provided automatically by default, the cat feature must be provided by the MapKimmoFeatures lexical rule. There is no way to provide this feature automatically, and it is required for the phrase structure rule portion of PC-PATR. 4.5 Plantillas de restricciones Una plantilla de restricción PC-PATR tiene estas partes, en el orden indicado: 1. 2. 3. 4. 5. la palabra claveConstraint el nombre de la plantilla la palabra claveis una expresión de restricción lógica un período opcional (.) The characters (){}[]<>=:/ cannot be used in constraint template names since they are used for special purposes in the grammar file. The characters _\ can be freely used in constraint template names. Las abreviaturas definidas por las plantillas de restricción se utilizan en las operaciones de restricción lógica que forman parte de las reglas definidas en el archivo de gramática. Se debe definir una plantilla de restricción en el archivo de gramática antes de que se pueda usar en una regla. Considere las siguientes reglas en un archivo de gramática: RULE Word -> Tallo <Word ms> = <Stem ms> <Stem ms> == [fino: +] <-> [tenso: []] RULE Word -> Stem Infl <Word ms> Estas reglas se pueden simplificar definiendo una plantilla de restricción: RESTRICCIÓN ValidVerb es [finito: +] <-> [tenso: []] RULE Word -> Tallo <Word ms> = <Stem ms> <Stem ms> == ValidVerb 5 Formato estándar Algunos de los archivos de control de entrada que Lee PC-PATR son archivos de formato estándar. Esto significa que los archivos se dividen en registros y campos. Un archivo de formato estándar contiene al menos un registro, y algunos archivos pueden contener un gran número de registros. Cada registro contiene uno o más campos. Cada campo ocupa al menos una línea y está marcado por un código de campo al principio de la línea. Un código de campo comienza con un carácter de barra invertida (\) y contiene 1 o más caracteres de impresión (generalmente alfabéticos) además. Si el archivo está diseñado para tener varios registros, entonces uno de los códigos de campo debe ser designado como el marcador de registro, y cada registro comienza con ese campo, incluso si está vacío aparte del código de campo. Si el archivo contiene solo un registro, el orden relativo de los campos solo está limitado por su semántica. Vale la pena enfatizar que los códigos de campo deben estar al principio de una línea. Incluso un solo espacio antes del carácter de barra invertida evita que se reconozca como un código de campo. También vale la pena enfatizar que los marcadores de registro deben estar presentes incluso si ese campo no tiene información para ese registro. Omitir el marcador de registro hace que dos registros se fusionen en un solo registro, con resultados impredecibles. 6 El archivo Léxico PC-PATR The lexicon file is a standard format database file consisting of any number of records, each of which represents one word. These records are divided into fields, each of which begins with a standard format marker at the beginning of a line. These markers begin with the \ (backslash) character followed by one or more alphanumeric characters. Each record begins with a designated field. PC-PATR recognizes four different fields, with these default field markers: \w la forma léxica de la palabra, escrita exactamente como aparecerá en cualquier oración o frase introducida en PC-PATR(7) \c categoría de palabras (parte del discurso) \g brillo de palabras \f características adicionales de esta palabra Tenga en cuenta que los campos que contienen la forma léxica de la palabra y su categoría deben estar presentes para cada palabra (registro) del léxico. Los otros dos campos (brillos y características) son opcionales, al igual que los campos adicionales que pueden estar presentes para otros fines. A cada palabra cargada desde el archivo de léxico se les asignan ciertas características basadas en los campos descritos anteriormente. El valor de la característica lex es la forma léxica de la palabra, tomada del campo de forma léxica de la entrada de la palabra en el léxico. El valor de la característica del gato es la categoría léxica de la palabra, por ejemplo, sustantivo, verbo, adjetivo, etc. Esto se toma del campo de categoría de la entrada de la palabra en el léxico. Tenga en cuenta que la misma forma léxica puede aparecer varias veces en el léxico, con una categoría diferente para cada ocurrencia. El valor de la función de brillo es el brillo de la palabra, tomado del campo de brillo de la entrada de la palabra en el léxico. A diferencia de los dos elementos anteriores, esta función es opcional. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 17 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 Estos nombres de características deben tratarse como nombres reservados y no deben utilizarse para otros fines. Por ejemplo, considere estas entradas para las palabras zorro y zorros: \w zorro \c N \g canino \f <número> = singular \w zorros \c N \g canino+PL \f <número> = plural Cuando la gramática utiliza estas entradas, están representadas por estas estructuras de características: [gato: N brillo: canino lex: zorros número: singular] [gato: N brillo: canino+PL lex: zorros número: plural] Las entradas del léxico se pueden simplificar definiendo plantillas de características en el archivo de gramática. Considere las siguientes plantillas: Que PL sea <número> = plural Que N sea <número> = ! singular Con estas dos plantillas, definiendo una abreviatura para "plural" y definiendo una característica predeterminada para la categoría N (sustantivo), las entradas del léxico se pueden reescribir de la siguiente manera: \w zorro \c N \g canino \f \w zorros \c N \g canino+PL \f PL Tenga en cuenta que el campo de función (\f) de la primera entrada podría omitirse por completo, ya que ahora está vacío. 7 El archivo de análisis AMPLE En lugar de usar un archivo de léxico dedicado, PC-PATR puede cargar su léxico interno a partir de uno o archivos de análisis producidos por el programa de análisis morfológico AMPLE. AMPLE escribe una base de datos de formato estándar para su salida, cada registro del cual corresponde a una palabra del texto de origen. El primer campo de cada entrada contiene el análisis. Otros campos, que pueden o no ocurrir, contienen información adicional. The utility of this command has been greatly reduced by the availability of the load ample and load kimmo commands which allow morphological analysis on demand to populate PC-PATR's word lexicon. However, the file disambiguate command also operates on AMPLE analysis files, so this information is still of interest. Campos del archivo de análisis AMPLE Análisis ambiguos Fallos de análisis 7.1 Campos de archivo de análisis AMPLE This section describes the fields that AMPLE writes to the output analysis file. The only field that is guaranteed to exist is the analysis (\s) field. All other fields are either data dependent or optional. \a: Análisis \d: Descomposición (formas superficiales) \gato (. ANA): Categoría (palabra posible, morfema) \p: Propiedades \fd: Descriptores de características \u: Formas subyacentes (descomposición) \w: Word (antes de la descapitalización y los cambios de ortografía) \f: Formato (basura antes de la palabra) \c: Indicador de mayúsculas \n: No alfabético (basura después de la palabra) 7.1.1 Análisis: \a El campo de análisis (\a) inicia cada registro del archivo de análisis de salida. Tiene la siguiente forma: \a PFX IFX PFX < raíz CAT raíz CAT > SFX IFX SFX where PFX is a prefix morphname, IFX is an infix morphname, SFX is a suffix morphname, CAT is a root category, and root is a root gloss or etymology. In the simplest case, an analysis field would look like this: \a < raíz CAT > The \rd field in the analysis data file can replace the characters used to bracket the root category and gloss/etymology; see section `Root Delimiter Characters: \rd' in AMPLE Reference Manual. The dictionary field code mapped to M in the dictionary codes file controls the affix and default root morphnames; see section `Morphname (internal code M)' in AMPLE Reference Manual. If the AMPLE `-g' command line option was given, the output analysis file contains glosses from the root dictionary marked by the field code mapped to G in the dictionary codes file; see section `AMPLE Command Options' in AMPLE Reference Manual, and section `Root Gloss (internal code G)' in AMPLE Reference Manual. 7.1.2 Descomposición (formas superficiales): \d El campo de descomposición del morfema (\d) sigue al campo de análisis. Tiene la siguiente forma: \d anti-desablish-ment-arian-ism-s donde los guiones separan los morfemas individuales en la forma superficial de la palabra. The \dsc field in the text input control file can replace the hyphen with another character for separating the morphemes; see section `Decomposition Separation Character: \dsc' in AMPLE Reference Manual. The morpheme decomposition field is optional. It is enabled either by an AMPLE `-w d' command line option (see section `AMPLE Command Options' in AMPLE Reference Manual), or by an interactive query. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 18 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 7.1.3 Categoría (posible palabra o morfema): \cat El campo de categoría (\cat) proporciona información rudimentaria de la categoría. Tiene la siguiente forma: \gato GATO where CAT is the proposed word category. A more complex example is \cat C0 C1/C0=C2=C2/C1=C1/C1 where C0 is the proposed word category, C1/C0 is a prefix category pair, C2 is a root category, and C2/C1 and C1/C1 are suffix category pairs. The equal signs (=) serve to separate the category information of the individual morphemes. The \cat field of the analysis data file controls whether the category field is written to the output analysis file; see section `Category output control: \cat' in AMPLE Reference Manual. 7.1.4 Propiedades: \p El campo de propiedades (\p) contiene los nombres de cualquier propiedad de alomorfo o morfema que se encuentre en el análisis de la palabra. Tiene la forma: \p ==prop1 prop2=prop3= where prop1, prop2, and prop3 are property names. The equal signs (=) serve to separate the property information of the individual morphemes. Note that morphemes may have more than one property, with the names separated by spaces, or no properties at all. By default, the properties field is written to the output analysis file. The `-w 0' command option, or any `-w' option that does not include `p' in its argument disables the properties field. 7.1.5 Descriptores de características: \fd El campo descriptor de características (\fd) contiene los nombres de características asociados a cada morfema en el análisis. Tiene la siguiente forma: \fd ==feat1 feat2=feat3= where feat1, feat2, and feat3 are feature descriptors. The equal signs (=) serve to separate the feature descriptors of the individual morphemes. Note that morphemes may have more than one feature descriptor, with the names separated by spaces, or no feature descriptors at all. The dictionary field code mapped to F in the dictionary code table file controls whether feature descriptors are written to the output analysis file; if this mapping is not defined, then the \fd field is not written. See section `Feature Descriptor (internal code F)' in AMPLE Reference Manual. 7.1.6 Formas subyacentes (descomposición): \u El campo de forma subyacente (\u) es similar al campo de descomposición, excepto que muestra formas subyacentes en lugar de formas de superficie. Se ve así: \u a-para-a-i-ri-me donde los guiones separan los morfemas individuales. The \dsc field in the text input control file can replace the hyphen with another character for separating the morphemes; see section `Decomposition Separation Character: \dsc' in AMPLE Reference Manual. The dictionary field code mapped to U in the dictionary code table file controls whether underlying forms are written to the output analysis file; if this mapping is not defined, then the \u field is not written. section `Underlying Form (internal code U)' in AMPLE Reference Manual. 7.1.7 Word (antes de la descapitalización y los cambios de ortografía): \w El campo de palabra original (\w) contiene la palabra de entrada original tal y como se ve antes de que cambie la descapitalización y la ortografía. Se ve así: \w El Tenga en cuenta que este es un cambio gratuito con respecto a las versiones anteriores de AMPLE, que escribían la forma descapitalizada. The original word field is optional. It is enabled either by an AMPLE `-w w' command line option (see section `AMPLE Command Options' in AMPLE Reference Manual), or by an interactive query. 7.1.8 Formato (basura antes de la palabra): \f El campo de información de formato (\f) registra cualquier código de formato o puntuación que apareciera en el archivo de texto de entrada antes de la palabra. Se ve así: \f \\id MAT 5 HGMT05. SFM, 14-feb-84 D. Weber, Huallaga Quechua\n \\c 5\n\n \\s where backslashes (\) in the input text are doubled, newlines are represented by \n, and additional lines in the field start with a tab character. El campo de información de formato se escribe en el archivo de análisis de salida siempre que sea necesario, es decir, siempre que existan códigos de formato o puntuación antes de las palabras. 7.1.9 Indicador de mayúsculas: \c El campo de mayúsculas (\c) registra cualquier mayúscula de la palabra de entrada. Se ve así: \c 1 donde el número que sigue al código de campo tiene uno de estos valores: https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 19 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 1 la primera (o la única) letra de la palabra está en mayúsculas 2 todas las letras de la palabra están en mayúsculas 4-32767 algunas letras de la palabra están en mayúsculas y otras no Tenga en cuenta que la tercera forma es de utilidad limitada, pero todavía existe debido al apellido del autor. El campo de mayúsculas se escribe en el archivo de análisis de salida cada vez que se escribe alguna de las letras de la palabra en mayúsculas; consulte la sección "Prevenir cualquier descapitalización: \nocap" en el Manual de referencia de AMPLE y la sección "Prevenir la descapitalización de caracteres individuales: \noincap" en el Manual de referencia de AMPLE 7.1.10 No alfabético (basura después de la palabra): \n El campo no alfabético (\n) registra cualquier puntuación final, código de barras (consulte la sección "Personajes de código de formato de código de barras: \códigos de barras" en el Manual de referencia de AMPLE) o caracteres de espacio en blanco. Se ve así: \n |r.\n donde las nuevas líneas están representadas por \n. El campo no alfabético termina con el último carácter de espacio en blanco inmediatamente después de la palabra. El campo no alfabético se escribe en el archivo de análisis de salida cada vez que la palabra va seguida de algo que no sea un solo carácter de espacio. Esto incluye el caso en el que una palabra termina un archivo sin que nada lo siga. 7.2 Análisis ambiguos La sección anterior suponía que AMPLE producía solo un análisis por palabra. Esto no siempre es posible, ya que las palabras aisladas suelen ser ambiguas. AMPLE maneja múltiples análisis escribiendo cada campo de análisis en paralelo, con el número de análisis al principio de cada campo de salida. Por ejemplo, \a %2%< A0 imaika > CNJT AUG%< A0 imaika > ADVS% \d %2%imaika-Npa-ni%imaika-Npani% \cat %2%A0 A0=A0/A0=A0/A0%A0 A0=A0/A0% \p %2%==%=% \fd %2%==%=% where the percent sign (%) separates the different analyses in each field. Note that only those fields which contain analysis information are marked for ambiguity. The other fields (\w, \f, \c, and \n) are the same regardless of the number of analyses that AMPLE discovers. The \ambig field in the text input control file can replace the percent sign with another character for separating the analyses; see section `Ambiguity Marker Character: \ambig' in AMPLE Reference Manual, for details. 7.3 Fallos de análisis Las secciones anteriores suponían que AMPLE analizó con éxito una palabra. Esto no siempre sucede. AMPLE marca los fallos de análisis de la misma manera que marca varios análisis, pero con cero (0) para el recuento de ambigüedades. Por ejemplo, \a %0%ta% \d %0%ta% \cat %0%% \p %0%% \fd %0%% \u %0%% \w TA \f \\v 12 |b \c 2 \n |r\n Note that only the \a and \d fields contain any analysis information, and those both have the decapitalized word as a place holder. The \ambig field in the text input control file can replace the percent sign with another character for marking analysis failures and ambiguities; see section `Ambiguity Marker Character: \ambig' in AMPLE Reference Manual, for details. 8 Uso de los analizadores morfológicos integrados Normalmente, PC-PATR requiere que el lingüista desarrolle un léxico completo de palabras con sus características. Esto puede ser innecesario si ya se ha desarrollado un análisis morfológico y un léxico completo de morfemas utilizando PC-Kimmo (versión 2) o AMPLE (versión 3). Estos programas de análisis morfológico también están disponibles en SIL. PC-Kimmo AMPLE 8.1 PC-Kimmo La versión 2 de PC-Kimmo es compatible con una gramática de estilo PC-PATR para definir la estructura de las palabras en términos de morfemas. Esto proporciona una forma sencilla de obtener características de las palabras como resultado del proceso de análisis morfológico. Para obtener los mejores resultados, la gramática de palabras (PC-Kimmo) y la gramática de oración o frase (PC-PATR) deben desarrollarse juntas. When using the PC-Kimmo morphological parser, PC-PATR requires a special lexical rule in the (sentence level) grammar file. This rule is named MapKimmoFeatures and is used automatically to map from the features produced by the word parse to the features needed by the sentence parse. For example, consider the following definition: Definir MapKimmoFeatures como <out cat> = <in head pos> <out lex> = <in lex> <fuera de la cabeza> = <en la cabe This lexical rule uses the <head pos> feature produced by the PC-Kimmo parser as the <cat> feature for the PC-PATR parser, and passes the <lex> and <head> features from the morphological parser to the sentence parser unchanged. 8.2 AMPLITUD Lo único necesario para usar el analizador morfológico AMPLE dentro de PC-PATR es cargar los archivos de control y diccionarios apropiados. Sin embargo, esto no será demasiado útil, a menos que los diccionarios AMPLE contengan descriptores de características para pasar a PC-PATR. También es necesario que los datos de AMPLE definan la categoría de palabras. (La categoría de sufijo final de palabra o la categoría de prefijo inicial de palabra se pueden designar en el archivo de datos de análisis). Consulte la documentación de AMPLE para obtener más detalles sobre cualquiera de estos temas. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 20 sur 21 Manual de referencia de PC-PATR 04/09/2022 17:48 9 Índice Saltar a: - - \ - s -/ -un nombre de archivo -g nombre de archivo -l nombre de archivo -t nombre de archivo -Dirección Z, cuenta -z nombre de archivo \ \a \c \gato \d \f \fd \n \p \u \w segundo formato estándar Notas al pie (1) La implementación de Microsoft Windows utiliza la función Microsoft C QuickWin, y la implementación de Macintosh utiliza la función Metrowerks C SIOUX. (2) Gazdar y Mellish (1989, páginas 142-147) discuten por qué las gramáticas de estructura de frases sin contexto son inadecuadas para modelar algunos lenguajes humanos. Se muestra que el formalismo PATR-II (unificación de estructuras de características añadidas a las reglas de estructura de frases sin contexto) es adecuado para esos casos. (3) Esta es una nueva característica de AMPLE versión 3. (4) El diccionario unificado es una nueva característica de AMPLE versión 3. (5) ¿Sería esta una mejora útil para PC-PATR? (6) Estos dos operadores son equivalentes en PC-PATR, ya que la implementación trata cada regla léxica como una lista ordenada de asignaciones en lugar de usar la unificación para las asignaciones que tienen un operador de signo igual. (7) By default, \w also marks the initial field of each word's record. Este documento se generó el 28 de noviembre de 2006 utilizando el traductor texi2html versión 1.52. https://software.sil.org/downloads/r/pc-patr/pcpatr.html Page 21 sur 21