Combinatórias do Portugués: uma abordagem corpus-driven com fins lexicográficos Sandra Antunes Centro de Linguística da Universidade de Lisboa Grupo de Linguística de Corpus Av. Prof. Gama Pinto, 2 - 1649-003 Lisboa sandra.antunes@clul.ul.pt Resumo A dificuldade encontrada em delimitar os diferentes tipos de associacoes de palavras, bem como o estatuto incerto que estas ocupam na gramática conduziram a uma grande variacáo nas análises realizadas até á data por vários autores. Dada a natureza multifacetada děste fenómeno, a sua definicáo e categorizacáo só parecem ser possíveis através da combinacáo de critérios como a frequéncia (facilmente obtida através dos dados do corpus) e a análise intensiva de todas as suas propriedades linguísticas. Neste artigo será possível observar, de um modo sucinto, o metodo de extraccáo e seleccáo das combinatórias do corpus (seccáo 2), as análises e tipologias de alguns dos autores mais proeminentes na area (seccáo 3) e a sua adaptacáo a alguns dados analisados até á data (seccáo 4). 1 Introducao Čada vez mais os investigadores se těm dado conta de que o recurso á intuicáo e á introspeccáo de um falante nao é suficiente para analisar e descrever as associacoes de palavras de uma lingua. A grande dificuldade encontrada pelos lexicógrafos em identificar e definir as combinatórias usuais que devem constar num dicionário, recorrendo apenas á intuicáo, tem contribuído para que elas sej am, em geral, negligenciadas na maior parte dos dicionários Portugueses. Contudo, o recurso a corpora permite, de um modo mais fácil, identificar os diversos padroes de associacoes de palavras e, consequentemente, proceder a uma seleccáo mais criteriosa. Com base num corpus equilibrado com mais de 50 milhoes de palavras, o trabalho em curso tem como objectivos a deteccáo, análise e definicáo das principais combinatórias do portugués europeu, o estabelecimento de uma tipologia e uma proposta de seleccáo e tratamento destas associacoes de palavras nos dicionários de portugués. 2 Extraccáo e seleccáo das combinatórias Para este estudo foi utilizado um corpus equilibrado composto por 50 milhoes de palavras no registo escrito1 - jornal (30.000.000), livro (10.917.889), revista (7.500.000), vária (1.851.828), direito (313.962), política (277.586) e folheto (104.889) - e 1 milháo de palavras no registo oral - informal (912.581), formal (528.187) e conversas telefónicas (24.365). Para a extraccáo das combinatórias do corpus foi aplicado, em UNIX, um programa informático que permite extrair todos os grupos compostos por 2 a 5 palavras, bem como as concordáncias de cada grupo. A aplicacáo da medida de associacáo lexical Informacáo Mútua (Church & Hanks, 1989) - que calcula as probabilidades de ocorréncia conjunta dos grupos de palavras, no corpus, e de ocorréncia independente dessas mesmas palavras - permite evidenciar os grupos mais significativos. De forma a facilitar a visualizacáo e a seleccáo das associacoes de palavras significativas, foi criada uma base de dados, com plataforma SQL e interface em Access, que permite importar automaticamente todos os resultados obtidos através da aplicacáo do programa informático referido acima. As combinatórias seleccionadas foram, posteriormente, organizadas de forma a identificar um lema de grupo (que permite reunir, sob uma única forma, as variantes flexionais que ocorreram no corpus) e um lema principal (que corresponde ao lema a partir do qual a combinatória foi seleccionada), como se pode observar na tabela 1. Lema f°g°_ Lema de Grupo _fogo de artifício_ Grupo _fogo de artifício 1 Corpus constituído no ámbito do projecto COMBINA-PT - Combinatórias Lexicais do Portugués, desenvolvido no Centro de Linguística da Universidade de Lisboa pelo grupo de Linguística de Corpus (http://www.clul.ul.pt). Comemoracdes dos 75 anos do CLUL - Sessáo de Estudantes 5 de Novembro de 2007 nao faltou até ás trés horas, o fogo de artífício surpreendeu os novos doze meses e os cachos de fogo de artífício transfiguram u contará com uma grande sessao de fogo de artifício, a marcar a en _costura parisiense. Perante este fogo de artifício sentimos por v_ Grupo _fogos de artifício_ de moagem, cerámica, curtumes e fogos de artífício, merece ainda a pelos Chineses, sobretudo para fogos de artífício. A pólvora pa aca impediu que 156 toneladas de fogos de artífício fossem lancad _amariz e na Baia de Cascais. Com fogos de artifício, animacao de_ Tabela 1. Organizajáo dos lemas 3 Algumas considera^oes teóricas Nesselhauf (2004:1) refere que, provavelmente, existem tantas respostas á pergunta 'o que é uma combinatória?' quantos os autores que escrevem sobre o assunto. Na verdade, no seguimento de Bartsch (2004:27-28), a existéncia de uma tao grande variacáo no uso děste termo pode estar relacionada com: (i) a dificuldade encontrada em delimitar os diferentes tipos de combinacoes de palavras; (ii) o facto de as combinatórias consistirem num fenómeno linguístico que parece situar-se na fronteira entre a gramática e o léxico (o que dificulta a elaboracáo de uma definicáo formal e sistemática do ponto de vista da teoria linguística, uma vez que parece nao ser possível uma explicacáo baseada unicamente em princípios sintácticos e semánticos já estabelecidos); (iii) o facto de existirem diferentes abordagens děste fenómeno, nomeadamente a abordagem baseada em frequéncias e a abordagem fraseológica. No ámbito destas duas abordagens foi proposto um vasto numero de definicoes e de tipologias, que se discutirao nas seccoes 3.1 e 3.2. 3.1 A abordagem baseada em frequéncias A abordagem baseada em frequéncias foi inicialmente desenvolvida por J. R. Firth. Ainda que possa nao ter sido o pioneiro no uso do termo combinatória (com o significado de combinacáo frequente e relativamente fixa de palavras), Firth foi, certamente, o autor que o definiu do ponto de vista teórico e que mais o divulgou, contribuindo, assim, para o aumento do interesse pelo estudo das relacoes sintagmáticas. De um modo geral, pode dizer-se que esta abordagem encara as combinatórias como um fenómeno evidenciado pela estatística, definindo-as como uma combinacáo frequente e relativamente fixa de palavras, que podem ocorrer a uma čerta distáncia. Contudo, a observacáo das análises efectuadas por diferentes autores mostram a existéncia de alguma variacáo no que respeita a determinados aspectos. Combinatórias e Coligacoes Ainda que muitos autores usem indiscriminadamente o termo combinatória para referir qualquer tipo de combinacäo frequente de palavras, também é possível encontrar análises que fazem urna distincäo a nível lexical e gramatical. A falta de urna teoria linguística que conseguisse descrever adequadamente o fenómeno das combinatórias conduziu Firth (1957) ä sugestäo da introducäo de um nível combinatorial. Deste modo, ainda que o evento da linguagem deva ser considerado como um todo, o autor propóe que, do ponto de vista da descricäo linguística, ele assente em quatro níveis de significado (levels of meaning): (i) contexto situacional; (ii) combinatórias; (ii) sintaxe; (i v) fonologia e fonética. O autor reconhece, assim, que a combinacäo de palavras apresenta restricóes näo só a nível gramatical, mas também a nível combinatorial e faz a distincäo entre coligacôes -que correspondem a combinacóes de palavras sintacticamente restringidas do ponto de vista da subcategorizacäo (afraid of) - e combinatórias -que correspondem a co-ocorréncias significativas de determinadas palavras com urna čerta proximidade. Urna distincäo semelhante é também adoptada por Sinclair (1991). Dištancia No que respeita ä dištancia a que as palavras que constituem urna combinatória se podem encontrar, também é possível encontrar alguma variacäo. Firth (1957) näo faz nenhuma referencia ä dištancia, classificando como combinatórias quer associacóes contíguas de palavras (hold life in contempt), quer palavras que podem näo ocorrer contiguamente (como dark e night — one dark and cold night; the night is dark). Mitchel (1971) defende que urna combinacäo de palavras pode ultrapassar fronteiras frásicas, dando como exemplo: He didn't want the job. I don't think he even applied. Finalmente, (Sinclair, 1991:170) é o único autor que define objectivamente a dištancia a que as palavras podem ocorrer: "The usual measure of proximity is a maximum of four words intervening". Lexemas vs. palavras derivadas O tipo de elemento que constitui a combinatória é outra questäo que também pode variar de autor para autor. Enquanto que Firth (1957) dá exemplos diferentes de combinatórias para cada forma flexionada da palavra get (gets, got, getting), sugerindo que para cada forma diferente existe urna combinatória diferente, Haliday (1961) e Mitchel (1971) defendem que urna combinatória é constituída pelo lexema (ou raiz) e por todas as suas formas derivadas (expressóes como a strong argument, he argued strongly, the strength of the argument e his argument was strengthened sao consideradas instancias da mesma combinatoria). Frequencia Ainda que esta abordagem encare as combinatorias como uma combinacao frequente de palavras, alguns autores, como Firth (1957) e Sinclair (1991) fazem a distincao entre combinatorias habituais ou significativas (se ocorrerem mais frequentemente) e combinatorias idiossincraticas ou casuais (se ocorrerem mais esporadicamente). Tambem Greenbaum (1970) propoe a distincao entre collocability (para potenciais coocorrencias de palavras) e collocation (para expressoes que coocorrem frequentemente). O recurso a analise de textos reais da lingua, defendido por Sinclair, permite nao so obter facilmente dados sobre a frequencia de uma determinada combinacao de palavras, como tambem observar que diferencas minimas no significado de uma palavra (incluindo sinonimos quase equivalentes) correspondem, normalmente, a diferentes padroes combinatoriais. Relates Sintagmaticas e Semanticas Ainda que Firth (1957) considerasse o estudo lexical separado da gramatica, os seus seguidores, nomeadamente Haliday (1961), Mitchel (1971) e Greenbaum (1970) comecam a dar pre Valencia as relacoes sintagmaticas entre os itens lexicais e a reconhecer a interdependencia entre a gramatica e o lexico. Ainda que considere que uma combinatoria e constituida por raizes, Mitchel (1971:52) realca o facto de a analise gramatical ter sido fundamental para a descoberta de que nem todas as palavras de uma combinatoria ocorrem em todos os padroes morfossintacticos teoricamente possiveis: "heavy damage is possible as well as damage heavily and heavily damaged, but not *heavy damaging, whereas heavy drinking is possible as well as drink heavily, but not *heavily drunk". Apesar de considerar as relacoes gramaticais como as mais importantes, este autor destaca-se por ter tambem em atencao as relacoes semanticas no estudo das combinatorias, tentando estabelecer um continuum entre combinatorias, compostos e expressoes idiomaticas. Tambem Greenbaum (1970:11) defende uma abordagem integrada, uma vez que tambem sugere que o estudo das combinatorias deve ter em conta quer os factores semanticos, quer, principalmente, os sintacticos: "for an analysis of collocations that is divorced from syntax, (...) it does not seem possible to establish a criterion for determining whether two items are collocating". O Principio Idiomatico De todos os autores que trabalharam nesta abordagem, Sinclair foi aquele que mais anos dedicou ao estudo das combinatorias. (Sinclair, 1991:115) estabelece dois principios organizadores da lingua, simultaneamente alternativos e complementares, a partir dos quais é possível interpretar o significado das palavras: (i) o principio da livre escolha, em que o falante tern como única restricao a gramaticalidade do enunciado; (ii) o principio idiomatico, em que o falante tem á sua disposicao um grande numero de grupos de palavras pré-construídos (ainda que possam apresentar alguma variacao, nomeadamente a nivel lexical, flexional ou de ordem das palavras). Efectivamente, tem-se considerado que o falante utiliza as capacidades de memória e as rotinas, sendo os seus discursos preferencialmente constituidos pelas escolhas correspondentes ao principio idiomatico. E, para o autor: "Collocation (...) illustrates the idiom principle". 3.2 A abordagem fraseológica A abordagem fraseológica, inicialmente desenvolvida pelos estudiosos russos, considera as combinatorias como um tipo particular de unidade fraseológica. Esta abordagem propoe uma descricao sistemática da categorizacao das unidades fraseológicas elaborada a partir de uma escala de idiomaticidade. Contudo, o facto de as fronteiras entre as diversas categorias nao serem bem delimitadas (existindo principios unificadores entre elas), implica que a categorizacao das unidades fraseológicas sej a elaborada com base num continuum. Pelo que se pode observar através das diferentes análises, os principals principios unificadores parecem ser, por um lado, o desvio (maior ou menor) do significado totalmente composicional (que implica uma decrescente "analisabilidade") e, por outro, uma crescente fixidez das expressoes (incluindo aquelas que tern significado composicional). Este continuum é baseado numa perspectiva sincrónica e parece representar os graus de estabilidade e de institucionalizacao com os quais as expressoes estao armazenadas no léxico mental. Nesta abordagem, é possível distinguir quatro grandes categorias, como se pode observar na tabela 2, adaptada de Poulsen (2005:58). Note-se, contudo, que este modelo-base de categorizacao pode ser interpretado e completado de modo diferente pelos diversos autores. Categoria composicional analisável combinacao fraseológica Associates Sim Sim Nao Livres Combinatorias Parcialmente Sim Sim Idiomas Nao Sim Sim Figurativos Idiomas Puros Näo Näo Sim Tabela 2. Categorizacáo geral das unidades fraseológicas As associacoes livres correspondem a expressoes com significado totalmente composicional, onde os seus elementos se podem combinar livremente com outros elementos (drink tea/water/wine). Normalmente nao sao consideradas unidades fraseológicas (nem devem estar listadas nos dicionários (Benson et alii, 1986a)). As combinatórias sao normalmente entendidas nesta abordagem como expressoes que těm um significado parcialmente composicional. De acordo com a maior parte dos autores, pelo menos uma das palavras que compoem a combinatória é livremente escolhida com base no seu significado literal, enquanto que pelo menos outra apresenta um significado figurativo, resultante da combinacao. Normalmente, a palavra com significado figurativo nao pode ser substituida por um sinónimo (heavy smokerl*weighty smoker; strong coffeel*powerfull coffee;). Os idiomas figurativos correspondem a expressoes que tern tanto um significado figurativo, como um significado composicional (to catch fire). Note-se, contudo, que o reconhecimento do significado literal pode estar dependente nao só do conhecimento linguistico do falante, como de qualquer outro factor externo (idade, cultura, experiéncia de vida, etc.). Os idiomas puros correspondem a expressoes com significado totalmente idiomático, uma vez que nao pode ser calculado através do significado dos elementos que as compoem (spill the beans). A tabela 3, em baixo, ilustra as categorizacoes das combinacoes de palavras defendidas por alguns dos autores mais proeminentes desta abordagem (bem como os diferentes termos utilizados) e a variacao que apresentam em relacao ao modelo-base. modelo-base Cowie (1994) Mel'cuk (1996) Benson etalii (1986b) Hausmann (1989) Associates Livres open collocations free combinations free combinations co-creation/free combinations Combinatórias restricted collocations semi-vhrasemesl collocations • collocations • transitional collocations collocations/affines Idiomas Figurativos figurative idioms Idiomas Puros pure idioms full vhrasemeslidioms idioms idioms Tabela 3. Categorizacáo das unidades fraseológicas de acordo com alguns autores Como se pode observar, o modelo-base representa na perfeicao a categorizacáo de Cowie (1994). Note-se, no entanto, que o autor faz ainda uma distincao mais geral entre o que denomina formulae (combinacoes de palavras ao nível da frase, com funcao pragmática - how are you?) e composites (combinacoes de palavras abaixo do nível da frase, com funcao léxico-sintáctica). As combinacoes de palavras apresentadas na tabela 3 correspondem a diferentes tipos de composites. A par de Cowie (1994), também Mel'cuk (1996) faz uma distincao mais geral entre o que denomina pragmatemes (combinacoes de palavras semanticamente composicionais mas pragmaticamente restringidas, uma vez que envolvem restricoes combinatoriais - pode ocorrer no talking please, mas nao *keep silent please) e semantic phrasemes (expressoes cujo significado nao é composicional). As combinacoes de palavras apresentadas na tabela 3 correspondem a diferentes tipos de semantic phrasemes. Como se pode observar, o autor nao prevé os idiomas figurativos na sua categorizacáo. Existe, no entanto, outro tipo de unidade fraseológica denominada quasi-phrasemel quasi-idiom. Contudo, esta categoria nao parece diferenciar-se muito da das combinatórias, uma vez que, segundo o autor, também corresponde a combinacoes de palavras onde o significado pode ser somente parcialmente obtido atraves dos elementos que as compoem (start a family). Inerente a proposta de classificacao das combinacoes de palavras de Mel'cuk encontra-se a sua teoria de Funcoes Lexicais (LFs), que pretende captar as relacoes existentes entre os seus constituintes em diferentes niveis de descricao linguistica. Para qualquer unidade lexical, as LFs pretendem especificar todos os seus potenciais coocorrentes (cf. Mel'cuk, 1984). No que respeita a Benson et alii (1986a, 1986b), como se pode ver na tabela 3, as definicoes de associacoes livres e de expressoes idiomaticas correspondem as apresentadas para o modelo-base. Contudo, no ambito da classe das combinatorias, baseando-se em criterios de coesao e frequencia, sao distinguidas collocations de transitional collocations. O primeiro caso diz respeito a expressoes frequentes que apresentam um certo grau de coesao, como warmest regards e commit murder. No caso de warmest regards pode considerar-se que pode ser incluido na classe de combinatorias defendida por Cowie e Mel'cuk (uma vez que tern um significado parcialmente composicional, nao sendo possivel substituir warmest por expressoes equivalentes - *hot regards; *hearty regards). Contudo, no caso de commit murder, apesar de ser uma expressao com significado composicional, os autores consideram que tambem apresentam um certo grau de coesäo, uma vez que commit apresenta restricöes relativamente aos seus coocorrentes (selecciona somente nomes com significado de 'crime' ou 'transgressäo'). As transitional collocations correspondem a expressöes com mais 'transparencia' semäntica do que as expressöes idiomäticas, mas com menos possibilidade de variacäo do que as combinatörias. Säo, ainda, distinguidas as combinatörias lexicais (que, por sua vez, se subdividem de acordo com as classes gramaticais dos elementos que as compöem) das combinatörias gramaticais (que, por sua vez, se subdividem de acordo com os padröes gramaticais dos seus elementos). Relativamente a Hausmann (1989), para alem de considerar a existencia de combinacäo de palavras com um certo grau de convencäo e restricäo (faire une promenade) - que se enquandram no modelo-base - este autor tambem considera a existencia de um tipo particular de combinacäo, denominada counter-creations/counter-affines e que corresponde ä coocorrencia de uma palavra com outras com as quais normalmente näo se combina (la route se rabougrif). Do ponto de vista lexicogräfico, defendendo que as combinatörias devem ser inseridas debaixo do constituinte que constitui o töpico da combinacäo, o autor considera que estas säo constituidas por uma base (que corresponde ao elemento que e semanticamente autönomo e seleccionado em primeiro lugar pelo falante) e por um coocorrente (que corresponde ao elemento que e seleccionado em funcäo da base e que so ao combinar-se com esta e que recebe a sua "identidade semäntica", ou seja, o seu significado exacto - em pack of dogs e cigarette pack, o coocorrente pack e um constituinte polissemico que apresenta diferentes significados de acordo com as bases a que se junta). A base e, assim, o constituinte dominante e aquele que apresentarä maior interesse na consulta de um dicionärio. 4 Trabalho em curso As diferentes anälises apresentadas ilustram urn pouco a variacäo existente entre os diversos autores na distincäo dos diferentes tipos de combinacöes de palavras (o termo combinatöria e, inclusivamente, värias vezes utilizado para referir combinacöes de palavras distintas). Tendo em conta a natureza multifacetada deste fenömeno, a sua anälise so parece ser possivel atraves da combinacäo de criterios como a frequencia e a anälise intensiva de todas as suas propriedades linguisticas (nomeadamente sintäcticas (fixidez), semänticas (idiomaticidade), fonolögicas (com influencia na ordern das palavras), lexicais (tipo de constituintes e paradigmas em que se inserem -hiperonímia, homonímia, sinonimia, etc.), gramaticais (co-ocorréncia sistemática com determinado tipo de elemento ou construcao), distribucionais (co-ocorréncia sistemática de uma palavra com outras de forma continua ou descontinua), discursivas (associacoes que ocorrem mais num determinado registo de lingua do que noutro) e pragmáticas. Deste modo, do ponto de vista léxico-sintáctico, os dados do corpus analisados até á data mostraram uma grande variacao a nível sintáctico e lexical. Na verdade, a ocorréncia de expressoes totalmente fixas nao é tao frequente quanto se poderia esperar. Mesmo no que respeita a expressoes aforisticas (supostamente as mais rigidas do espectro), é possivel encontrar variacao. A criatividade lexical dos falantes resulta na ocorréncia de expressoes como as encontradas no corpus e apresentadas em (1). no poupar é que está o ganho (4 ocorr.) no anunciar é que está o ganho (1 ocorr.) no atacar é que está o ganho (1 ocorr.) no descontar é que está o ganho (1 ocorr.) no prejuizo é que está o ganho (1 ocorr.) no esperar é que está o ganho (1 ocorr.) no cooperar é que está o ganho (1 ocorr.) no comparar é que está o ganho (1 ocorr.) no economizar é que está o ganho (1 ocorr.) no provar é que está o ganho (1 ocorr.) Como também se pode observar nos exemplos em (1), a expressao no poupar é que está o ganho é a que tem, de facto, o maior numero de ocorréncias (4), continuando a ser reconhecida como a expressao institucionalizada que os falantes těm armazenada no seu léxico mental. Contudo, apesar da sua institucionalizacao e reconhecida fixidez, é possivel "brincar" a nível lexical, construindo expressoes semanticamente equivalentes. Os tipos de variacao mais frequente correspondem a fenómenos de: (i) flexao (esfregavaml esfregou as máos de contentamento); (ii) passivizacao (correr riscoslforam corridos riscos); (iii) relativizacao (correr riscoslos riscos que correm); (i v) nominalizacao (argumento fortel a forga do argumento); (v) permuta (pór em causa [algo]/pór [algo] em causa); (vi) possessivacao (estar nas máos de \alguém\l estar nas [poss] máos); (vii) insercao de artigos com contraccao de preposicoes (estar atento alestamos atentos ao/estivemos atento s áquela); (viii) insercao lexical (alvo de críticaslalvo de fortes críticas); (ix) variacao lexical (onda/maré/vaga de consternagáo). Do ponto de vista semántico a identificafao de uma expressao idiomática (cujo significado nao pode ser calculado através dos significados dos seus constituintes) nem sempře é uma tarefa tao linear quanto pode parecer. Ainda que se defenda que estas expressoes obedecem a certas propriedades (opacidade e "nao-analisabilidade" semanticas, fixidez e institucionalizacao), na verdade, estas podem apresentar alguma variacao. A interpretacao de uma determinada expressao pode variar de falante para falante, por influencia de varios factores (enquanto que muitos falantes considerarao a expressao esticar o pernil totalmente opaca, outros identificarao facilmente o seu significado literal). Uma vez que o grau de lexicalizacao e de institucionalizacao de uma expressao resulta de um processo gradual, e possivel encontrar uma determinada combinacao de palavras com diferentes graus de coesao. Neste sentido, a expressao fazer a cama pode ser: (i) uma combinacao livre, com significado composicional {construir a cama); (ii) uma expressao fixa, institucionalizada, mas ainda com significado composicional {arranjar a cama); (iii) uma expressao altamente lexicalizada, com significado nao-composicional (tramar alguem). No que respeita ao criterio da frequencia, ainda que ignorado por alguns autores, parece que nao pode ser deixado de parte, uma vez que se torna essencial na identificacao de certas associacoes de palavras, como as associacoes privilegiadas -expressoes cujo significado e totalmente composicional, mas que se tornaram estilisticamente idiossincraticas e preferiveis a outras, igualmente possiveis no mesmo contexto (trabalho drduo, arfresco ou chuva torrencial). Atraves deste criterio e possivel, tambem, observar que certas expressoes apresentam uma preferencia na ordem dos seus constituintes (fixos e moveis, publicas e privadas, preto e branco). O recurso a dados do corpus fornece, assim, informacao importante para a analise das associacoes de palavras, uma vez que torna visiveis certos aspectos que, de outro modo, poderiam passar despercebidos (como a variacao lexical de expressoes, como em (1), que, a primeira vista, seriam consideradas como totalmente fixas). 5 Trabalho futuro Apos a analise das principals associacoes de palavras e do estabelecimento de uma tipologia, este trabalho tern tambem como objectivo criar uma proposta de seleccao e de tratamento destas associacoes nos dicionarios de portugues. Para alem da area da lexicografia, os resultados deste estudo poderao constituir, ainda, uma fonte de informacao importante para areas como a psicolinguistica, a linguistica computacional, a traducao e a didactica do portugues. 6 Agradecimentos Estudo financiado pela Fundacäo para a Ciéncia e a Tecnologia (SFRH/BD/24905/2005). Referéncias A. P. Cowie. 1994. "Phraseology". In Asher, R. E. (ed.). The Encyclopedia of Language and Linguistics, Pergamon. Oxford, pp. 3168-3171. F. J. Hausmann. 1989. "Le dictionnaire de collocations". In F. J Hausmann, et alii (eds.). Wörterbücher, dictionaries, dictionnaires. Ein internationals Handbuch zur Lexikographie, de Gruyter. Berlin, pp. 1010-1019. I. Mel'cuk. 1984. Dictionnaire explicatif et combinatoire du frangais contemporain. Les Presses de L'Universitě de Montreal. Canada. I. Mel'cuk. 1996. "Lexical functions: A tool for the description of lexical relations in a lexicon" In L. Wanner, (ed.). Lexical Functions in Lexicography and Natural Language Processing. Studies in Language Companion Series. John Benjamins. Amsterdam/Philadelphia, pp. 37-102. J. Firth. 1957. "A Synopsis of Linguistics Theory 1930-1955". Studies in Linguistics Analysis. Oxford Philogical Society. J. Sinclair. 1991. Corpus, Concordance and Collocation. Oxford University Press. Oxford. K. W. Church & P. Hanks. 1989. "Word Association Norms, Mutual Information and Lexicography". Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. Vancouver. Canada, pp. 76-83. M. A. K. Halliday. 1961. "Categories of the theory of grammar". Word 17. pp. 241-292. M. E. Benson et alii. 1986a. The BBI Combinatory Dictionary of English: a guide to word combination. John Benjamins. Amsterdam/Philadelphia. M. E. Benson et alii. 1986b. Lexicographic Description of English. John Benjamins. Amsterdam/Philadelphia. N. Nesselhauf. 2004. "What are collocations?". In D. J Allerton et alii (eds.). Phraseological Units: basic concepts and their application. International Cooper Series in English Language and Literature, vol. 8. Schwabe Verlag Basel. Switzerland, pp. 1-21. S. Bartsch. 2004. Structural and Functional Properties of Collocations in English. A corpus study of lexical and pragmatic constraints on lexical co-occurrence. Gunter Narr Verlag Tübingen. Germany. S. greebaum. 1970. Verb-Intensifier Collocations in English. An Experimental Approach. Mouton. S. Poulsen. 2005. Collocations as a language resource. A functional and cognitive study in English phraseology. Ph.D. Dissertation. Denmark. T. F. Mitchell. 1971. "Linguistic 'goings-on': collocations and other lexical matters arising on the syntactic record". Archivům Linguisticum 2. pp. 35-69.