Summary: | Nas definicións estatísticas das colocacións estas son descritas como
combinacións de palabras que coaparecen con máis frecuencia do que se
prediciría a partir das súas frecuencias respectivas e a lonxitude do texto. Dende
que Sinclair (1970) propuxo este suposto nos seus traballos leváronse a cabo,
con diferentes criterios e métodos, múltiples estudos experimentais con córpora
electrónicos dos que se obtiveron resultados diversos (p.ex. Berry-Roghe 1973;
Church e Hanks 1989; Clear 1993; Dunning 1993). No noso traballo aplícanse
métodos diferentes a un pequeno corpus literario da lingua española co fin de
avaliar, co mesmo texto e os mesmos criterios, cada unha das ferramentas
metodolóxicas que poderían ser empregadas na detección automática de
colocacións en base a datos estritamente cuantitativos, as cales poderían tamén
manexar locucións e mesmo refráns. // Statistical definitions of collocations describe them as combinations of words
which co-occur more often than their respective frequencies and the length of the
text would predict. Since Sinclair’s works (1970) proposed this assumption, many
experimental works, with different methods and criteria, have been carried out with
electronic corpora obtaining different results (e.g. Berry-Roghe 1973; Church &
Hanks 1989; Clear 1993; Dunning 1993). Our work applies different methods to a
small literary corpus in Spanish language, in order to evaluate, with the same text
and the same criteria, each methodological tool that could be involved in
automatic detection of collocations on the basis of strictly quantitative data, which
should deal also with idioms and even proverbs.