La lingüística computacional es un campo interdisciplinario que se ubica entre la lingüística y la informática: su fin es la elaboración de modelos computacionales que reproduzcan distintos aspectos del lenguaje humano.
Cabe decir que la LC no es un ámbito exclusivo de centros académicos, sino que, en rigor, su impulso y avance son protagonizados especialmente desde la industria privada. En efecto, las empresas que se dedican a la informática reconocieron hace mucho tiempo que el procesamiento automático del lenguaje humano era uno de los principales campos de desarrollo del futuro.
La primera computadora electrónica se construyó en los Estados Unidos, como resultado de la necesidad de transportar gran número de cálculos matemáticos, a una altísima velocidad, vinculados con los sistemas de armas en la Segunda Guerra Mundial.
Así, el término “computadora” describe con precisión el empleo principal de las primeras máquinas; sin embargo, si bien actualmente las aplicaciones aritméticas continúan siendo importantes en áreas científicas y tecnológicas, gran parte del potencial de las computadoras se dirige a problemas que, si bien involucran una dimensión cuantitativa, no usan números como fuente principal de datos, sino insumos lingüísticos, es decir, trabajo de investigación sobre las distintas lenguas naturales.
Los orígenes de la lingüística computacional pueden ubicarse en los finales de la Segunda Guerra Mundial, cuando distintos equipos científico-técnicos de Estados Unidos y la Unión Soviética comenzaron a trabajar en diversos proyectos para elaborar programas de traducción entre el inglés y el ruso: los servicios de inteligencia y las fuerzas armadas de ambos países tenían un interés especial en esos proyectos y, por ese motivo, fueron los principales inversionistas por mucho tiempo. Durante los años 40 y 50 se produjeron importantes avances en dos áreas que resultaron claves para las tecnologías de procesamiento de lenguaje natural: la teoría de los autómatas, que se originó en los trabajos de Alan Turing (uno de los padres de la computadora), y los modelos de teoría de la información, que surgieron de los trabajos de Claude Shannon, quien aplicó la teoría de la probabilidad de procesos de Markov para desarrollar autómatas que procesaran el lenguaje humano. A finales de los años 50 las investigaciones fueron concentrándose en dos campos, el simbólico y el estocástico (referido al azar). Dentro del primero pueden mencionarse dos corrientes importantes: aquella que se interesó principalmente por el análisis sintáctico, liderada por Noam Chomsky, otros lingüistas formales y científicos de la computación; y la orientada a la inteligencia artificial, en la que se destacan Marvin Minsky y Claude Shannon. El campo estocástico ha estado representado principalmente por los ingenieros electrónicos, quienes trabajan mediante estadísticas y probabilidades, y de cuyas investigaciones surgió el método de Bayes para el reconocimiento óptico de caracteres. La traducción automática sufrió un revés importante cuando en 1965 la Academia de Ciencias publicó un informe en el que se describían los magros resultados obtenidos hasta ese momento: como consecuencia disminuyeron drásticamente los fondos para las investigaciones y la traducción automática se limitó a unos pocos proyectos en Europa y Asia. En las décadas subsiguientes el interés se dirigió a la construcción de corpora textuales, especialmente en inglés (ver lingüística de corpus), al desarrollo de distintos lenguajes de programación con insumos de la lingüística teórica (uno de los más relevantes fue PROLOG) y de distintos programas para el análisis morfológico y sintáctico (ver analizadores básicos). Indudablemente, a partir de los años 90 la revolución de internet tuvo como efecto principal la necesidad de perfeccionar las tecnologías para el procesamiento automático del lenguaje, por lo cual en la actualidad numerosas empresas y centros académicos del mundo desarrollado trabajan afanosa y competitivamente en este campo.
Los lingüistas computacionales desarrollan productos informáticos para el análisis automático de la fonética, la fonología, la morfología, la sintaxis y la semántica. Otro campo de relevancia en la actualidad es la generación de lenguaje natural –o textos– a partir de conceptos complejos, que se modelizan en representaciones semánticas, las que, a su vez, son procesadas por computadoras y transformadas en textos en una lengua dada. Además, los lingüistas computacionales intentan elaborar sistemas que hacen posible el diálogo entre personas que hablan lenguas diferentes (traducciones automáticas) o entre humanos y máquinas (sistemas expertos, sistemas de diálogo). En consecuencia, algunas de las áreas de trabajo más importantes en lingüística computacional son el etiquetamiento morfológico (o tagging), el análisis sintáctico (o parsing) (ver analizadores básicos), los procesos de interpretación semántica, la traducción automática (para dominios de conocimiento limitados y géneros muy estandarizados) (ver correctores y traductores automáticos), las técnicas de reconocimiento de voz o conversión de texto a voz (ver programas de síntesis y reconocimiento de voz), la recuperación inteligente de información, los sistemas de diálogo y sistemas expertos (ver Otros programas complejos).
Estas aplicaciones de la interrelación entre lingüística e informática pueden ordenarse según el grado de complejidad que demandan sus objetivos (Cabré, 1993). En un primer nivel, pueden mencionarse aquellas aplicaciones que se limitan a emplear los datos lingüísticos como meras formas, sin ningún tipo de manipulación, como por ejemplo, los sistemas de tratamiento de textos, sistemas de edición automática, etc. En segundo término, se ubican las herramientas lingüísticas automatizadas que emplean personas relacionadas profesionalmente con el lenguaje y la comunicación, por ejemplo, sistemas de gestión de bases de datos, diccionarios automatizados, sistemas de traducción, redacción, corrección o enseñanza asistidos por computadora. Otro tipo de aplicaciones está representado por los sistemas automáticos que manipulan los datos para analizarlos o para transformarlos en datos de otras características como analizadores, verificadores, lematizadores, clasificadores, programas de tratamiento estadístico. Por último, en el nivel más alto de complejidad se sitúan los sistemas expertos, es decir, que actúan con “inteligencia” y son capaces de sustituir en alguna medida la intervención humana, como los generadores de textos, los sistemas de traducción automática, los sistemas de vaciado terminológico de textos, entre otros.