El Departament d'Universitats, Recerca i Societat de la Informació (DURSI), la Universitat de Barcelona (UB) i el TERMCAT han signat un conveni pel qual es desenvoluparà un sistema de correcció lingüística per a textos cientificotècnics anomenat SisCoTTerm.
El DURSI finança íntegrament el projecte amb una inversió de 114.000 euros, mentre que el TERMCAT prestarà assessorament terminològic i alimentarà el SisCoTTerm amb la seva base de dades i la del Servei de Llengua Catalana de la UB per a la correcció dels textos.
El SisCoTTerm, que es desenvoluparà amb programari lliure, prestarà serveis a les vint universitats catalanes integrades a la xarxa de l'Institut Joan Lluís Vives, si bé no es descarta prestar serveis a tercers a mig termini.
La Universitat de Barcelona haurà de desenvolupar el programari de manera que es detectin els termes que ja té disponibles i informi, mitjançant un document web, sobre les fonts de procedència de cada terme a més de donar una relació de paraules desconegudes i que són candidates a esdevenir un nou terme.
L'usuari, un cop resolgui l'estatus de mots desconeguts, haurà de poder-ho reflectir en el document i enviar-ho al Departament de Lingüística de la Universitat de Barcelona, com a gestor del sistema SisCoTTerm



publica contingutPublica contingut sobre programari lliure!
Aquesta obra està subjecta a una Llicència de Creative Commons
Més detalls
Algú pot donar més detalls d'aquest projecte?
Es tracta d'una eina d'ús exclusivament universitari o que pot beneficiar a tothom?
Quan estarà disponible?
Gràcies
Eduard
Més detalls...
El sisCoTTerm és un sistema d'ajut a la correcció de textos tècnics amb una alta freqüència de terminologia específica.
Es va fer una anàlisi de la problemàtica que tenia Edicions UB i es va detectar que el que endarreria més la correcció de textos universitaris era la terminologia.
A partir de la detecció d'aquesta problemàtica s'ha dissenyat el SisCoTTerm que fa el següent:
- El corrector li entra un text. El sistema el preprocessa i el converteix en format txt.
- Detecta en el text:
a - Tota la terminologia que conté i que el sistema disposa a la seva base de dades (d'aquí la participació del TermCat i dels Serveis Lingüístics de la UB). S'indica, per cada terme, qui l'ha reconegut
(UBTerm, TERMCAT, ....) i la seva freqüència en el text.
b - Errors d'estil més habituals (i que estan predefinits en el sistema)
c - Els noms propis, que tracta de manera específica
d - les paraules que "no ha trobat" i que són candidates a terme o a ser un error. Per a aquesta llista el corrector pot saber el context en què apareix cada paraula, pot donar-la d'alta com a terme tot i indicant l'àrea temàtica, la categoria i les seves variants.
e - Els termes que dóna d'alta el corrector, passen a una base de dades temporal, per a la seva validació per part de qui s'estipuli(TERMCAT, UB, ....)
Resultats:
1* El corrector té una llista de termes ja verificats que no cal que comprovi
2* El corrector ha detectat nous termes que passaran (o no) a formar part de la BDades del sistema
3* es pot portar, per part del TERMCAT, un control de la nova terminologia que va apareixent i de la seva normalització
4* Es convertirà en un únic repositori les dades terminològiques del català, fet que pot contribuir a la seva cohesió i facilita la feina als terminòlegs, correctors, autors, etc.
5* El corrector té la llista de possibles errors, de manera que els pot corregir i deixar el text "net" per a una darrera lectura, molt més orientada a la sintaxi.
Futur:
Tenim previst proposar un augment de les funcionalitats del sistema amb la inclusió de correcció gramatical.
oscar Soriano
Departament d'Universitats, Recerca
i Societat de la Informació
Secretaria de Telecomunicacions
i Societat de la Informació