Archive for the ‘Translation & linguistics’ Category

Did Elizabeth Windsor really have a sex change? Automatic translation of speech

Monday, April 26th, 2010

There have been many articles recently, like this one, about advances in the automated translation of speech, and I’ve even read stories about armies using them. I find the latter news very worrying.

Automated translation of speech basically combines two previously existing technologies: speech recognition and machine translation. The problems with the latter are well publicised, and despite the advances made, there are still many problems with machine translation. Google’s corpus-based translations mean that sentences tend to be more coherent nowadays, but those coherent sentences are often incorrect.

Voice recognition has come on leaps and bounds recently. I use it myself when translating. But as every user of such technology knows, you have to train it to your voice, and even then it makes mistakes that you have to correct. The article from The Times I’ve provided a link to discusses the problem of understanding “high-speed Glaswegian slang”. Current technology would no doubt be absolutely useless at understanding this. But what about more standard forms of English?

I decided to have a look at how Google’s new speech-recognition tool would cope with the Queen’s English — literally the Queen’s English - a speech made by Elizabeth Windsor to parliament in 2009. As I expected, because the tool is not trained to the individual’s voice, the results are pretty awful. To see the video, click on this link. Pause the video, move your mouse over the “CC” button at the bottom of the video, then click on “Transcribe Audio” (not on “English”, as that just gives you captions provided by a human), click on OK, and the video begins. Mrs Windsor tells us how she “was a man that’s in the house of common”.

We can, if we wish, have these captions translated into another language. Just go to the “CC” box and click on “Translate Captions”, then choose your language. But the machine translation will only translate what it’s asked to translate, so we are still likely to get told that Mrs Windsor is a man. The three other languages I work with begin with the following:

Catalan: “Jo era un home que està a la Cambra dels Comuns”
Spanish: “Yo era un hombre que está en la Cámara de los Comunes”
French: “J’étais un homme qui est dans la Chambre des communes”

As you can see, there is a very high risk of misunderstanding when using this technology. If the army wants to communicate with people in other languages, I’m afraid they’re just going to have to hire trained interpreters.

¿Qué significa el goal average?

Monday, March 22nd, 2010

Para traducciones profesionales, consulten mi web profesional en www.timtranslates.com.

Según la Fundéu BBVA (antiguamente Fundación del Español Urgente), la correcta españolización del término inglés goal average es golaveraje. Cita el Diccionario Panhispánico de Dudas (importante obra de referencia para la lengua española), según el cual el término golaveraje “diferencia de tantos marcados y recibidos y se utiliza para deshacer el empate entre equipos con el mismo número de puntos en la clasificación”. Aunque la Fundéu BBVA admite el uso de golaveraje, recomienda “emplear diferencia (o promedio) de goles, de puntos o de tantos.”

Deja entender que diferencia y promedio se pueden utilizar indistintamente, como también goles, puntos y tantos.

Creo que hay bastantes lagunas en la nota de la Fundéu BBVA, las cuales intentaré exponer.

Empecemos por explicar de donde surge la necesidad de esta terminología. En las ligas de fútbol, si los dos primeros equipos tienen los mismos puntos, el reglamento especifica, por orden de importancia, los criterios que se utilizarán para desempatar a los dos equipos.

Muchos seguidores de fútbol se sorprenderían al ver la clasificación final de la liga española por la temporada 2006/07:

Equipo J G E P GF GC GA Pts
Real Madrid 38 23 7 8 66 40 +26 76
Barcelona 38 22 10 6 78 33 +45 76

La columna GA es el número de goles marcados a favor del equipo menos el número de goles marcados en contra. Es lo que en inglés llamamos la goal difference, es decir, la diferencia de goles. Mucha gente se sorprendería al ver esta clasificación, pues en la mayoría de ligas la diferencia de goles es el primer criterio que utiliza para desempatar a dos equipos con los mismos puntos. En los medios de comunicación en español (y los medios que copian las formulaciones españolas en otras lenguas, como el catalán o el gallego), se suele hablar de goal average, que viene del inglés (a pesar de que average se suele pronunciar como si fuera una palabra francesa) aunque no sea el término utilizado en inglés para este concepto. En inglés significa promedio de goles.

En la liga española, si hay dos equipos empatados, el primer criterio que se aplica es el del resultado total de los dos encuentros entre dichos equipos. Por eso el Real Madrid ganó la liga en 2006/07, y no el Barça, que sí que habría ganado si se aplicaran los mismos criterios que en muchos otros países. Pero curiosamente, aquella temporada oímos y leímos que el Real Madrid “ganó por el goal average“, cosa que parece una contradicción si consultamos la liga, según la cual el “GA” del equipo catalán fue de +45 y el del equipo madrileño solo fue de +26.

Para diferenciar entre estos dos tipos de goal average, a veces se distingue entre goal average particular (en este caso, en inglés hablaríamos de “the results between the teams level on points”, es decir, los resultados entre los equipos con los mismos puntos) y goal average global, pero no se suele hacer esta distinción.

Si en inglés decimos goal difference, y no goal average, ¿cómo es que en español se ha adoptado este anglicismo?

No sé cuando entró este anglicismo al español. No pude encontrar ningún ejemplo en el Corpus Diacrónico del Español. Pero su introducción al español probablemente fue anterior a los años setenta del siglo pasado. De hecho, antes de los años setenta, sí que se hablaba de goal average en inglés cuando había que desempatar a equipos con el mismo número de puntos. Sin embargo, entonces se refería a otro concepto.

Como sugiere la palabra “average”, se calculaba esta cifra haciendo una división, y no una sustracción. El goal average era el resultado de dividir el número de goles a favor por el número de goles en contra. En 1930/31, por ejemplo, empataron por puntos el Athletic Club de Bilbao, el Rácing Santander y el Real Sociedad, pero ganó el campeonato el Athletic Club de Bilbao, con un promedio de goles de 2,2, contra 1,3 y 1,0 para el Rácing Santander y el Real Sociedad respectivamente.

Por tanto, el anglicismo goal average, o goal averaje, se utiliza en los medios de comunicación españoles para tres conceptos diferentes:

  • Los resultados entre equipos empatados por puntos (sistema actual de la liga española)
  • La diferencia de goles (sistema de la mayoría de ligas del mundo)
  • El promedio de goles (sistema antiguo), hablando de contextos históricos

En vez de insistir, simplemente, en que hay que evitar goal average, ¿no sería mejor que la Fundéu BBVA explicara estas diferencias y propusiera terminología coherente para distinguir entre los tres conceptos? Propone utilizar diferencia y promedio indistintamente, y parece decirnos que también hablar de diferencia de puntos, pero teniendo en cuenta que en el campeonato los puntos y los goles no tienen nada que ver el uno con el otro es una propuesta, a mi entender, no muy buena.

El artículo del Diccionario panhispánico de dudas es un poco mejor, aunque deja entender que el inglés goal average significa diferencia de goles.

DownThemAll! for corpus-building

Wednesday, February 24th, 2010

For professional translations, see my business website at www.timtranslates.com.

DownThemAll! can be a useful tool for creating a large, relatively clean corpus in a short amount of time. In this article, I shall explain one way of using DownThemAll! via a Google search to create a corpus. This particular example involves downloading the texts from the BBC Food website to create a corpus of recipes, which would be useful for translating and editing texts on food. However, the important thing is the method, rather than the result, so even if you do not think you will use a corpus on food, you may still find it useful to follow through the instructions, since you can then use the same method to download texts from other websites.

The method described in this article requires the use of the Firefox browser. The method was developed using the Windows XP operating system, but should work on other operating systems.

Firefox is needed because we will download the texts using the Firefox extension DownThemAll!. Once you have opened Firefox, if you do not already have the DownThemAll! extension, download it from here. When prompted, restart your browser (the browser should open up again with the same pages open).

DownThemAll! allows us to download all the links we have selected on a page. If we go to the BBC Recipes page and enter “chicken” into the search box, we are taken to this page. From here, we could download all 15 recipes by selecting the recipes, then right-clicking and selecting “DownThemAll selection…”, as shown below (click on pictures to enlarge).

Food1

On the next screen you could then click on “All files”, select the folder to save the files to and click on “Start”. The problem with this method, however, is that we can only do 15 recipes at a time.

Downloading from Google

Google can display up to 100 results simultaneously (if anyone finds a search engine that makes it possible to display more results, please leave a comment), and we can target our search on the folder of the BBC website containing all the recipes, as follows:

  • Open a new tab (press ctrl+t), open up Google, and go to “Advanced search”.
  • Type +the as your search term (the plus sign tells Google to search for the word exactly as it is written, and not to ignore it as a frequent word). This should ensure we get a good range of types of recipe. If you wanted only fish or chicken recipes, then you could search for “fish” or “chicken” instead.
  • Change the number of results per page to 100.
  • We need to tell Google to search only within the folder containing the recipes. If you go back to the previous tab, where we searched for “chicken” in the BBC database, and move your mouse over one of the links to a recipe, you will see this folder, as shown below:

Food2

  • The part I have underlined in red in the above image appears in the URLs of all the recipes. This is what we will type into Google in the “Search within a site or domain” field. Our Google search should thus appear as follows:

Google Advanced Search

  • Execute the search.

Downloading the pages

  • On the results page, do not select anything, do a right-click, and click on “DownThemAll!…”.

  • In the DownThemAll! window, scroll down until you can see some of the links to the actual recipes, i.e. those links with descriptions resembling those underlined in red below:

DownThemAll!

We need to find a way of downloading only the recipes, and not the Google Images, Videos, Maps, etc. links, nor the “Cached” and “Similar” links, nor any other links other than the recipes. To do this we shall use the “Fast filtering” option.

  • Disable all the filters (”All files”, “Images”, etc.).
  • Click on the plus sign next to “Fast filtering”
  • In the “Fast filtering” box, click on the drop-down list and select the /(.mp3)$/ option. You can find more on the syntax used in the Help files, but basically this option is to select only mp3 files. In this example we want to download only “shtml” files, since our recipes contain this file extension (see the pink underlines above). Select the letters “mp3″ and change it to “shtml”, since all the files we want to download have the shtml file extension. The filter should now read /(.shtml)$/
  • We are going to use the renaming mask. The default mask (*name*.*ext*) means that pages will be saved with their current name and extension, so we would have files such as “theclassicroastturke_65538.shtml”. We are going to change the extension to “html”, since this will make it easier to clean our files once we’ve downloaded them. To do this, change the mask to *name*.html
  • Click on the folder (circled above in green) to select where you want to save the files. Make sure you create a new folder, since we’ll be downloading hundreds of files!
  • Your window should now look like the picture below, with the exception of the folder path (underlined below in pink), which depends on where you want to save the files. At the bottom of the window, as underlined below in red, it should say that you have 100 links selected.
  • Food5

  • Click on the “Start!” button, which will bring up the download window, and start the download.
  • Minimise the download window and go back to your Google search results in Firefox, then scroll to the bottom of the page and click on the number 2 to bring up results 101-200.
  • Once this page has opened, do a right-click, but this time click on “dTa OneClick!” instead of “DownThemAll!”. This will start downloading results 101-200, but using the same settings as for the previous download, so this time you won’t see the settings window. After about five seconds you should see the 100/100 in the download window change to 100/200.
  • You can go to the third page of Google results without waiting for the second page of results to stop downloading. Scroll down and click on the number 3, then once the page is opened, select the “dTa OneClick!” option again to download results 201-300.
  • Again scroll down to the bottom, but this time we’re going to speed things up by opening the next results pages in new tabs. Click on the numbers 4 to 10 one-by-one with the middle button (scroll wheel) of your mouse, or if you don’t have this button, hold the Ctrl key on the keyboard while you click on them. Go to the first of the new tabs and select “dTa One Click!”, then do the same for each of the remaining new tabs.

Google will not let us access more than 1,000 results, but 1,000 texts will give us a pretty good-sized corpus. If you want more than 1,000 texts, then try searching for another term (such as “chicken”) and downloading again. To avoid duplicates, save to the same folder, and if the “Filename conflict” box comes up, click on Skip/Cancel and select “Just for this session”. Once you have done this, all subsequent duplicates will be ignored.

Converting to plain text

If you open one of the files you’ve downloaded in Notepad, you’ll see that the files are not very clean, and are full of html code. However, programs exist to clean this. If you use Windows, you can clean this with the appropriately named HTML2TXT (please add a comment if you know of a tool that does the same thing for another operating system):

  • First, create a new folder somewhere to which we will export the cleaned files.
  • Download and install Bobsoft’s HTML2TXT from here.
  • When you launch the program, the “Unregistered Copy” window will appear. Click on “Try”.
  • Click on “Add folder”, and the select the folder where you’ve saved the recipes. (Don’t try “Add files”, as there are too many files for this.)
  • Click on the option to save the cleaned files to a new folder (highlighted in red below), then select “Click here to select” (highlighted in pink below) and choose the folder you created in the first step of this section.

Food6

  • Click on “Convert All” to convert the files. Don’t panic if the window freezes and you get a “Not Responding” message. Just be patient.
  • In the new folder you will find the cleaned txt files.

Because we’ve used the demo of HTML2TXT, you will find a short message at the top of each cleaned file. This shouldn’t be a problem for most uses of corpus analysis tools (unless you want, say, accurate word counts), but if you do want to completely clean the files, you can remove this message using cheap batch find/replace tools such as FileMonkey (cost $29).

If anybody knows of free tools that do the same as HTML2TXT or FileMonkey, please leave a comment.

You now have an almost-clean corpus of recipes that you can analyse using corpus-analysis tools such as AntConc .

These instructions can be adapted to create other corpora, but certain changes will be necessary. For example, we will not always have a single file extension (such as shtml) for all the files we want to download. I hope to add further tutorials explaining how to adapt this method for other corpora, at which point I will add a link to the bottom of this page.

Please use the comments section if you have any questions or comments to make about these instructions.

Servicios Profesionales de Reus - the latest false name by Maremagnum/MTM

Friday, February 19th, 2010

It looks like the latest name being used by MTM is Servicios Profesionales de Reus. They really need to invent more phone numbers if they don’t want to keep getting caught out!

A colleague translated 12,000 words for Servicios Profesionales de Reus, but has not been paid. Here’s the report I got:

Hola:

A una compañera de la Xarxa de Traductors i Intèrprets de la Comunitat
Valenciana (www.xarxativ.es), asociación a la que yo también pertenezco, le
contactó la siguiente empresa:

SERVICIOS PROFESIONALES DE REUS
BAIX DE SANT JOAN 5
43230 REUS (TARRAGONA)
977230366
El que habló con ella fue un tal ALFONSO CARMONA SOUSA.

Después de una prueba y pedirle un presupuesto, le enviaron una traducción
de 12.000 palabras. Una vez entregada, pidió varias veces el CIF para hacer
la factura, pero no le contestaban. Finalmente le dieron uno falso.

Por el número de teléfono, hemos averiguado que la empresa fantasma es la
temida MAREMAGNUM. Sé que se ha hablado mucho de ella en esta lista, así que
escribo en su nombre para contaros el caso y por si algún miembro de la
lista puede darle algún consejo.

Type the landline number into Google and you land on this. Type the mobile number into Google, and you land on a plethora of ads offering translation from and into many different languages by MTM/Maremagnum.

Spread the word to help prevent these crooks ripping more people off! And don’t give in to their threats!

Comunicado de Jueces para la Democracia

Wednesday, February 10th, 2010

Este comunicado fue publicado en varios diarios españoles el día 3 de febrero:

“La Sección Territorial de Madrid de Jueces para la Democracia quiere poner de manifiesto los gravísimos problemas que se están produciendo en la Administración de Justicia de la Comunidad de Madrid, en lo relativo a la designación de los traductores e intérpretes que intervienen en las actuaciones judiciales. Por este motivo REIVINDICAMOS que, en el nombramiento de traductores e intérpretes judiciales solicitados por jueces y magistrados, se tenga en cuenta que aquellos han de tener la formación y acreditación necesarias como intérpretes jurados y en su defecto, titulación superior en esta materia. Se quiere resaltar que las adjudicaciones a través de licitación pública, para la prestación de este servicio, hasta el momento se han revelado muy deficientes, al suponer en la práctica que la Administración Autonómica cede a terceros una serie de garantías individuales, procesales y constitucionales susceptibles de ser vulneradas por ausencia de ulterior control administrativo sobre dichas empresas, las cuales tienen una finalidad primordialmente lucrativa. Esta situación está provocando situaciones de indefensión a los ciudadanos extranjeros y nacionales que precisen de un intérprete o traductor, indefensión que debe ser evitada a toda costa por jueces y magistrados.”

Remember, remember - Recordem, recordem

Thursday, November 5th, 2009

For a bit of fun to mark the 5th November, I’ve translated the famous poem into Catalan. If you think you can do it in another language, please post it in the comments!

Original English:

Remember, remember the fifth of November:
The Gunpowder Treason and Plot.
I know of no reason why the Gunpowder Treason
Should ever be forgot.

Catalan translation:

Recordem, recordem el cinc de novembre:
Pólvora i conspiració!
Mai a la vida podem oblidar
Aquella traïció.

Què significa “match ball”?

Wednesday, September 9th, 2009

En els mitjans de comunicació en espanyol i en les llengües en què els periodistes no fan res més que copiar totes les estructures i expressions espanyoles (català i gallec), és molt comú l’ús de l’expressió “match ball” en les informacions esportives. En aquestes llengües, aquest terme es va començar a utilitzar en el tennis i esports semblants (esquaix, tennis de taula, badminton, etc.) per a referir-se a una situació en què un jugador només necessita un punt per a guanyar un partit.

Amb el temps, els periodistes van començar a fer servir aquest anglicisme en altres esports. En el bàsquet, per exemple, podríem llegir o sentir que “aquesta nit els Lakers tenen el primer ‘match ball’”. En aquest cas significa que ara aquest equip només necessita guanyar un partit més per a guanyar una sèrie (en el final de la NBA, per exemple, juguen fins a set partits i cal guanyar-ne quatre per a proclamar-se campió). En el futbol, diuen que un equip té un “match ball” si, guanyant un partit, es proclamaria campió de la lliga.

En tots aquests casos, l’anglicisme no tan sols és prescindible (quin problema hi ha amb “punt de partit” o “pilota de partit”) sinó també incorrecta. En anglès, emprem l’expressió “match point” quan un jugador necessita només un punt per a guanyar un partit. “Match ball” vol dir una altra cosa. Es refereix simplement a la pilota que s’utilitza durant un partit, i per tant s’empra més aviat en esports com el futbol o el bàsquet en què tradicionalment es jugava amb una sola pilota durant tot un partit. Si cerqueu “match ball” en el Google, veureu que totes les pàgines parlen de la pilota en sí. O sia, un “match ball” és una pilota, no un punt ni una oportunitat. Per tant, en comptes d’intentar demostrar el seu coneixement de terminologia esportiva en anglès, els periodistes que utilitzen aquest fals anglicisme haurien de parlar clar i català, i dir, senzillament, “punt de partit” o “pilota de partit”. Si aquests termes s’entenen perfectament, per què cal substituir-los per un terme anglès que, a més a més, no significa la mateixa cosa?

IRPF: no cobras menos por cobrar más

Tuesday, July 7th, 2009

Un tópico que se dice mucho hablando de impuestos es que si cobras más, puede resultar que cobras menos, al subirse el porcentaje de IRPF. Voy a intentar explicar porque no es el caso, al menos en España.

La Escala

La escala de IRPF en 2008 funciona de la siguiente manera (para simplificarlo, he combinado la parte autonómica y la parte estatal):

Hasta 17.707,20€ - 24%
Hasta 33.007,20€ - 28%
Hasta 53.407,20€ - 37%
A partir de 53.407,20€ - 43%

Lo típico que la gente dice es que si cobras 33.000, pagarás un 28% de impuestos (9240€), y por tanto te quedarás con 23.760€, mientras si cobras 33.010€, pagarás un 37% de impuestos (12.213,70€), y por tanto te quedarás con menos: 20.796,30€. Pero no es así.

Un ejemplo

Si cobras 33.010€, el cálculo de IRPF se hace de la manera siguiente:

Todo lo que cobras hasta 17.707,20 a 24%:
24% X 17.707,20 = 4.249,73€

Todo lo que cobras entre 17.707,20 y 33.007,20 (es decir, 15.300) a 28%:
28% X 15.300 = 4.284€

Todo lo que cobras encima de 33.007,20 a 43%:
43% X 2,80 = 1,20€

Sumando estas tres cifras (4249,73 + 4.284 + 1,20), llegamos a 8534,93€. Esta cifra corresponde a la suma de las casillas 689 y 690 de la declaración de la renta. Como podéis comprobar, solo pagas el porcentaje superior sobre la parte de tus ingresos que están por encima del umbral.

Pero, ¿no hay una cantidad que se puede cobrar sin pagar impuestos?

Sí. Te “devuelven” una parte de la cantidad que acabamos de calcular. La parte “gratis” corresponde a la renta “mínima personal y familiar”. Se supone que es la cantidad mínima que necesitas para vivir, y por tanto, sobre la cual no hay que pagar impuestos. Esta cantidad varia según las circunstancias familiares. La puedes encontrar en la casilla 680 de tu declaración. En mi caso (soltero, sin hijos), es de 5.151€, así que utilizaremos esta cifra en nuestro ejemplo. Entonces, hay que deducir el impuesto correspondiente a 5.151€. Al ser una cantidad inferior a 17.707,20€, el porcentaje es un 24%, es decir:

24% X 5.151 = 1236,24€ (corresponde a la suma de las casillas 691 y 692)

Por lo tanto, sin tener en cuenta otros ingresos, como los intereses de una cuenta de ahorros, y otras posibles deducciones, como por ejemplo para donativos, nos tocará pagar lo siguiente:

8.534,93 - 1236,24 = 7298,69€ (corresponde a la suma de las casillas 693 y 694)

Conclusiones

Quizás he entrado en demasiados detalles, pero simplemente quería demostrar que no cobras menos por cobrar más.

Hay que decir que todos estos cálculos se basan en la declaración de la renta al final del año. Sin embargo, si trabajas por cuenta ajena (o sea, no eres autónomo) puede ser que por cobrar más te suban la retención (que sí que se aplica a todo tu sueldo), y por lo tanto, cobres menos cada mes (a mi me ha pasado). Pero después se compensará cuando haces la declaración de la renta, porque esta declaración sirve para compensar la diferencia entre lo que has pagado y lo que realmente te tocaba pagar.

Una excepción

Ahora bien, hay algunos aspectos en que puedes salir perdiendo. Por ejemplo, en Cataluña los menores de 32 años (entre otros) pueden desgravar una parte del alquiler de un piso, pero solo si los ingresos (menos el mínimo personal y familar) son inferiores a 20,000€. La deducción máxima es de 300€. Por lo tanto, si cobras entre 20,000 y 23.000€ y pierdes derecho a esta deducción, puedes salir perdiendo. Pero son muy pocos casos. En regla general, no cobras menos por cobrar más.

Cruyff i el català

Monday, April 27th, 2009

El Johann Cruyff ens ha explicat perquè no parla català. L’explicació la podeu escoltar aquí.

Què en penseu?

Jo també parlo català

Saturday, April 25th, 2009

El Ministeri d’Interior espanyol ha creat un anunci per a avisar als ciutadans que, per a poder votar, han de comprovar que les seves dades al cens són correctes. Naturalment, als canals de televisió en català aquest anunci s’emet en català.

Hi ha un altre anunci avisant als ciutadans de la comunitat europea (però de fora d’Espanya) que tenim dret a votar. Però curiosament aquest anunci és en castellà. És un exemple més d’aquella manera de pensar que diu que el català és la llengua dels catalans i que el castellà és una llengua internacional, i que per tant els estrangers que vivim a Catalunya parlem castellà. Però si estem mirant TV3, probablement és perquè som més oberts i volem emprar el català.

Al final d’aquest anunci, surt un missatge en francès, anglès, alemany i castellà. Com és que veiem totes aquestes llengües, però no veiem ni un rastre de la llengua pròpia del país?