DownThemAll! for corpus-building

February 24th, 2010

For professional translations, see my business website at www.timtranslates.com.

DownThemAll! can be a useful tool for creating a large, relatively clean corpus in a short amount of time. In this article, I shall explain one way of using DownThemAll! via a Google search to create a corpus. This particular example involves downloading the texts from the BBC Food website to create a corpus of recipes, which would be useful for translating and editing texts on food. However, the important thing is the method, rather than the result, so even if you do not think you will use a corpus on food, you may still find it useful to follow through the instructions, since you can then use the same method to download texts from other websites.

The method described in this article requires the use of the Firefox browser. The method was developed using the Windows XP operating system, but should work on other operating systems.

Firefox is needed because we will download the texts using the Firefox extension DownThemAll!. Once you have opened Firefox, if you do not already have the DownThemAll! extension, download it from here. When prompted, restart your browser (the browser should open up again with the same pages open).

DownThemAll! allows us to download all the links we have selected on a page. If we go to the BBC Recipes page and enter “chicken” into the search box, we are taken to this page. From here, we could download all 15 recipes by selecting the recipes, then right-clicking and selecting “DownThemAll selection…”, as shown below (click on pictures to enlarge).

Food1

On the next screen you could then click on “All files”, select the folder to save the files to and click on “Start”. The problem with this method, however, is that we can only do 15 recipes at a time.

Downloading from Google

Google can display up to 100 results simultaneously (if anyone finds a search engine that makes it possible to display more results, please leave a comment), and we can target our search on the folder of the BBC website containing all the recipes, as follows:

  • Open a new tab (press ctrl+t), open up Google, and go to “Advanced search”.
  • Type +the as your search term (the plus sign tells Google to search for the word exactly as it is written, and not to ignore it as a frequent word). This should ensure we get a good range of types of recipe. If you wanted only fish or chicken recipes, then you could search for “fish” or “chicken” instead.
  • Change the number of results per page to 100.
  • We need to tell Google to search only within the folder containing the recipes. If you go back to the previous tab, where we searched for “chicken” in the BBC database, and move your mouse over one of the links to a recipe, you will see this folder, as shown below:

Food2

  • The part I have underlined in red in the above image appears in the URLs of all the recipes. This is what we will type into Google in the “Search within a site or domain” field. Our Google search should thus appear as follows:

Google Advanced Search

  • Execute the search.

Downloading the pages

  • On the results page, do not select anything, do a right-click, and click on “DownThemAll!…”.

  • In the DownThemAll! window, scroll down until you can see some of the links to the actual recipes, i.e. those links with descriptions resembling those underlined in red below:

DownThemAll!

We need to find a way of downloading only the recipes, and not the Google Images, Videos, Maps, etc. links, nor the “Cached” and “Similar” links, nor any other links other than the recipes. To do this we shall use the “Fast filtering” option.

  • Disable all the filters (”All files”, “Images”, etc.).
  • Click on the plus sign next to “Fast filtering”
  • In the “Fast filtering” box, click on the drop-down list and select the /(.mp3)$/ option. You can find more on the syntax used in the Help files, but basically this option is to select only mp3 files. In this example we want to download only “shtml” files, since our recipes contain this file extension (see the pink underlines above). Select the letters “mp3″ and change it to “shtml”, since all the files we want to download have the shtml file extension. The filter should now read /(.shtml)$/
  • We are going to use the renaming mask. The default mask (*name*.*ext*) means that pages will be saved with their current name and extension, so we would have files such as “theclassicroastturke_65538.shtml”. We are going to change the extension to “html”, since this will make it easier to clean our files once we’ve downloaded them. To do this, change the mask to *name*.html
  • Click on the folder (circled above in green) to select where you want to save the files. Make sure you create a new folder, since we’ll be downloading hundreds of files!
  • Your window should now look like the picture below, with the exception of the folder path (underlined below in pink), which depends on where you want to save the files. At the bottom of the window, as underlined below in red, it should say that you have 100 links selected.
  • Food5

  • Click on the “Start!” button, which will bring up the download window, and start the download.
  • Minimise the download window and go back to your Google search results in Firefox, then scroll to the bottom of the page and click on the number 2 to bring up results 101-200.
  • Once this page has opened, do a right-click, but this time click on “dTa OneClick!” instead of “DownThemAll!”. This will start downloading results 101-200, but using the same settings as for the previous download, so this time you won’t see the settings window. After about five seconds you should see the 100/100 in the download window change to 100/200.
  • You can go to the third page of Google results without waiting for the second page of results to stop downloading. Scroll down and click on the number 3, then once the page is opened, select the “dTa OneClick!” option again to download results 201-300.
  • Again scroll down to the bottom, but this time we’re going to speed things up by opening the next results pages in new tabs. Click on the numbers 4 to 10 one-by-one with the middle button (scroll wheel) of your mouse, or if you don’t have this button, hold the Ctrl key on the keyboard while you click on them. Go to the first of the new tabs and select “dTa One Click!”, then do the same for each of the remaining new tabs.

Google will not let us access more than 1,000 results, but 1,000 texts will give us a pretty good-sized corpus. If you want more than 1,000 texts, then try searching for another term (such as “chicken”) and downloading again. To avoid duplicates, save to the same folder, and if the “Filename conflict” box comes up, click on Skip/Cancel and select “Just for this session”. Once you have done this, all subsequent duplicates will be ignored.

Converting to plain text

If you open one of the files you’ve downloaded in Notepad, you’ll see that the files are not very clean, and are full of html code. However, programs exist to clean this. If you use Windows, you can clean this with the appropriately named HTML2TXT (please add a comment if you know of a tool that does the same thing for another operating system):

  • First, create a new folder somewhere to which we will export the cleaned files.
  • Download and install Bobsoft’s HTML2TXT from here.
  • When you launch the program, the “Unregistered Copy” window will appear. Click on “Try”.
  • Click on “Add folder”, and the select the folder where you’ve saved the recipes. (Don’t try “Add files”, as there are too many files for this.)
  • Click on the option to save the cleaned files to a new folder (highlighted in red below), then select “Click here to select” (highlighted in pink below) and choose the folder you created in the first step of this section.

Food6

  • Click on “Convert All” to convert the files. Don’t panic if the window freezes and you get a “Not Responding” message. Just be patient.
  • In the new folder you will find the cleaned txt files.

Because we’ve used the demo of HTML2TXT, you will find a short message at the top of each cleaned file. This shouldn’t be a problem for most uses of corpus analysis tools (unless you want, say, accurate word counts), but if you do want to completely clean the files, you can remove this message using cheap batch find/replace tools such as FileMonkey (cost $29).

If anybody knows of free tools that do the same as HTML2TXT or FileMonkey, please leave a comment.

You now have an almost-clean corpus of recipes that you can analyse using corpus-analysis tools such as AntConc .

These instructions can be adapted to create other corpora, but certain changes will be necessary. For example, we will not always have a single file extension (such as shtml) for all the files we want to download. I hope to add further tutorials explaining how to adapt this method for other corpora, at which point I will add a link to the bottom of this page.

Please use the comments section if you have any questions or comments to make about these instructions.

Servicios Profesionales de Reus - the latest false name by Maremagnum/MTM

February 19th, 2010

It looks like the latest name being used by MTM is Servicios Profesionales de Reus. They really need to invent more phone numbers if they don’t want to keep getting caught out!

A colleague translated 12,000 words for Servicios Profesionales de Reus, but has not been paid. Here’s the report I got:

Hola:

A una compañera de la Xarxa de Traductors i Intèrprets de la Comunitat
Valenciana (www.xarxativ.es), asociación a la que yo también pertenezco, le
contactó la siguiente empresa:

SERVICIOS PROFESIONALES DE REUS
BAIX DE SANT JOAN 5
43230 REUS (TARRAGONA)
977230366
El que habló con ella fue un tal ALFONSO CARMONA SOUSA.

Después de una prueba y pedirle un presupuesto, le enviaron una traducción
de 12.000 palabras. Una vez entregada, pidió varias veces el CIF para hacer
la factura, pero no le contestaban. Finalmente le dieron uno falso.

Por el número de teléfono, hemos averiguado que la empresa fantasma es la
temida MAREMAGNUM. Sé que se ha hablado mucho de ella en esta lista, así que
escribo en su nombre para contaros el caso y por si algún miembro de la
lista puede darle algún consejo.

Type the landline number into Google and you land on this. Type the mobile number into Google, and you land on a plethora of ads offering translation from and into many different languages by MTM/Maremagnum.

Spread the word to help prevent these crooks ripping more people off! And don’t give in to their threats!

Nota de prensa de ACT-FEGILT

February 17th, 2010

Ante las noticias publicadas recientemente sobre las irregularidades en la contratación pública de los servicios de traducción e interpretación en los juzgados de la Comunidad de Madrid, recordamos que el problema no es nuevo en absoluto, ya que la ACT publicó, con fecha 2 de junio de 2008, un anuncio informativo en la página 21 de EL PAÍS, en el que tanto la Asociación de Empresas de Traducción (ACT, miembro corporativo de AENOR) como la Federación Española de Empresas de Globalización, internacionalización, Localización y Traducción (FEGILT, miembro de CEOE) condenaron en su momento la contratación pública aleatoria a empresas que no ejercían el debido control establecido por las normas de calidad correspondientes (UNE-EN 15038 - Servicios de Traducción, de AENOR, aprobado y publicado en el BOE n.º 287 de fecha 1 de diciembre de 2006) y que, además de perjudicar la economía del país, se dañaba la generación de puestos de trabajo cualificado y se favorecía la precariedad en el empleo. Asimismo, se creaba una alarma social irreparable para las empresas que voluntariamente se sometían —y se siguen sometiendo— a un proceso de calidad y fomentaban el asociacionismo eficaz en el sector.

Hacemos constar una vez más que la empresa en cuestión, Seprotec, SL de Madrid, no es miembro de esta asociación ACT ni de la federación FEGILT, y nunca ha solicitado su adhesión a ninguna de estas dos entidades que representan al sector empresarial en España: ACT ante la EUATC europea y FEGILT ante la administración española a través de CEOE. Tampoco nos consta que dicha empresa posea la certificación considerada norma de nuestro sector: UNEEN 15038, que no permite contratar a traductores, correctores, revisores o intérpretes sin la debida cualificación mínima contrastada.

También es cierto que, conocedores de las condiciones de los pliegos de los concursos en cuestión, tanto la carencia de requisitos normativos como los precios exiguos de las ofertas de la administración dificultan sobremanera que las empresas certificadas según las dos normas UNEEN 15038 e ISO 9001:2008, y aseguradas por pólizas de responsabilidad civil y patronal, acudan a las mesas de contratación del Estado, por lo que solicitamos:

1) Que el Estado mejore las condiciones económicas de contratación de manera que sea posible
contratar a los profesionales correspondientes,
2) Que el Estado exija el cumplimiento de la norma del sector (UNE-EN 15038) como requisito
mínimo, ya que ha sido aprobada por el mismo Estado y publicada en el BOE correspondiente
citado más arriba.
3) Que las demás asociaciones de traductores autónomos y profesionales se unan a la
asociación de empresas de traducción ACT-FEGILT en la condena de las irregularidades en la
contratación de los profesionales correspondientes.
4) Que los diversos movimientos asociativos del sector aúnen sus esfuerzos con la Conferencia
de Centros y Departamentos Universitarios de Traducción e Interpretación (CCDUTI) del
Estado Español para entre todos llevar a cabo iniciativas que propicien unas condiciones
mínimas debidas en futuras licitaciones del Estado o sus distintas Comunidades.

En Madrid, a 14 de febrero de 2010.

Comunicado de Jueces para la Democracia

February 10th, 2010

Este comunicado fue publicado en varios diarios españoles el día 3 de febrero:

“La Sección Territorial de Madrid de Jueces para la Democracia quiere poner de manifiesto los gravísimos problemas que se están produciendo en la Administración de Justicia de la Comunidad de Madrid, en lo relativo a la designación de los traductores e intérpretes que intervienen en las actuaciones judiciales. Por este motivo REIVINDICAMOS que, en el nombramiento de traductores e intérpretes judiciales solicitados por jueces y magistrados, se tenga en cuenta que aquellos han de tener la formación y acreditación necesarias como intérpretes jurados y en su defecto, titulación superior en esta materia. Se quiere resaltar que las adjudicaciones a través de licitación pública, para la prestación de este servicio, hasta el momento se han revelado muy deficientes, al suponer en la práctica que la Administración Autonómica cede a terceros una serie de garantías individuales, procesales y constitucionales susceptibles de ser vulneradas por ausencia de ulterior control administrativo sobre dichas empresas, las cuales tienen una finalidad primordialmente lucrativa. Esta situación está provocando situaciones de indefensión a los ciudadanos extranjeros y nacionales que precisen de un intérprete o traductor, indefensión que debe ser evitada a toda costa por jueces y magistrados.”

I did it!

January 18th, 2010

Shortly after narrowly beating a nine-year-old girl at table tennis on Sunday (although I won 3-0, I only just won the final set, 12-10), I went to put my tracksuit bottoms back on, and when I pulled the lace to tie it, part of it snapped. One end was left inside the trousers, and I couldn’t manage to slide it to the opening. When I got home, I tried all sorts of implements to pull it round, but couldn’t do it. I considered opening up the seams to get to it, but then I decided it would be a better idea to pull the whole thing out, tie it to a rod (I handily had a long rod that had snapped off the clothes horse a few days earlier) and push it through. Big mistake!

Unfortunately at the seam where the left and right trouser join together the lace goes through a very small hole, too small to push through a rod with a lace tied in a knot around it. I then decided to open up some stitching so I could get my hand right near the part I couldn’t push the lace through, but I still couldn’t push it through.

I then saw a role of sellotape on my desk and had an idea. If I sellotaped the lace to the rod, there would be no need for a knot, and it might just push through the hole. After a lot of pushing, I managed to get the rod and lace through the hole and round the trouser to the other opening. Here’s how I did it:

Unfortunately I’ve made a right mess of some of the seams, and I’m going to have to sew it all back together now.

Goodbye Grandma

November 30th, 2009

Harriet Barton née Pope, aka “Grandma”
10th January 1915 - 30th November 2009

Grandma

To paraphrase Vera Lynn’s famous song:

We’ll meet again
DO* know where
Don’t know when
But I know we’ll meet again some sunny day

*For God so loved the world that he gave his one and only Son, that whoever believes in him shall not perish but have eternal life. [John 3:16, NIV]

L’enfant polit, de Joan Bodon

November 28th, 2009

Gràcias al blog “Ma vida amb ièu“, ai trapada aquesta magnifica adaptacion de L’enfant polit de Joan Bodon.

Magnific!

La dignitat de Catalunya

November 27th, 2009

Aquest editorial va ser publicat per dotze diaris el dia 27 de novembre de 2009. Jo també m’hi adhereixo.

Després de gairebé tres anys de lenta deliberació i de contínues maniobres tàctiques que han malmès la seva cohesió i han erosionat el seu prestigi, el Tribunal Constitucional pot estar a punt d’emetre sentència sobre l’Estatut de Catalunya, promulgat el 20 de juliol del 2006 pel cap de l’Estat, el rei Joan Carles, amb el següent encapçalament: “Sapigueu: que les Corts Generals han aprovat, els ciutadans de Catalunya han ratificat en referèndum i jo vinc a sancionar la llei orgànica següent”. Serà la primera vegada des de la restauració democràtica de 1977 que l’alt tribunal es pronuncia sobre una llei fonamental ratificada pels electors. L’expectació és alta.

L’expectació és alta i la inquietud no és escassa davant l’evidència que el Tribunal Constitucional ha estat empès pels esdeveniments a actuar com una quarta cambra, confrontada amb el Parlament de Catalunya, les Corts Generals i la voluntat ciutadana lliurement expressada a les urnes.

Repetim, es tracta d’una situació inèdita en democràcia. Hi ha, no obstant, més motius de preocupació. Dels dotze magistrats que componen el tribunal, només deu podran emetre sentència, ja que un (Pablo Pérez Tremps) està recusat després d’una tèrbola maniobra clarament orientada a modificar els equilibris del debat, i un altre (Roberto García-Calvo) ha mort. Dels deu jutges amb dret a vot, quatre continuen en el càrrec després del venciment del seu mandat, com a conseqüència del sòrdid desacord entre el govern central i l’oposició sobre la renovació d’un organisme definit recentment per José Luis Rodríguez Zapatero com el “cor de la democràcia”. Un cor amb les vàlvules obturades, ja que només la meitat dels seus integrants estan avui lliures de contratemps o de pròrroga. Aquesta és la cort de cassació que està a punt de decidir sobre l’Estatut de Catalunya. Per respecte al tribunal –un respecte sens dubte superior al que en diverses ocasions aquest s’ha mostrat a ell mateix– no farem més al·lusió a les causes del retard en la sentència.

La definició de Catalunya com a nació al preàmbul de l’Estatut, amb la consegüent emanació de “símbols nacionals” (¿que potser no reconeix la Constitució, al seu article 2, una Espanya integrada per regions i nacionalitats?); el dret i el deure de conèixer la llengua catalana; l’articulació del Poder Judicial a Catalunya, i les relacions entre l’Estat i la Generalitat són, entre altres, els punts de fricció més evidents del debat, d’acord amb les seves versions, ja que una part significativa del tribunal sembla que està optant per posicions irreductibles. Hi ha qui torna a somiar amb cirurgies de ferro que tallin de soca-rel la complexitat espanyola. Aquesta podria ser, lamentablement, la pedra de toc de la sentència.

No ens confonguem, el dilema real és avanç o retrocés; acceptació de la maduresa democràtica d’una Espanya plural, o el seu bloqueig. No només estan en joc aquest o aquell article, està en joc la mateixa dinàmica constitucional: l’esperit de 1977, que va fer possible la pacífica Transició. Hi ha motius seriosos per a la preocupació, ja que podria estar madurant una maniobra per transformar la sentència sobre l’Estatut en un verdader tancament amb pany i forrellat institucional. Un enroc contrari a la virtut màxima de la Constitució, que no és altra que el seu caràcter obert i integrador. El Tribunal Constitucional, per tant, no decidirà únicament sobre el plet interposat pel Partit Popular contra una llei orgànica de l’Estat (un PP que ara es reaproxima a la societat catalana amb discursos constructius i actituds afalagadores). L’alt tribunal decidirà sobre la dimensió real del marc de convivència espanyol, és a dir, sobre el més important llegat que els ciutadans que van viure i van protagonitzar el canvi de règim a finals dels anys setanta transmetran a les joves generacions, educades en llibertat, plenament inserides en la complexa supranacionalitat europea i confrontades als reptes d’una globalització que relativitza les costures més rígides del vell Estat nació. Estan en joc els pactes profunds que han fet possible els trenta anys més virtuosos de la història d’Espanya. I arribats a aquest punt és imprescindible recordar un dels principis vertebradors del nostre sistema jurídic, d’arrel romana: Pacta sunt servanda, els pactes s’han de complir.

Hi ha preocupació a Catalunya i cal que tot Espanya ho sàpiga. Hi ha alguna cosa més que preocupació. Hi ha un creixent atipament per haver de suportar la mirada irada dels que continuen percebent la identitat catalana (institucions, estructura econòmica, idioma i tradició cultural) com el defecte de fabricació que impedeix a Espanya assolir una somiada i impossible uniformitat. Els catalans paguen els seus impostos (sense privilegi foral); contribueixen amb el seu esforç a la transferència de rendes a l’Espanya més pobra; afronten la internacionalització econòmica sense els quantiosos beneficis de la capitalitat de l’Estat; parlen una llengua amb més pes demogràfic que el de diversos idiomes oficials a la Unió Europea, una llengua que en lloc de ser estimada, resulta sotmesa tantes vegades a l’obsessiu escrutini de l’espanyolisme oficial. I acaten les lleis, per descomptat, sense renunciar a la seva pacífica i provada capacitat d’aguant cívic. Aquests dies, els catalans pensen, sobretot, en la seva dignitat; convé que se sàpiga.

Estem en vigílies d’una resolució molt important. Esperem que el Constitucional decideixi atenent les circumstàncies específiques de l’assumpte que té entre mans –que no és sinó la demanda de millora de l’autogovern d’un vell poble europeu–, recordant que no existeix la justícia absoluta, sinó només la justícia del cas concret, raó per la qual la virtut jurídica per excel·lència és la prudència. Tornem a recordar-ho: l’Estatut és fruit d’un doble pacte polític sotmès a referèndum. Que ningú es confongui, ni malinterpreti les inevitables contradiccions de la Catalunya actual. Que ningú erri el diagnòstic, per molts que siguin els problemes, les desafeccions i les contrarietats. No som davant d’una societat feble, postrada i disposada a assistir impassible al deteriorament de la seva dignitat. No desitgem pressuposar un desenllaç negatiu i confiem en la probitat dels jutges, però ningú que conegui Catalunya posarà en dubte que el reconeixement de la identitat, la millora de l’autogovern, l’obtenció d’un finançament just i un salt qualitatiu en la gestió de les infraestructures són i continuaran sent reclamacions tenaçment plantejades amb un amplíssim suport polític i social. Si és necessari, la solidaritat catalana tornarà a articular la legítima resposta d’una societat responsable.

Con GolTV es más barato

November 19th, 2009

Acabo de ver este anuncio en el Facebook:

Liga

Pero con GolTV son tan solo 15€!

Remember, remember - Recordem, recordem

November 5th, 2009

For a bit of fun to mark the 5th November, I’ve translated the famous poem into Catalan. If you think you can do it in another language, please post it in the comments!

Original English:

Remember, remember the fifth of November:
The Gunpowder Treason and Plot.
I know of no reason why the Gunpowder Treason
Should ever be forgot.

Catalan translation:

Recordem, recordem el cinc de novembre:
Pólvora i conspiració!
Mai a la vida podem oblidar
Aquella traïció.