Archivos por Etiqueta: Corpus

Corpus del Habla Culta de Bogotá

dsc0481

 

Instituto Caro y Cuervo (2017-  ). Corpus del Habla Culta de Bogotá [en línea]. En Corpus Lingüísticos del Instituto Caro y Cuervo (CLICC). Recuperado de: http://clicc.caroycuervo.gov.co/corpus/HCB [Fecha de la consulta]

El corpus del habla culta de Bogotá (HCB) está compuesto por 600 grabaciones recopiladas entre 1972 y 1984 en el proyecto “Estudio coordinado de la norma lingüística culta de las principales ciudades de Iberoamérica y de la Península Ibérica”. Durante la investigación se recogieron 400 horas de grabación realizadas a informantes de tres generaciones: la primera de 25 a 35 años, la segunda de 36 a 55 años y la tercera de 56 años en adelante. Las encuestas de una duración promedio de treinta minutos corresponden a cuatro tipos de entrevista: diálogo entre informante y encuestador, diálogo entre dos informantes, grabación secreta en un diálogo espontáneo y elocuciones en actitudes formales como clases, conferencias, discursos, etc. Los archivos de audio pertenecientes a este corpus se constituyen como material de apoyo para la descripción y el análisis del habla culta de Bogotá de 1972 a 1984, definida en el proyecto como “el habla culta media (habitual), con referencias a las actitudes formal (habla esmerada) e informal (habla familiar)” (Spitzová, 1991). Además, se constituye como un archivo que contiene varios testimonios sobre las costumbres bogotanas, la estructura de la ciudad, la educación y la descripción de varios hechos políticos e históricos importantes como el 9 de octubre o el frente nacional.

 

Corpus del Español Hablado en Bogotá (EHB)

69c73f4b46944f6b904510b868e1ce5c

 

Instituto Caro y Cuervo (2017-  ). Corpus del Español Hablado en Bogotá [en línea]. En Corpus Lingüísticos del Instituto Caro y Cuervo (CLICC).

http://clicc.caroycuervo.gov.co/corpus/EHB

 

logo

El corpus del Español Hablado en Bogotá (EHB) cuenta con 522 grabaciones de las cuales 241 contienen relatos semilibres de entre 45 y 60 minutos y 281 son cuestionarios fonéticos de entre 10 y 30 minutos. Estas grabaciones fueron recopiladas entre 1990 y 1992,  en un proyecto dirigido por el Departamento de Dialectología del ICC para realizar un trabajo enfocado en ?dialectología urbana con métodos sociolingüísticos? (Montes, 1998 p18). El corpus cuenta con 477 informantes, hombres y mujeres entre los 15 y los 60 años de edad, nacidos en Bogotá o con más de 15 años viviendo en ella.

Investigaciones lingüísticas basadas en el corpus

cover2

Costa, D. S. d. (2014). [e-Book]  Pesquisas linguísticas pautadas em corpora. Texto completo: http://books.scielo.org/id/z7jnqCosta, D. S. d. (2014). [e-Book]  Pesquisas linguísticas pautadas em corpora, 2014.

Texto completo

PDF

ePub

O objetivo desta coletânea é demonstrar como a organização de corpora linguísticos diferentes atende aos diversos tipos de pesquisa linguística, sejam eles centrados numa mesma língua – abordando diferentes fenômenos dessa língua – ou focados em outras línguas naturais. A obraagrega sete pesquisas linguísticas de diferentes estudiosos – que se amparam em aportes teóricos também diversos –,as quais têm como base para coleta de dados a organização de algum tipo de corpus linguístico. De enfoque tanto sincrônico quanto diacrônico, de cunho variacionista e também formalista, os trabalhos englobam os quatro níveis básicos de análise linguística: o fonológico, omorfológico, o semântico e o sintático. Talita de Cássia Marine apresenta, no primeiro capítulo, uma análise descritivo-comparativa do sistema de pronomes demonstrativos do Português do Brasil e do Português de Portugal. Ela analisa cartas de leitoras da revista brasileira Capricho, e da portuguesa Ragazza, para caracterizar a configuração, se ternária ou binária, em que se encontram tais pronomes nas referenciações anafóricas no uso contemporâneo da língua. No capítulo 2, Caroline Carnielli Biazolli avalia o uso de textos jornalísticos como fonte de extração de dados para o estudo de processos de variação e mudança linguística. Seu foco é a posição dos clíticos pronominais, adjungidos a lexias verbais simples e a complexos verbais, e o corpus são textos do jornal A Província de São Paulo (atualmente O Estado deSão Paulo), entre 1880 e 1920. O terceiro capítulo, de Juliana Bertucci Barbosa, apresenta um estudo diacrônico de textos do Português Brasileiro do século 16 ao 20, que procura, entre outros objetivos, verificar valores semânticos do Pretérito Perfeito Simples e do Perfeito Composto do modo Indicativo da língua. Leandro Silveira de Araújo, autor do capítulo 4, baseia-se em um corpus constituído de entrevistas radiofônicas, representativas de umagrande cidade de cada região dialetal da Argentina para estudar o uso doPretérito Perfecto Compuestono espanhol falado no país. No quinto capítulo Alexandre Monte analisa a presença ou a ausência da marca formal de plural no verbo na relação sujeito/verbo, com o objetivo de compreender os fatores linguísticos e sociais que condicionam/determinam a variação linguística no âmbito da concordância verbal. O corpus da pesquisa é uma amostra da língua falada de uma comunidade periférica de São Carlos, interior de São Paulo. As Cantigas de Santa Maria, de Afonso X compostas na segunda metade do século 13 em galego-português, e OsLusíadas (1572), de Camões serviram de corpora para Juliana Simões Fonte e Gladis Massini-Cagliari no estudo apresentado no capítulo 6. As autoras analisam rimas da poesia remanescente de períodos passados da Língua Portuguesa para demonstrar a contribuição de textos poéticos no estudo das vogais do Português Antigo. O último capítulo resume os resultados da tese de doutorado de Daniel Soares da Costa, que organiza a obra. Ele apresenta uma nova proposta metodológica, baseada em uma conexão entre a música e a linguística como ferramenta para a coleta de dados relativos à prosódia de línguas mortas. O autor toma as versões transcritas por Anglés (1943) das cem primeiras Cantigas de Santa Maria de Afonso X para analisar a atribuição do acento lexical e secundário no Português Arcaico.

Fraseología computacional y basada en corpus: perspectivas monolingües y multilingües

32242675701_98e1c59696_o_d

Corpas Pastor, G. (2016.). [e-Book] Computerised and Corpus-based Approaches to Phraseology: Monolingual and Multilingual Perspectives. Fraseología computacional y basada en corpus: perspectivas monolingües y multilingües. Geneva, Editions Tradulex.

Texto completo

The notion of phraseology is now used across a wide range of linguistic disciplines: Phraseology (proper), Corpus Linguistics, Discourse Analysis, Pragmatics, Cognitive Linguistics, Computational Linguistics. It is, however, conspicuously absent from most studies in the area of Translation Studies (e.g. Delisle 2003, Baker & Saldanha 2011). The paradox is that many practical difficulties encountered by translators and interpreters are directly related to phraseology in the broad sense (Colson 2008, 2013), and this can most clearly be seen in the failure of SMT-models (statistical machine translation) to deal efficiently with the translation of set phrases (used here as a generic term for all categories of phraseological constructions, from collocations to proverbs).

Antconc: software libre para análisis de corpus textuales

AntConc

Tutorial

Descargar programa

Windows (3.4.3)

Macintosh OS X 10.7-10.10 (3.4.3)

Macintosh OS X 10.6 (3.4.1)

Linux (3.4.3)

Older versions

El análisis de corpus es una forma de análisis de texto que le permite hacer comparaciones entre los objetos de texto a gran escala (llamada «lectura distante»). Lo que permite ver cosas que no vemos como lectores habituales. Si se dispone de una colección de documentos, es posible que se desee encontrar patrones de uso gramatical, o frases que se repiten con frecuencia en el corpus. Así como encontrar frases estadísticamente probables y / o improbables para un autor o tipo de texto en particular, determinados tipos de estructuras gramaticales o una gran cantidad de ejemplos de un concepto en particular en un número amplio de documentos en su contexto. Análisis Corpus es especialmente útil para triangulación de textos resultados de otros métodos digitales.

AntConc

AntConc es un paquete de software independiente para el análisis lingüístico de textos, libremente disponible para Windows , Mac OS y Linux que permite trabajarr en un PDF o un documento de Word.

Más herramientas de Software libre para Traducción

New directions in corpus-based translation studies

laudio, F. and Z. Federico (2015). [e-Book] New directions in corpus-based translation studies, Language Science Press, 2015

Texto completo:

Corpus-based translation studies has become a major paradigm and research methodology and has investigated a wide variety of topics in the last two decades. The contributions to this volume add to the range of corpus-based studies by providing examples of some less explored applications of corpus analysis methods to translation research. They show that the area keeps evolving as it constantly opens up to different frameworks and approaches, from appraisal theory to process-oriented analysis, and encompasses multiple translation settings, including (indirect) literary translation, machine(-assisted) translation and the practical work of professional legal translators. The studies included in the volume also expand the range of application of corpus applications in terms of the tools used to accomplish the research tasks outlined.