HTRC Extracted Features Dataset: corpus y datos de investigación de 13,7 millones de libros digitales abiertos

ht-logo2_0

HTRC Extracted Features Dataset

https://analytics.hathitrust.org/datasets

Este conjunto de datos proporciona a los investigadores acceso abierto a los datos extraídos de los volúmenes a texto completo de la Biblioteca HathiTrust Digital Library a una escala sin precedentes. Esta versión proporciona una manera novedosa y eficaz de extraer, generar y reutilizar los datos relevantes de un corpus de 13,5 millones de libros.

HathiTrust anuncia hoy el lanzamiento de un conjunto de datos abierto significativamente expandido con HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0. Los datos corresponden a 13,7 millones de volúmenes de la biblioteca HathiTrust que están en dominio público.

Fundado en 2008 y alojada en la Universidad de Michigan, HathiTrust preserva y proporciona acceso a millones de libros y revistas digitalizados de las colecciones de más de 120 instituciones académicas y socios de investigación a través de su repositorio digital certificado de confianza. Incluye tanto materiales protegidos como de dominio público de los programas de digitalización masiva y de las iniciativas locales de digitalización de las instituciones asociadas al programa. El Centro de Investigación HathiTrust es un servicio de investigación avanzada de HathiTrust y un centro de investigación colaborativo lanzado conjuntamente por la Universidad de Indiana y la Universidad de Illinois.

El conjunto de datos abre la colección completa de HathiTrust para investigar las tendencias históricas y culturales, temas emergntes dentro del corpus y la evolución de las palabras y las estructuras de escritura en publicaciones que datan del siglo XVI al final del siglo XX. El conjunto de datos EF proporciona información cuantitativa sobre el recuento de palabras y líneas, partes del discurso y otros detalles dentro de cada página de cada volumen del HTDL. Además de estas investigaciones a gran escala, el EF Dataset también permite a los investigadores analizar de cerca el contenido de un determinado volumen o subconjunto de volúmenes.

Los datos proceden de los 13,7 millones de volúmenes encontrados en el HTDL, representando más de 5 mil millones de páginas de más de 2 billones de fichas. Una liberación preliminar del EF Dataset, extraído de un subconjunto mucho más pequeño que comprende solamente la colección del dominio público de HathiTrust, que permite la la utilización por parte de eruditos en economía, historia, lingüística, estudios literarios y sociología, entre otros campos.

november-18-2015-niso-webinar-text-mining-digging-deep-for-knowledge-8-638

Anuncios
Post a comment or leave a trackback: Trackback URL.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: