ANALHITZAA tool to extract linguistic information from large corpora in Humanities research
- Iruskieta Quintian, Mikel
- Uria Garin, Larraitz
- Otegi, Arantxa
- Imaz, Oier
- Díaz de Ilarraza Sánchez, Arantza
ISSN: 1135-5948
Año de publicación: 2017
Número: 58
Páginas: 77-84
Tipo: Artículo
Otras publicaciones en: Procesamiento del lenguaje natural
Resumen
El tamaño reducido de los corpus en ciertos campos de investigación se debe a la falta de herramientas para procesar el lenguaje de forma masiva y sencilla. En este artículo presentamos ANALHITZA, una herramienta que estamos desarrollando dentro del proyecto Clarin-k que tiene como objetivo principal la creación de tecnologías lingüísticas útiles para la investigación en Ciencias Sociales y Humanidades. ANALHITZA ha sido diseñada para extraer información lingüística online de textos extensos de una forma sencilla. Además, es una herramienta multilingüe que permite analizar textos escritos en tres lenguas: euskera, castellano e inglés. En este artículo, a modo de ejemplo, presentamos tres estudios en los que se ha usado esta herramienta, que puede ser rediseñada para cubrir las necesidades de investigación de muchas de las ramas de Humanidades.
Referencias bibliográficas
- Agerri, R., J. Bermudez, and G. Rigau. 2014. IXA pipeline: Efficient and Ready to Use Multilingual NLP tools. In Proceedings of LREC 2014, pages 3823–3828.
- Agerri, R. and G. Rigau. 2016. Robust multilingual Named Entity Recognition with shallow semi-supervised features. Artificial Intelligence, 238:63 – 82.
- Alberdi, U. 2013. Euli giro. Susa.
- Alonso, S. and A. Volkens. 2012. Contentanalyzing political texts. A quantitative approach, volume 47. CIS.
- Arrieta, B. 2012. Alter ero. Susa.
- Blei, D.M. 2012. Probabilistic topic models. Communications of the ACM, 55(4):77– 84.
- Carley, K.M. 1997. Network text analysis: The network position of concepts. In Carl W. Roberts, editor, Text analysis for the social sciences: Methods for drawing statistical inferences from texts and transcripts, Routledge Communication Series. pages 79–100.
- CICIR. 2007. Building Peace: the Challenge of Moving from Desire to Implementation. Columbia University.
- CICIR. 2009. The Challenge of Moving from Desire to Implementation. Columbia University.
- Fokkens, A., A. Soroa, Z. Beloki, N. Ockeloen, G. Rigau, W.R. van Hage, and P. Vossen. 2014. NAF and GAF: Linking linguistic annotations. In Proceedings 10th Joint ISO-ACL SIGSEM Workshop on Interoperable Semantic Annotation.
- Grimmer, J. and B.M. Stewart. 2013. Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis.
- Hualde, J.I. and J. Ortiz de Urbina. 2003. A grammar of Basque, volume 26. Walter de Gruyter.
- Iruskieta, M., I. Da Cunha, and M. Taboada. 2015. A qualitative comparison method for rhetorical structures: identifying different discourse structures in multilingual corpora. Language resources and evaluation, 49(2):263–309.
- Iruskieta, M., G. Labaka, and J.D. Antonio. 2016. Detecting the central units in two different genres and languages: a preliminary study of Brazilian Portuguese and Basque texts. PLN, 55(4):77–84.
- Jurafsky, D. 2009. Speech & language processing. Pearson Education. India.
- Krippendorff, K. 2004. Content analysis: An introduction to its methodology. Sage.
- Otegi, A., N. Ezeiza, I. Goenaga, and G. Labaka. 2016. A Modular Chain of NLP Tools for Basque. In Proceedings of the 19th International Conference on Text, Speech and Dialogue, pages 93–100.
- Villegas, M., N. Bel, C. Gonzalo, A. Moreno, and N. Simelio. 2012. Using Language Resources in Humanities research. In LREC 2012, pages 3284–3288.