RESUMO
BACKGROUND: The high volume of research focusing on extracting patient information from electronic health records (EHRs) has led to an increase in the demand for annotated corpora, which are a precious resource for both the development and evaluation of natural language processing (NLP) algorithms. The absence of a multipurpose clinical corpus outside the scope of the English language, especially in Brazilian Portuguese, is glaring and severely impacts scientific progress in the biomedical NLP field. METHODS: In this study, a semantically annotated corpus was developed using clinical text from multiple medical specialties, document types, and institutions. In addition, we present, (1) a survey listing common aspects, differences, and lessons learned from previous research, (2) a fine-grained annotation schema that can be replicated to guide other annotation initiatives, (3) a web-based annotation tool focusing on an annotation suggestion feature, and (4) both intrinsic and extrinsic evaluation of the annotations. RESULTS: This study resulted in SemClinBr, a corpus that has 1000 clinical notes, labeled with 65,117 entities and 11,263 relations. In addition, both negation cues and medical abbreviation dictionaries were generated from the annotations. The average annotator agreement score varied from 0.71 (applying strict match) to 0.92 (considering a relaxed match) while accepting partial overlaps and hierarchically related semantic types. The extrinsic evaluation, when applying the corpus to two downstream NLP tasks, demonstrated the reliability and usefulness of annotations, with the systems achieving results that were consistent with the agreement scores. CONCLUSION: The SemClinBr corpus and other resources produced in this work can support clinical NLP studies, providing a common development and evaluation resource for the research community, boosting the utilization of EHRs in both clinical practice and biomedical research. To the best of our knowledge, SemClinBr is the first available Portuguese clinical corpus.
Assuntos
Medicina , Processamento de Linguagem Natural , Registros Eletrônicos de Saúde , Humanos , Portugal , Reprodutibilidade dos TestesRESUMO
ABSTRACT Objective: to reflect on the use of computational tools in the cross-mapping method between clinical terminologies. Method: reflection study. Results: the cross-mapping method consists of obtaining a list of terms through extraction and normalization; the connection between the terms of the list and those of the reference base, by means of predefined rules; and grouping of the terms into categories: exact or partial combination or, in more detail, similar term, more comprehensive term, more restricted term and non-agreeing term. Performed manually in many studies, it can be automated with the use of the Unified Medical Language System (UMLS). Obtaining the terms list can occur automatically by natural language processing algorithms, being that the use of rules to identify information in texts allows the expert's knowledge to be coupled to the algorithm, and it can be performed by techniques based on Machine Learning. When it comes to mapping terms using the 7-Axis model of the International Classification for Nursing Practice (ICNP®), the process can also be automated through natural language processing algorithms such as POS-tagger and the syntactic parser. Conclusion: the cross-mapping method can be intensified by the use of natural language processing algorithms. However, even in cases of automatic mapping, the validation of the results by specialists should not be discarded.
RESUMEN Objetivo: reflexionar sobre el uso de herramientas computacionales en el método de mapeo cruzado entre terminologías clínicas. Método: estudio de reflexión. Resultados: el método de mapeo cruzado consiste en la obtención de listado de términos, por medio de extracción y normalización; conexión entre los términos del listado y los de la base de referencia, mediante reglas previamente definidas; y agrupación de los términos en categorías: combinación exacta o parcial o, de manera más detallada, término similar, término más amplio, término más restringido y término no concordante. Realizado manualmente en muchos estudios, puede ser automatizado con el uso del Unified Medical Language System (UMLS). La obtención del listado de términos puede ocurrir de forma automática por algoritmos de procesamiento de lenguaje natural, siendo que la utilización de reglas para identificación de información en textos permite que el conocimiento del especialista sea acoplado al algoritmo, pudiendo ser realizado por técnicas basadas en Machine Learning. Cuando se trata de mapeo de términos utilizando el modelo de siete Ejes de la Clasificación Internacional para la Práctica de Enfermería (CIPE®), el proceso también puede ser automatizado a través de algoritmos de procesamiento de lenguaje natural, como el POS-tagger y el parser sintático. Conclusión: el método de mapeo cruzado puede ser intensificado por el uso de algoritmos de procesamiento de lenguaje natural. Sin embargo, incluso en casos de asignación automática, la validación de los resultados por expertos no debe descartarse.
RESUMO Objetivo: refletir sobre o uso de ferramentas computacionais no método de mapeamento cruzado entre terminologias clínicas. Método: estudo de reflexão. Resultados: o método de mapeamento cruzado consiste na obtenção de listagem de termos, por meio de extração e normalização; ligação entre os termos da listagem e os da base de referência, mediante regras previamente definidas; e agrupamento dos termos em categorias: combinação exata ou parcial ou, de maneira mais detalhada, termo similar, termo mais abrangente, termo mais restrito e termo não concordante. Realizado manualmente em muitos estudos, pode ser automatizado com a utilização do Unified Medical Language System (UMLS). A obtenção da listagem de termos pode ocorrer de forma automática por algoritmos de processamento de linguagem natural, sendo que a utilização de regras para identificação de informação em textos permite que o conhecimento do especialista seja acoplado ao algoritmo, podendo ser realizada por técnicas baseadas em Machine Learning. Quando se trata de mapeamento de termos utilizando o modelo de sete Eixos da Classificação Internacional para a Prática de Enfermagem (CIPE®), o processo também pode ser automatizado por meio de algoritmos de processamento de linguagem natural, como o POS-tagger e o parser sintático. Conclusão: o método de mapeamento cruzado pode ser intensificado pelo uso de algoritmos de processamento de linguagem natural. No entanto, mesmo em casos de mapeamento automático, a validação dos resultados por especialistas não deve ser descartada.
Assuntos
Humanos , Enfermagem , Vocabulário Controlado , Terminologia , Informática , MétodosRESUMO
Ontologias terminológicas padronizadas e corretamente traduzidas são essenciais para o desenvolvimento de aplicações de processamento de linguagem natural na área da saúde. Para o desenvolvimento de uma aplicação de busca semântica em narrativas clínicas em português se fez necessária a utilização dos termos clínicos da Unified Medical Language System (UMLS). OBJETIVOS: Traduzir termos da UMLS em Português Europeu para Português Brasileiro. MÉTODOS: Foi desenvolvido um algoritmo de tradução semi-automática baseada em regras de substituição de texto. RESULTADOS: Após execução do algoritmo e avaliação por parte de especialistas, o algoritmo deixou de traduzir corretamente apenas 0.1% dos termos da base de testes. CONCLUSÃO: A utilização do método proposto se mostrou efetivo na tradução dos termos da UMLS e pode auxiliar em posteriores adaptações de listagens em Português Europeu para Português Brasileiro.
Correctly translated and standardized clinical ontologies are essential for development of Natural LanguageProcessing application for the medical domain. To develop an ontology-driven semantic search application for Portuguese clinical notes we needed to implement the Unified Medical Language System (UMLS) ontologies, specifically for Brazilian Portuguese. OBJECTIVES: To translate UMLS terms from European Portuguese to Brazilian Portuguese. METHODS: To develop a semi-automatic translation algorithm based on string replacement rules. RESULTS: Following the experiments and specialists' evaluation the algorithm mis-translated only 0.1% of terms in our test set. CONCLUSION: The proposed method proved to be effective for UMLS clinical terms translation and can be useful for posterior adaption ofa set of clinical terms from European Portuguese to Brazilian Portuguese.
Assuntos
Humanos , Tradução , Processamento de Linguagem Natural , Congressos como AssuntoRESUMO
A utilização de técnicas de Processamento de Linguagem Natural (PLN) em textos clínicos é amplamente dependente de grandes quantidades de dados textuais anotados, denominados corpus ou padrão ouro. Sendo essenciais para a modelagem da linguagem durante a fase de treinamento de diversos algoritmos de PLN. Porém, para a criação de um padrão ouro é necessário um extenso e custoso trabalho manual de anotação, que demanda um grande esforço de especialistas. OBJETIVO: Realizar uma revisão da literatura, visando o estudo de metodologias e ferramentas utilizadas em procedimentos de anotação de textos. MÉTODO: Levantamento em bases científicas referentes à elaboração de corpus morfológicos, sintáticos e morfossintáticos foi realizado, analisando 32 estudos de anotação e mais 12 ferramentas. RESULTADOS: Foram levantados os principais aspectos nos processos de anotação, bem como realizada uma avaliação dentre critérios pré-definidos de cada das ferramentas de suporte encontradas.
The use of natural language processing techniques (NLP) in clinical texts is dependent on large amounts of annotated text data, called corpus or gold standard. Are essential for the modelling language during the training phase of NLP algorithms. However, for the creation of a gold standard is required extensive and costly manual annotation task, that demands a great deal of experts. OBJECTIVES: To review the literature to identify methodologies and tools applied to text annotation. METHODS: Scientifics databases search regarding the development of morphological, syntactic and morphosyntactic corpus was performed by analyzing 32 annotation studies and 12 tools. RESULTS: Main aspects of the annotation process description, as well as an assessment from pre-defined criteria for each one of the annotation tools identified.