RESUMEN
Creating notes in the EHR is one of the most problematic aspects for health professionals. The main challenges are the time spent on this task and the quality of the records. Automatic speech recognition technologies aim to facilitate clinical documentation for users, optimizing their workflow. In our hospital, we internally developed an automatic speech recognition system (ASR) to record progress notes in a mobile EHR. The objective of this article is to describe the pilot study carried out to evaluate the implementation of ASR to record progress notes in a mobile EHR application. As a result, the specialty that used ASR the most was Home Medicine. The lack of access to a computer at the time of care and the need to perform short and fast evolutions were the main reasons for users to use the system.
Asunto(s)
Documentación , Software de Reconocimiento del Habla , Humanos , Proyectos Piloto , Personal de Salud , HospitalesRESUMEN
El aprendizaje profundo es un tipo de inteligencia artificial computarizada que tiene como objetivo entrenar a una computadora para que realice tareas que normalmente realizan los humanos basándose en redes neuronales artificiales. Los avances tecnológicos recientes han demostrado que las redes neuronales artificiales se pueden aplicar a campos como el reconocimiento de voz y audio, la traducción automática, los juegos de mesa, el diseño de fármacos y el análisis de imágenes médicas. El desarrollo de estas técnicas ha sido extremadamente rápido en los últimos años y las redes neuronales artificiales hoy en día superan a los humanos en muchas de estas tareas. Las redes neuronales artificiales se inspiraron en la función de sistemas biológicos como el cerebro y los nodos conectados dentro de estas redes que modelan las neuronas. El principio de tales redes es que están capacitadas con conjuntos de datos donde se conoce la verdad fundamental. Como ejemplo, la red debe estar capacitada para identificar imágenes donde se representa una bicicleta. Esto requiere una gran cantidad de imágenes donde las bicicletas se etiquetan manualmente (la llamada verdad fundamental) que luego son analizadas por la computadora. Si se utilizan suficientes imágenes con bicicleta o sin bicicleta, la red neuronal artificial puede entrenarse para identificar bicicletas en otros conjuntos de imágenes. En las imágenes médicas, los enfoques clásicos incluyen la extracción de características semánticas definidas por expertos humanos o características agonísticas definidas por ecuaciones. Las características semánticas pueden proporcionar una buena especificidad para el diagnóstico de enfermedades, pero pueden diferir entre diferentes médicos dependiendo de su nivel de experiencia, requieren mucho tiempo y son costosas. Las características agonísticas pueden tener una especificidad limitada, pero ofrecen la ventaja de una alta reproducibilidad. El aprendizaje profundo tiene un enfoque diferente. Se requiere un conjunto de datos de entrenamiento donde se conoce la verdad básica, en este caso el diagnóstico. El número de datos necesarios es elevado y, por lo general, se utilizan 100.000 imágenes o más. Una vez que se entrena la red neuronal artificial, se puede aplicar a un conjunto de datos de validación en el que también se conoce el diagnóstico, pero no se informa a la computadora. La salida de la red neuronal artificial es, en el caso más simple, una enfermedad o ninguna enfermedad que pueda compararse con la verdad fundamental. La concordancia con la verdad del terreno se cuantifica utilizando medidas como el área bajo la curva (AUC, puede tomar valores entre 0 y 1, siendo 1 la discriminación perfecta entre salud y enfermedad), especificidad (puede tomar valores entre 0% y 100% y la proporción de negativos reales que se identifican correctamente) y la sensibilidad (puede tomar valores entre 0% y 100% y cuantifica la proporción de positivos reales que se identifican correctamente). Si se requiere una alta sensibilidad o una alta especificidad depende de la enfermedad, la prevalencia de la enfermedad, así como el entorno clínico real donde se debe emplear esta red
Asunto(s)
Humanos , Inteligencia Artificial , Redes Neurales de la Computación , Software de Reconocimiento del Habla , Aprendizaje ProfundoRESUMEN
La acústica forense es una disciplina de la criminalística que ha alcanzado una ma-durez analítica que obliga a que el perito en análisis de voz se especialice en adquirir conocimientos en fonética, tecnologías de sonido, habla, voz, lenguaje, patologías del habla y la voz, así como procesamiento de la señal sonora. Cuando un dictamen deba ser realizado por un profesional de la salud completamente ajeno a la técnica legal, se tropieza con una falta de protocolos, métodos y procedimientos de trabajo que le permitan entregar un informe técnico, válido y validado para la realización de una entrevista y su posterior análisis comparativo de voces, lo que promueve la necesidad de elaborar una ruta o guía metodológica a través de medios académicos físicos o electrónicos para el desarrollo de este conocimiento y su difusión profesional y científica
Forensic acoustics is a criminalistics discipline that has reached an analytical maturity that requires the expert in voice analysis to specialize in acquiring knowledge in pho-netics, sound technologies, speech, voice, language, speech, and voice pathologies, as well as sound signal processing. When an opinion must be made by a health profes-sional completely unrelated to the legal technique, he encounters a lack of protocols, methods, and work procedures that allow him to deliver a technical, valid, and vali-dated report for conducting an interview and its subsequent comparative analysis of voices, which promotes the need to develop a methodological route or guide through physical or electronic academic means for the development of this knowledge and its professional and scientific dissemination
Asunto(s)
Software de Reconocimiento del Habla , Reconocimiento de Voz , Voz , Calidad de la Voz/fisiología , Software de Reconocimiento del Habla/normas , Disartria , Reconocimiento de Voz/fisiologíaRESUMEN
RESUMO Objetivo identificar a contribuição do microfone omnidirecional (T-Mic) e microfone direcional adaptativo (UltraZoom) do processador de som Naída CIQ70 para o reconhecimento da fala no ruído e em ambiente reverberante. Identificar a contribuição do processador de som Naída CIQ70 para usuários do processador Harmony. Métodos participaram do estudo sete adultos com implante coclear unilateral, usuários do processador de som Harmony. O reconhecimento de sentenças foi avaliado em silêncio, em sala reverberante (RT60 de 553 ms) e ruído de 42,7 dBA (Leq), com os processadores Harmony e Naída CIQ70. A contribuição do microfone direcional UltraZoom foi avaliada no ruído. As sentenças gravadas foram apresentadas a 0° azimute. O ruído (babble noise) foi apresentado a + 5 dB SNR, a 90° azimute. Os participantes avaliaram subjetivamente a clareza do som e a dificuldade de escutar nas várias condições do teste. Resultados a média do reconhecimento de sentenças no silêncio com reverberação foi de 38,5% com o Harmony e 66,5% com o Naída CIQ70. A pontuação média de reconhecimento de sentenças no ruído foi de 40,5% com o Naída CIQ70, sem UltraZoom, e de 64,5% com UltraZoom. Nas classificações subjetivas de clareza do som e facilidade de escuta no ruído, nenhuma diferença foi identificada entre as condições de teste. Conclusão para usuários experientes do processador de som Harmony, a compreensão da fala em silêncio em uma sala reverbente foi significativamente melhor com o Naída CIQ70. O uso de uma tecnologia de microfone direcional adaptativa (UltraZoom) contribuiu para o reconhecimento de fala no ruído.
Abstract Purpose 1) To measure speech understanding in noise with the Naída Q70 in the omnidirectional microphone mode (T-Mic) and adaptive directional microphone mode (UltraZoom) in reverberating acoustics and noisy conditions. 2) To measure improvement in speech understanding with use of the Advanced Bionics (AB) Naída Q70 sound processor for existing Harmony users. Methods Seven adult unilateral cochlear implant (CI) recipients, who were experienced users of the Harmony sound processor, participated in the study. Sentence recognition was evaluated in quiet in a reverberating room, with Harmony and Naída CI Q70 processors. Effectiveness of Naída CI Q70's UltraZoom directional microphone was evaluated in noise. Target stimuli were recorded Portuguese sentences presented from 0° azimuth. Twenty-talker babble was presented at +5dB SNR from ±90° azimuth. In addition to sentence recognition, the participants also rated the clarity of sound and difficulty of listening in the various test conditions. In order to evaluate the outcomes under more realistic acoustic conditions, tests were conducted in a non-sound treated reverberant room (RT60 of 553 ms and noise floor of 42.7 dBA (Leq). Results The average sentence recognition in quiet in the reverberant non-sound treated room was 38.5% with the Harmony and 66.5% with Naída CI Q70. The average sentence recognition score in noise was 40.5% with Naída CI Q70 without UltraZoom and 64.5% with UltraZoom. For subjective ratings of sound clarity and listening ease in noise no difference were identified between the test conditions. Conclusion For experienced users of the Harmony sound processor, speech understanding in quiet in a reverberating room was significantly improved with the Naída CI Q70. The use of an adaptive directional microphone technology (UltraZoom) enhanced speech perception in noise.
Asunto(s)
Humanos , Masculino , Femenino , Adulto , Implantación Coclear , Software de Reconocimiento del Habla , Acústica del Lenguaje , Inteligibilidad del Habla , Percepción del Habla , Pérdida Auditiva Bilateral , RuidoRESUMEN
The overall purpose of automatic speech recognition systems is to make possible the interaction between humans and electronic devices through speech. For example, the content captured from user's speech using a microphone can be transcribed into text. In general, such systems should be able to overcome adversities such as noise, communication channel variability, speaker's age and accent, speech speed, concurrent speeches from other speakers and spontaneous speech. Despite this challenging scenario, this study aims to develop a Web System Prototype to generate medical reports through automatic speech recognition in the Brazilian Portuguese language. The prototype was developed by applying a Software Engineering technique named Delivery in Stage. During the conduction of this technique, we integrated the Google Web Speech API and Microsoft Bing Speech API into the prototype to increase the number of compatible platforms. These automatic speech recognition systems were individually evaluated in the task of transcribing the dictation of a medical area text by 30 volunteers. The recognition performance was evaluated according to the Word Error Rate measure. The Google system achieved an error rate of 12.30%, which was statistically significantly better (p-value <0.0001) than the Microsoft one: 17.68%. Conducting this work allowed us to conclude that these automatic speech recognition systems are compatible with the prototype and can be used in the medical field. The findings also suggest that, besides supporting medical reports construction, the Web System Prototype can be useful for purposes such as recording physicians' notes during a clinical procedure.
Asunto(s)
Documentación/métodos , Internet/estadística & datos numéricos , Errores Médicos/prevención & control , Sistemas de Registros Médicos Computarizados/normas , Programas Informáticos , Software de Reconocimiento del Habla/normas , Habla/fisiología , Adulto , Brasil , Femenino , Humanos , Masculino , Persona de Mediana Edad , Adulto JovenRESUMEN
Conversations especially between a clinician and a patient are important sources of data to support clinical care. To date, clinicians act as the sensor to capture these data and record them in the medical record. Automatic speech recognition (ASR) engines have advanced to support continuous speech, to work independently of speaker and deliver continuously improving performance. Near human levels of performance have been reported for several ASR engines. We undertook a systematic comparison of selected ASRs for clinical conversational speech. Using audio recorded from unscripted clinical scenarios using two microphones, we evaluated eight ASR engines using word error rate (WER) and the precision, recall and F1 scores for concept extraction. We found a wide range of word errors across the ASR engines, with values ranging from 65% to 34%, all falling short of the rates achieved for other conversational speech. Recall for health concepts also ranged from 22% to 74%. Concept recall rates match or exceed expectations given measured word error rates suggesting that vocabulary is not the dominant issue.
Asunto(s)
Software de Reconocimiento del Habla , Algoritmos , Humanos , Registros Médicos , Habla , VocabularioRESUMEN
RESUMO Objetivo Compor um banco de palavras dissilábicas para elaborar, realizar a validação de conteúdo, obter evidências de fidedignidade e gravar digitalmente listas de dissílabos equivalentes, para a realização do Índice Percentual de Reconhecimento de Fala (IPRF), a fim de complementar a bateria de materiais de fala disponíveis para essa avaliação. Métodos Foram selecionados vocábulos dissilábicos, paroxítonos, substantivos, os quais foram submetidos ao processo de validação de conteúdo, que abrangeu o julgamento quanto à familiaridade, adequação e reconhecimento auditivo, por juízes especialistas e não especialistas. Foram elaboradas listas de dissílabos, com 25 palavras em cada uma, a partir dos vocábulos resultantes da validação de conteúdo, e realizada a pesquisa de equivalência dessas listas, a fim de obter evidências de fidedignidade para o novo instrumento de teste proposto. Resultados A primeira versão do banco de palavras foi composta por 442 dissílabos. Destes, 198 foram considerados familiares pela maioria dos juízes, sendo que 176 foram julgados como adequados. Após o reconhecimento auditivo, foram mantidos, no banco de palavras, 172 vocábulos, distribuídos em seis listas, com 25 palavras em cada uma. Dentre estas listas, apenas uma diferiu das demais e cinco foram consideradas equivalentes, denominadas LD-A, LD-B, LD-C, LD-D e LD-E, gravadas em formato digital em Compact Disc. Conclusão Cinco listas de dissílabos elaboradas foram consideradas equivalentes, nomeadas de listas LD-A, LD-B, LD-C, LD-D e LD-E, disponibilizadas em gravação digital, com evidências satisfatórias de validade e confiabilidade, para complementar a bateria de materiais de fala disponíveis para a realização do IPRF.
ABSTRACT Purpose To compose a bank of dissyllabic words to develop equivalent disyllabic lists, perform content validation, obtain evidence of reliability and digitally record these lists to determine the Speech Recognition Percentage Index (SRPI) in order to complement the set of materials available for this evaluation. Methods We used disyllabic, paroxytone nouns, which were submitted to content validation, which included assessment of familiarity, appropriateness and auditory recognition by expert and non-expert raters. Lists of disyllabic words (with 25 words each) were developed from the words selected after content validation, and the equivalence search of these lists was carried out to collect evidence of reliability for the proposed new test instrument. Results The first version of the word bank was composed of 442 disyllables; 198 of them were considered to be familiar by most raters, and 176 were deemed as appropriate; after auditory recognition, 172 words were kept in the word bank, distributed into six lists, with 25 words in each one. Among these lists, only one differed from the others while the other five were considered to be equivalent, and were named LD-A, LD-B, LD-C, LD-D and LD-E, and recorded in digital format onto a Compact Disc. Conclusion Five lists of disyllabic words were considered as equivalent, named LD-A, LD-B, LD-C, LD-D and LD-E lists. They were digitally recorded and made available with satisfactory evidence of validity and reliability, to complement the set of available speech materials for SRPI assessment.
Asunto(s)
Humanos , Audiometría del Habla , Pruebas de Discriminación del Habla , Prueba del Umbral de Recepción del Habla , Psicometría , Percepción del Habla , Estudios Transversales , Software de Reconocimiento del Habla , Pérdida AuditivaRESUMEN
RESUMO Objetivo Investigar os efeitos dos processos cognitivos e do Índice de Inteligibilidade de Fala no reconhecimento de fala no ruído em idosos, com e sem alteração cognitiva, usuários de próteses auditivas. Métodos 34 idosos, de 64 a 87 anos, com perda auditiva neurossensorial simétrica de grau moderado, usuários de próteses auditivas, foram distribuídos em grupos de idosos sem (GA; n=21) e com (GB; n=13) evidências de alteração cognitiva. A fim de garantir que o ajuste das próteses auditivas estivesse adequado, realizou-se o mapeamento visível de fala amplificada e foram obtidos os indices de ínteligibilidade de fala. Os idosos foram submetidos a uma triagem cognitiva (10-CS) e ao teste Lista de Sentenças em Português. A avaliação constou da pesquisa do limiar de reconhecimento de sentenças no ruído. Esta pesquisa foi realizada em campo livre, na condição sem e com próteses auditivas. Para análise estatística, foram utilizados os testes de Qui-Quadrado e Mann-Whitney. O nível de significância adotado foi de 0,05. Resultados Não houve diferença significativa entre os índices de inteligibilidade de fala obtidos em ambos os grupos, tanto na condição com próteses auditivas, como na condição sem as próteses. Verificou-se que os idosos com e sem alteração cognitiva apresentaram o mesmo acesso aos sons da fala (SII), nas duas condições. Observou-se que os idosos sem alteração cognitiva apresentaram menor relação sinal/ruído média, para o reconhecimento de 50% das sentenças na presença de ruído tanto na condição sem próteses auditivas como na condição com próteses, do que aqueles com alteração cognitiva. Conclusão Idosos com melhor cognição apresentaram melhor reconhecimento de fala em condições de escuta difícil.
ABSTRACT Purpose Investigate the effects of cognitive processes and Speech Intelligibility Index (SII) in sentence recognition in noise among elderly users of hearing aids with and without cognitive disorders. Methods Study participants were 34 older adults, aged 64-87 years, with bilateral moderate sensorineural hearing loss, users of hearing aids for over a year. The individuals were divided into two groups: GA - without cognitive impairment (n=21) and GB - with cognitive impairment (n=13). In order to verify the adequate amplification of the hearing aids, participants of both groups underwent Visible Speech Mapping and had their Speech Intelligibility Indexes obtained. Subsequently, they were submitted to cognitive screening (10-CS) and the Brazilian Portuguese Sentence List Test. Evaluation consisted of a search for speech perception thresholds in noise (S/N ratio). This search was performed in free-field conditions first without and then with the hearing aids. Data were statistically analyzed at a significance level of 5% using the Chi-squared and Mann-Whitney tests. Results No statistically significant differences were observed between the SII results obtained in both groups either with or without hearing aids. These results demonstrate that the older individuals in the GA and GB present the same access to speech sounds with and without hearing aids. Individuals in the GA presented lower S/N ratio under both conditions. Conclusion Older individuals with better cognition present greater speech recognition in the presence of competitive noise.
Asunto(s)
Humanos , Anciano , Anciano de 80 o más Años , Inteligibilidad del Habla , Implantes Cocleares , Cognición , Ruido , Percepción del Habla , Prueba del Umbral de Recepción del Habla , Distribución de Chi-Cuadrado , Estadísticas no Paramétricas , Software de Reconocimiento del Habla , Audífonos , Pérdida Auditiva SensorineuralRESUMEN
RESUMO Objetivo Traduzir e adaptar o software Logiciel d'Écoute dans le Bruit - LEB, verificar sua efetividade e jogabilidade em um grupo de escolares sem queixas auditivas e/ou de aprendizagem. Métodos A efetividade foi investigada por meio da análise do desempenho de dois grupos pareados, antes e depois do treinamento, no teste de fala comprimida. O grupo treinado (GT), constituído por 22 escolares, entre 9 a 10 anos de idade, recebeu treinamento com o software e o grupo controle (GC), composto por 20 escolares da mesma faixa etária, não recebeu nenhum tipo de estimulação. Após o treinamento, os sujeitos do GT responderam a uma avaliação qualitativa sobre o software. Resultados Os comandos foram compreendidos e executados com facilidade e eficácia. O questionário revelou que o LEB foi bem aceito e estimulante, proporcionando novos aprendizados. O GT apresentou evoluções significativas, em comparação ao GC. Conclusão O êxito na tradução, adaptação e jogabilidade do software fica evidenciado pelas mudanças observadas na habilidade de fechamento auditivo, sugerindo sua efetividade para treinamento da percepção da fala no ruído.
ABSTRACT Purpose To translate and to adapt the software "LEB", verify its effectiveness and playability in a group of students without hearing and / or learning complaints. Methods (I) Effectiveness was investigated by analyzing the performance of two paired groups before and after training in the compressed speech test. The trained group (TG), composed by 22 students aged 9 to 10 years old, received training with the software and the control group (CG), composed by 20 students of the same age, did not receive any type of stimulation; (II) after the training, the subjects of the TG responded to a qualitative evaluation about the software. Results The commands were understood and executed easily and effectively. The questionnaire revealed that LEB was well accepted and stimulating, providing new learning. The GT presented significant evolutions in comparison to the control group. Conclusions The success in the software's translation, adaptation and gameplay process is evidenced by the observed changes in the auditory closure ability, suggesting its effectiveness for training speech perception in the noise.
Asunto(s)
Humanos , Trastornos de la Percepción Auditiva , Percepción del Habla , Software de Reconocimiento del Habla , Ruido/efectos adversos , Estimulación AcústicaRESUMEN
Purpose: To produce a novel, efficient measure of children's expressive vocal development on the basis of automatic vocalization assessment (AVA), child vocalizations were automatically identified and extracted from audio recordings using Language Environment Analysis (LENA) System technology. Method: Assessment was based on full-day audio recordings collected in a child's unrestricted, natural language environment. AVA estimates were derived using automatic speech recognition modeling techniques to categorize and quantify the sounds in child vocalizations (e.g., protophones and phonemes). These were expressed as phone and biphone frequencies, reduced to principal components, and inputted to age-based multiple linear regression models to predict independently collected criterion-expressive language scores. From these models, we generated vocal development AVA estimates as age-standardized scores and development age estimates. Result: AVA estimates demonstrated strong statistical reliability and validity when compared with standard criterion expressive language assessments. Conclusions: Automated analysis of child vocalizations extracted from full-day recordings in natural settings offers a novel and efficient means to assess children's expressive vocal development. More research remains to identify specific mechanisms of operation.
Asunto(s)
Desarrollo Infantil , Reconocimiento de Normas Patrones Automatizadas , Software de Reconocimiento del Habla , Habla , Niño , Preescolar , Femenino , Humanos , Lactante , Modelos Lineales , Aprendizaje Automático , Masculino , Reconocimiento de Normas Patrones Automatizadas/métodos , Análisis de Componente Principal , Reproducibilidad de los Resultados , VozRESUMEN
RESUMO Introdução O desempenho auditivo para sons supraliminares pode estar comprometido, mesmo quando o audiograma é normal. Pacientes com zumbido sem perda auditiva queixam-se frequentemente de dificuldades de compreensão de fala, principalmente em ambientes ruidosos. Objetivo Investigar o desempenho em testes de fala com ruído, em indivíduos com limiares audiométricos normais, com e sem queixa de zumbido. Métodos Foram avaliados 20 sujeitos adultos, com idade entre 18 e 45 anos, com audição dentro dos padrões de normalidade, que apresentavam, ou não, o sintoma de zumbido, divididos em grupo zumbido e grupo controle. Foram pesquisados os limiares de reconhecimento de sentenças no ruído, por meio do teste Listas de Sentenças em Português. Resultados O grupo zumbido apresentou pior desempenho para os dois ruídos utilizados, porém, com diferença estatística somente na utilização do ruído speech-noise. Conclusão O desempenho de sujeitos com audição normal e queixa de zumbido, no reconhecimento de fala na presença de ruído competitivo, foi pior que em indivíduos sem o sintoma, principalmente na etapa com o ruído speech-noise.
ABSTRACT Introduction Auditory performance for suprathreshold sounds may be compromised even when the audiogram is normal. Patients with tinnitus but without hearing loss often complain of speech recognition difficulties, especially in noisy environments. Purpose To investigate the performance in noise tests in individuals with normal hearing thresholds with and without tinnitus. Methods Twenty adult individuals were evaluated, aged between 18 and 45 years, with hearing within normal limits, presenting or not with tinnitus symptoms, divided into two groups, the tinnitus group and the control group. The SRTN (sentence recognition threshold in noise) were surveyed with the LSP test (list of sentences in Portuguese). Results The tinnitus group had the worst performance for the two noises used, but with a statistically significant difference only when using “speech-noise”. Conclusion We found that the performance of individuals with normal hearing and tinnitus in speech recognition in the presence of background noise is poorer than in patients without the symptom mainly in step obtained with speech-shaped noise.
Asunto(s)
Humanos , Adolescente , Adulto , Persona de Mediana Edad , Umbral Auditivo , Software de Reconocimiento del Habla , Acúfeno , Pruebas Auditivas , Ruido/efectos adversos , Pruebas de Discriminación del Habla , Percepción del Habla , Prueba del Umbral de Recepción del HablaRESUMEN
Introducción: los implantes cocleares permiten seleccionar diferentes entornos sonoros para facilitar la escucha en distintos ambientes auditivos. El objetivo fue analizar el reconocimiento de palabras y oraciones en los entornos sonoros Cotidiano, Ruido y Focalizado en usuarios de implante coclear y; relacionar el reconocimiento con el entorno sonoro más utilizado. Material y método: Es un estudio transversal, en el cual se entrevistó, mediante un cuestionario, a 20 usuarios de procesador Freedom o CP810, de entre 15 y 76 años. Se evaluó el reconocimiento del habla mediante palabras y oraciones en los entornos Cotidiano, Ruido y Focalizado en ambientes simulados según las características acústicas para las cuales fue creada cada opción; y se clasificó en Muy bueno, Bueno, Regular y Malo. Resultados: En todos los entornos el reconocimiento fue en general Muy bueno. La mayoría de pacientes obtuvo reconocimiento Muy bueno en Cotidiano. Sin embargo, con ruido de fondo, Focalizado incluyó al mayor número de pacientes con reconocimiento Muy bueno. La totalidad de pacientes manifestó preferencia por algún entorno, siendo Cotidiano el más elegido. El 70% de pacientes utiliza el entorno que le permite la mejor performance de escucha, mientras que el 30% elige una opción diferente a la que le permite alcanzar el mayor reconocimiento del habla tanto de palabras como de oraciones. Conclusiones: Se sugiere que el especialista evalúe el rendimiento en cada entorno para asesorar a los pacientes sobre los beneficios de las diferentes opciones de escucha. Simultáneamente, impulsar investigaciones en nuestra población acerca de esta temática.
Introduction: cochlear implants allow choose between diferents sound environments to make listening easier in different auditory environments. The aim was to analyze words and sentences recognition in Everyday, Noise and Focus in cochlear implants users. Relate the recognition with the most sound environment used. Material and method: Cross-sectional study. Twenty cochlear implants users were interviewed through a questionnaire. They were using Freedom or CP810 processors. The age range was between 15 and 76 years. Words and sentences perception with Everyday, Noise and Focus was evaluated in simulated environments according to the acoustic characteristics for which each option was created. Recognition was classified in Very Good, Good, Regular and Bad. Results: Mostly, speech recognition was very good in all sound environments . The majority of patients obtained very good recognition in Everyday. However, with background noise, Focus was better. All patients preferred some sound environment. Everyday was the most chosen. 70% of patients used the sound environment that give them the best listening performance but 30% choose a wrong option. Conclusions: It is suggested that the specialist assess the speech recognition in each sound environment to advise patients about the benefits of different listening options. Simultaneously, to promote research in our population on this topic.
Introducão: implantes cocleares permitem selecionar diferentes ambientes sonoros para facilitar a audição em diferentes situações de escuta. O objetivo foi analisar o reconhecimento de palavras e frases em ambientes sonoros Cotidiano, Ruído e Focalizado nos usuários de implante coclear; relacionar reconhecimento com o ambiente sonoro mais utilizado. Material e método: É um estudo transversal em que foram entrevistados por questionário 20 usuários de Freedom ou processador CP810, entre 15 e 76 anos. Reconhecimento da fala foi avaliada usando palavras e frases em Cotidiano, Ruído e Focalizado em ambientes simulados de acordo as características acusticas de cada opção; e ele se classificou em Muito bom, Bom, Regular e Mau. Resultados: Em todos os ambientes o reconhecimento foi geralmente Muito bom. A maioria dos pacientes obteve reconhecimento Muito bom em Cotidiano. No entanto, com o ruído de fundo, Focalizado inclui-o o maior número de pacientes com reconhecimento Muito bom. Todos os pacientes manifestaram preferência por algum ambiente, sendo Cotidiano o mais escolhido. Em 70% dos pacientes, utiliza o ambiente preferido que oferece o maior reconhecimento da fala, enquanto 30% preferem uma opção diferente que lhe permite alcançar o maior reconhecimento da fala em palavras e frases. Conclusões: Sugere-se que o especialista avaliar o desempenho de cada ambiente para aconselhar os pacientes sobre os benefícios de opções de escuta. Simultaneamente impulsionar pesquisa em nossa população sobre este assunto.
Asunto(s)
Masculino , Femenino , Humanos , Adolescente , Adulto , Adulto Joven , Persona de Mediana Edad , Anciano , Implantación Coclear/rehabilitación , Implantación Coclear , Pérdida Auditiva/diagnóstico , Inteligibilidad del Habla , Percepción del Habla , Medición de la Producción del Habla , Software de Reconocimiento del HablaRESUMEN
RESUMO Introdução Verifica-se um crescente interesse de pesquisadores por instrumentos designados para avaliação da percepção da fala. Objetivo Construir um instrumento de identificação perceptual de contrastes fônicos do Português Brasileiro para crianças a partir de 4 anos de idade. Métodos A construção do instrumento envolveu quatro procedimentos: a) delineamento da tarefa experimental; b) seleção dos estímulos que constituíram o instrumento; c) operacionalização do teste; d) estabelecimento dos critérios de análise. Foi utilizado um computador acoplado a um fone de ouvidos e o software PERCEVAL. Resultados O instrumento proposto compreende um subconjunto de quatro experimentos que avaliam, separadamente, a identificação de contrastes entre segmentos vocálicos e entre segmentos consonantais oclusivos, fricativos e soantes. O teste envolve três etapas: fase de reconhecimento de palavras, fase treino e fase teste, com duração total de 15 minutos, aproximadamente. A análise do desempenho perceptivoauditivo das crianças é feita a partir de três critérios: acurácia, tempo de reação e padrão de identificação dos contrastes fônicos, sendo registrada em um protocolo específico. Conclusão Estudos que têm utilizado o PERCEFAL em sua metodologia reportam baixa porcentagem de não resposta por parte das crianças (entre 2% e 5%), o que indica que a tarefa mostra-se apropriada para a sua finalidade. Encoraja-se o uso do instrumento nas diversas regiões do país, para averiguar, não somente sua aplicabilidade, dada à diversidade linguística do país, como também para verificar sua sensibilidade e especificidade.
ABSTRACT Introduction: There is a growing interest of researchers in instruments designed for assessment of speech perception. Purpose: To develop an instrument to perceptual identification of phonemic contrasts in the Brazilian Portuguese for children over 4 years of age. Methods: The construction of the instrument involved four procedures: a) design of the experimental task; b) stimuli selection which constituted the instrument; c) operationalization of the test; and d) establishing the analysis criteria. It was used a computer attached to a headphone and PERCEVAL software. Results: The proposed instrument comprises a subset of four experiments that evaluate separately the identification of contrasts between vowel segments and between stops consonant segments, fricative and sonorant consonant segments. The test presents includes three stages: word recognition stage, training stage and testing stage, with an approximate 15-minute overall duration. The analysis of children's auditory perceptual performance is carried out based on three criteria: accuracy, reaction time and pattern of phonic contrasts identification, being recorded following a specific protocol. Conclusion: Studies that have used the PERCEFAL in their methodology have reported a low percentage of non-response by children (between 2 and 5%), which indicates that the task is appropriate for its purpose. It is encouraged the use of the instrument in different regions of the country in order to inquire not only its applicability, due to the existing linguistic diversity in the country; but also, to determine its sensitivity and specificity.
Asunto(s)
Humanos , Niño , Discriminación de la Altura Tonal , Percepción del Habla , Personas con Deficiencia Auditiva , Software de Reconocimiento del HablaRESUMEN
RESUMO Objetivo Avaliar o reconhecimento de fala, considerando a previsibilidade da palavra a partir de um teste elaborado. Métodos Foi realizada anamnese, testes de rastreio de comprometimento cognitivo e depressão e avaliação audiológica convencional. Foi desenvolvido um Teste de Reconhecimento de Fala utilizando Frases de Previsibilidade Alta e Baixa e aplicado a 36 idosos (G1 e G3 - grupos sem perda auditiva até 4 kHz e G2 e G4 - grupos com perda auditiva neurossensorial de grau leve a moderado). Dois grupos realizaram o teste no silêncio e com ruído (relação sinal/ruído +5 dB) e os outros dois grupos somente com ruído (relações +5 dB e 0 dB). Resultados O teste de reconhecimento de fala revelou, de modo geral, maior pontuação nas frases de previsibilidade alta e melhores desempenhos para os grupos sem perda auditiva. No silêncio, os idosos sem e com perda auditiva obtiveram pontuação máxima igual e as menores pontuações ocorreram na condição de ruído mais intenso. O benefício da previsibilidade foi positivo para os grupos 1, 2 e 3. O grupo 4 apresentou comportamento variado quanto ao uso da previsibilidade (ora positivo, ora negativo). Conclusão Com a população de idosos avaliados e as diferenças observadas em um dos grupos considerados, não foi possível compreender, com exatidão, como os idosos se beneficiam do apoio da previsibilidade. A perda auditiva e a presença do ruído influenciaram negativamente o desempenho no teste. Faz-se necessária a continuidade desta linha de pesquisa para determinar a validade do material elaborado.
ABSTRACT Purpose evaluation of the speech recognition concerning the word predictability based on a developed test. Methods 1 Results In general, Speech recognition test showed a higher score in the high predictability sentences and better performance for groups without hearing loss. In the silence, elderly with and without hearing loss have also obtained high scores and the lowest scores were achieved in situations with most intense noise. The benefit of predictability was positive for groups 1, 2 and 3. Group 4 showed a different behavior towards the use of predictability (sometimes positive or negative). Conclusion For the elderly evaluated and the differences observed in one of the groups, it was not possible to precisely determine how the elderly benefit from predictability. The hearing loss and the noise have negatively influenced the test performance. Further researches in the area are necessary to confirm the validity of the material produced.
Asunto(s)
Humanos , Masculino , Femenino , Persona de Mediana Edad , Anciano , Anciano de 80 o más Años , Presbiacusia/diagnóstico , Pruebas de Discriminación del Habla , Percepción del Habla , Envejecimiento Cognitivo , Pérdida Auditiva Sensorineural/diagnóstico , Software de Reconocimiento del HablaRESUMEN
OBJETIVO: este trabalho apresenta o estudo no desenvolvimento de um dispositivo que contribua com a autonomia de deficientes visuais na leitura de livros e documentos comuns. O produto deve atender as escolas públicas brasileiras com eficiência e baixo custo. MÉTODOS: o aparelho implementa o processo de OCR (Optical Character Recognition)e converte seu conteúdo textual em voz, sem o emprego de um computador desktop, desempenhando a tarefa de forma autônoma. RESULTADOS: são apresentados uma descrição do dispositivo, as dificuldades técnicas na sua implementação, e um comparativo com outras propostas em pesquisa e produtos no mercado. CONCLUSÃO: o aparelho implementa o processo de OCR com uma performance próxima a dos produtos comerciais, mas com um custo estimado menor.
OBJECTIVE: this paper presents a study on the development of a device that aims the autonomy of visually impaired in reading books and common documents. The product must assist public schools in Brazil with efficiency and low cost. METHODS: The device implements OCR (Optical Character Recognition) and text to speech processing with outa desktop computer, and perform this operation autonomously. RESULTS: this article describes the proposed device, the technical difficulties in its implementation, and the state of art point of view of research and market. CONCLUSION: the device implements the OCR process with a similar performance to the commercial products, but with a smaller estimated cost.
Asunto(s)
Humanos , Trastornos de la Visión , Programas Informáticos , Personas con Daño Visual , Software de Reconocimiento del Habla , Equipos de Comunicación para Personas con Discapacidad , Congresos como AsuntoRESUMEN
OBJECTIVE: To develop a technological tool that improves the initial learning of sign language in hearing impaired children. METHODS: The development of this research was conducted in three phases: the lifting of requirements, design and development of the proposed device, and validation and evaluation device. Through the use of information technology and with the advice of special education professionals, we were able to develop an electronic device that facilitates the learning of sign language in deaf children. This is formed mainly by a graphic touch screen, a voice synthesizer, and a voice recognition system. Validation was performed with the deaf children in the Filadelfia School of the city of Bogotá. RESULTS: A learning methodology was established that improves learning times through a small, portable, lightweight, and educational technological prototype. CONCLUSIONS: Tests showed the effectiveness of this prototype, achieving a 32 % reduction in the initial learning time for sign language in deaf children.
Asunto(s)
Equipos de Comunicación para Personas con Discapacidad , Instrucción por Computador/métodos , Sordera/psicología , Educación de Personas con Discapacidad Auditiva/métodos , Desarrollo del Lenguaje , Lengua de Signos , Niño , Humanos , Aprendizaje , Software de Reconocimiento del HablaRESUMEN
Objetivo Investigar variações nas habilidades motoras da fala em adultos com e sem gagueira, utilizando o dispositivo de alteração do feedback auditivo SpeechEasy®. Métodos Participaram 20 adultos, dez com gagueira (nove do gênero masculino e um do feminino – média 30,9 anos) e dez controles fluentes (nove do gênero masculino e um do feminino – média 25,2 anos). O estudo comparou o desempenho dos participantes em quatro tarefas: fala espontânea, diadococinesia alternada, diadococinesia sequencial e emissão de frase alvo, com e sem o dispositivo. Os aspectos analisados acusticamente foram: (1) tarefas de diadococinesia: duração das sílabas, período médio entre as sílabas, pico de intensidade e taxa de diadococinesia; (2) tarefa de emissão da frase alvo: tempo de reação, duração do voice onset time, duração total da emissão, frequência fundamental e intensidade. Resultados Tanto na comparação intragrupos quanto intergrupos, apenas a tarefa de fala espontânea apresentou diferenças significativas. Nesta tarefa, o uso do SpeechEasy® resultou em melhora significativa da fluência de fala, medida pela porcentagem de sílabas gaguejadas, para o grupo com gagueira. Para o grupo fluente, o dispositivo produziu o efeito oposto (aumento significativo na frequência de rupturas gagas com o dispositivo). Os resultados encontrados quanto aos aspectos acústicos das tarefas de diadococinesia e emissão da frase alvo não indicaram diferença significativa nas comparações intragrupos e intergrupos. Conclusão Os resultados indicaram que o uso do SpeechEasy® melhorou a fluência dos participantes com gagueira, sem parecer interferir na naturalidade de fala. .
Purpose To investigate variations in speech motor skills in adults who stutter and those who do not, using the SpeechEasy® altered auditory feedback device. Methods Twenty adults participated, 10 of whom stuttered (nine males and one female - mean age 30.9 years) and 10 of whom were fluent controls (nine males and one female - mean age 25.2 years). The study compared the performance of participants in four tasks: spontaneous speech, alternating diadochokinesis, sequential diadochokinesis and target phrase production, with and without the device. The following variables were analyzed acoustically: (1) diadochokinesis tasks: syllable duration, mean duration between syllables, peak intensity and diadochokinesis rate; (2) target phrase production task: reaction time, voice onset time (VOT) duration, total production duration, fundamental frequency and intensity. Results The spontaneous speech task was the only task to show significant differences in both the intragroup and intergroup comparisons. In this task, the use of SpeechEasy® resulted in significant improvement in speech fluency, as measured by the percentage of stuttered syllables, for the group who stuttered. For the fluent group, the device produced the opposite effect: a significant increase in the frequency of stuttered disfluencies was observed with the device. No significant differences were found in either intragroup or intergroup comparisons relating to the acoustic aspects of the diadochokinesis and target phrase production tasks. Conclusion The results indicated that the use of SpeechEasy® improved the fluency of participants who stutter, without appearing to interfere with speech naturalness. .
Purpose To investigate variations in speech motor skills in adults who stutter and those who do not, using the SpeechEasy® altered auditory feedback device. Methods 1 2 Results The spontaneous speech task was the only task to show significant differences in both the intragroup and intergroup comparisons. In this task, the use of SpeechEasy® resulted in significant improvement in speech fluency, as measured by the percentage of stuttered syllables, for the group who stuttered. For the fluent group, the device produced the opposite effect: a significant increase in the frequency of stuttered disfluencies was observed with the device. No significant differences were found in either intragroup or intergroup comparisons relating to the acoustic aspects of the diadochokinesis and target phrase production tasks. Conclusion The results indicated that the use of SpeechEasy® improved the fluency of participants who stutter, without appearing to interfere with speech naturalness. .
Asunto(s)
Humanos , Masculino , Femenino , Adulto , Acústica del Lenguaje , Medición de la Producción del Habla , Software de Reconocimiento del Habla , Tartamudeo/terapia , Retroalimentación Sensorial , Pruebas de Discriminación del Habla , Percepción del HablaRESUMEN
Objetivo Desarrollar de una herramienta tecnológica que permita mejorar el aprendizaje inicial de la lengua de señas en los niños con discapacidad auditiva. Métodos El desarrollo de la presente investigación se realizó a través de tres fases: el levantamiento de requerimientos, el diseño y desarrollo del dispositivo propuesto, y la validación y evaluación del dispositivo. A través del uso de las tecnologías de la información y con el asesoramiento de profesionales en educación especial se logró desarrollar un dispositivo electrónico que facilita el aprendizaje de la lengua de señas en los niños sordos. El cual esta conformado principalmente por una pantalla grafica táctil, un sintetizador de voz y un sistema de reconocimiento de voz. La validación se realizó con los niños sordos del colegio Filadelfia para sordos en Bogotá. Resultados Se estableció una metodología de aprendizaje que permite mejorar los tiempos de aprendizaje, a través de un prototipo tecnológico de tamaño reducido, portable, liviano y didáctico. Conclusiones Las pruebas realizadas mostraron la efectividad de este prototipo, logrando reducir en 32 % el tiempo de aprendizaje inicial de la lengua de señas en niños sordos.
Objective To develop a technological tool that improves the initial learning of sign language in hearing impaired children. Methods The development of this research was conducted in three phases: the lifting of requirements, design and development of the proposed device, and validation and evaluation device. Through the use of information technology and with the advice of special education professionals, we were able to develop an electronic device that facilitates the learning of sign language in deaf children. This is formed mainly by a graphic touch screen, a voice synthesizer, and a voice recognition system. Validation was performed with the deaf children in the Filadelfia School of the city of Bogotá. Results A learning methodology was established that improves learning times through a small, portable, lightweight, and educational technological prototype. Conclusions Tests showed the effectiveness of this prototype, achieving a 32 % reduction in the initial learning time for sign language in deaf children.
Asunto(s)
Niño , Humanos , Equipos de Comunicación para Personas con Discapacidad , Instrucción por Computador/métodos , Sordera/psicología , Educación de Personas con Discapacidad Auditiva/métodos , Desarrollo del Lenguaje , Lengua de Signos , Aprendizaje , Software de Reconocimiento del HablaRESUMEN
Objetivo Avaliar o desempenho da percepção de fala no ruído, de indivíduos com perda auditiva, usuários de Aparelho de Amplificação Sonora Individual (AASI) com microfone direcional, nas seguintes situações: sem AASI, com AASI e microfone omnidirecional e com AASI e microfone direcional. Métodos Estudo de coorte histórica, com corte transversal, e participação de 45 sujeitos bilateralmente adaptados com AASI de tecnologia digital. Os sujeitos foram avaliados por meio do teste HINT - Brasil, em três momentos: sem AASI, com AASI e microfone omnidirecional ativado e com AASI e microfone direcional ativado. Resultados Por meio de análise de medidas descritivas e testes estatísticos foi possível verificar diferença entre as três condições de avaliação: sem AASI, com AASI e microfone direcional e com AASI e microfone omnidirecional, sendo o menor valor de p para o microfone direcional ativado. Conclusão A ativação do microfone direcional contribui para o melhor desempenho da percepção de fala em situação de ruído controlado. .
Purpose To investigate speech recognition functioning in noise for hearing-impaired adults who use a hearing aid (HA) with a directional microphone, compared to those patients with no HA and HA with an omnidirectional microphone. Methods A cross-sectional study of 45 subjects bilaterally fitted with digital hearing aids was performed. The subjects were evaluated by the Hearing In Noise Test (HINT-Brazil) under three conditions: without HA, with HA and omnidirectional microphone activated, and with HA and directional microphone activated. Results Through analysis of descriptive measures and statistical tests, we were able to verify that the directional microphone was significantly better. Conclusion Based on the results, we can conclude that the directional microphone contributes most significantly to speech recognition in noise. .
Asunto(s)
Humanos , Adolescente , Adulto , Audífonos/estadística & datos numéricos , Pérdida Auditiva Sensorineural , Ruido , Percepción del Habla , Software de Reconocimiento del Habla , Percepción Auditiva , Estudios de Cohortes , Equipos de Comunicación para Personas con Discapacidad , Pérdida AuditivaRESUMEN
Dysarthria is a frequently occurring motor speech disorder which can be caused by neurological trauma, cerebral palsy, or degenerative neurological diseases. Because dysarthria affects phonation, articulation, and prosody, spoken communication of dysarthric speakers gets seriously restricted, affecting their quality of life and confidence. Assistive technology has led to the development of speech applications to improve the spoken communication of dysarthric speakers. In this field, this paper presents an approach to improve the accuracy of HMM-based speech recognition systems. Because phonatory dysfunction is a main characteristic of dysarthric speech, the phonemes of a dysarthric speaker are affected at different levels. Thus, the approach consists in finding the most suitable type of HMM topology (Bakis, Ergodic) for each phoneme in the speaker's phonetic repertoire. The topology is further refined with a suitable number of states and Gaussian mixture components for acoustic modelling. This represents a difference when compared with studies where a single topology is assumed for all phonemes. Finding the suitable parameters (topology and mixtures components) is performed with a Genetic Algorithm (GA). Experiments with a well-known dysarthric speech database showed statistically significant improvements of the proposed approach when compared with the single topology approach, even for speakers with severe dysarthria.