Esta página ha sido traducida por una máquina. Otras páginas pueden seguir apareciendo en inglés. View in English

Bangla reconocimiento de voz y emociones utilizando aprendizaje profundo basado en ensamblaje y fusión de características

  • 0Department of Computer Science and Engineering, Pabna University of Science and Technology, Pabna 6600, Bangladesh.

|

|

Resumen

Este resumen es generado por máquina.

Este estudio introduce un nuevo enfoque de aprendizaje profundo para el reconocimiento de emociones del habla bengalí, mejorando significativamente la precisión y la generalización mediante la fusión de características de aprendizaje artesanal y profundo. El método mejora los sistemas de interacción humano-computadora con capacidades de identificación de emociones más robustas.

Área De La Ciencia

  • Procesamiento del habla
  • Inteligencia artificial
  • Interacción hombre-computadora

Sus Antecedentes

  • El reconocimiento de emociones del habla en bengalí enfrenta desafíos en cuanto a precisión, dependencia del hablante y generalización.
  • Los métodos existentes que utilizan modelos de aprendizaje profundo tradicionales o básicos carecen de robustez en condiciones variadas.

Objetivo Del Estudio

  • Proponer un nuevo enfoque de fusión de funciones de aprendizaje profundo de múltiples flujos para el reconocimiento de emociones del habla bengalí.
  • Abordar las limitaciones de los métodos existentes mejorando la precisión, la robustez y la generalización.

Principales Métodos

  • Técnicas de aumento de datos aplicadas a los conjuntos de datos de entrenamiento.
  • Extracción de elementos hechos a mano (ZCR, MFCC, etc.) y las características de aprendizaje profundo.
  • Arquitectura de aprendizaje profundo de múltiples flujos con las corrientes 1D CNN, CNN-LSTM y CNN-Bi-LSTM.
  • Aprendizaje conjunto con votación suave para la predicción final.

Principales Resultados

  • Se han alcanzado altas precisiones: 92,90% (SUBESCO), 85,20% (BanglaSER), 90,63% (fusionado), 67,71% (RAVDESS), 69,25% (EMODB).
  • Demostró una mayor robustez y generalización en comparación con los métodos existentes.
  • Combinación efectiva de las características de aprendizaje artesanal y profundo a través del aprendizaje conjunto.

Conclusiones

  • El enfoque de fusión de funciones de aprendizaje profundo de múltiples corrientes propuesto mejora significativamente el reconocimiento de emociones del habla bengalí.
  • La combinación de diversas características y el aprendizaje conjunto proporciona una solución más completa y robusta.
  • El método ofrece un avance prometedor para el reconocimiento de emociones en los sistemas de interacción humano-computadora.

Videos de Conceptos Relacionados

Labeling Emotion 01:20

237

Emotional labeling is a cognitive process that involves identifying and naming one's emotions, such as anger, fear, happiness, or sadness. It allows individuals to recognize and express their internal emotional states, a critical aspect of emotional regulation and communication. Labeling emotions requires more than mere recognition; it also involves drawing upon memory and contextual cues to understand the current situation and apply a corresponding emotional label. For instance, feeling...

Force Classification 01:22

1.6K

Forces play a crucial role in the study of physics and engineering. They are essential in describing the motion, behavior, and equilibrium of objects in the physical world. Forces can be classified based on their origin, type, and direction of action.
Contact and non-contact forces are two of the most widely used categories of forces. As the name suggests, contact forces require physical contact between two objects to act upon each other. Examples of contact forces include frictional,...

Classification of Signals 01:30

878

In signal processing, signals are classified based on various characteristics: continuous-time versus discrete-time, periodic versus aperiodic, analog versus digital, and causal versus noncausal. Each category highlights distinct properties crucial for understanding and manipulating signals.
A continuous-time signal holds a value at every instant in time, representing information seamlessly. In contrast, a discrete-time signal holds values only at specific moments, often denoted as x(n), where...

Physiology of Emotion 01:20

1.4K

The physiology of emotions is a multifaceted process involving the autonomic nervous system, brain structures, hormones, and neurotransmitters. This intricate interplay dictates how emotions manifest in the body and influence behavior.
Autonomic Nervous System
The autonomic nervous system (ANS) plays a critical role in emotional responses by regulating involuntary physiological functions. It consists of two main components: the sympathetic and parasympathetic systems. The sympathetic system...

Emotional Expression 01:26

367

Emotional expression encompasses how individuals convey their emotions through verbal communication and non-verbal cues. These non-verbal actions include facial expressions, body language, and physical gestures, such as frowning or smiling. Among these, facial expressions play a crucial role in emotional expression and are understood universally, indicating a biological basis for how humans communicate emotions.
Universal Facial Expressions
Psychologist Paul Ekman identified seven basic...