这页已由机器翻译。其他页面可能仍然显示为英文。 View in English

对稀有疾病信息提取管道,seq2seq模型和LLM进行比较

  • 0University of Kentucky, Lexington, KY, USA.
Natural Language Processing and Information Systems : ... International Conference on Applications of Natural Language to Information Systems, Nldb ... Revised Papers. International Conference on Applications of Natural Language to Info +

|

|

概括

此摘要是机器生成的。

管道和序列对序列模型在复杂的生物医学数据的端到端关系提取 (E2ERE) 中表现出色. 尽管大型语言模型 (LLM) 越来越多,但当有培训数据时,传统的E2ERE方法表现优于它们.

科学领域

  • 生物医学自然语言处理 (NLP)
  • 信息提取
  • 知识的发现

背景情况

  • 端到端关系提取 (E2ERE) 对于构建生物医学知识图表至关重要.
  • 现有的E2ERE方法经常与文档级任务中发现的复杂实体 (不连续,重叠,嵌套) 发生冲突.
  • 由于这些复杂的特征,RareDis数据集为E2ERE提供了一个具有挑战性的用例.

研究的目的

  • 在复杂数据集 (RareDis) 上评估和比较三个主要E2ERE范式的性能.
  • 确定最适合生物医学NLP任务的E2ERE方法,特别是处理复杂的数据结构时.
  • 提供指导生物医学领域E2ERE模型的经验证据.

主要方法

  • 三种E2ERE范式的比较分析:管道 (NER + RC),序列对序列和生成的大型语言模型 (LLM).
  • 使用RareDis数据集,以复杂实体为特征,用于评估每个范式的代表模型.
  • 对第二个数据集的验证结果集中在化学蛋白相互作用上.

主要成果

  • 基于管道的E2ERE模型在RareDis数据集上表现出卓越的性能.
  • 序列对序列模型也具有竞争力,紧跟管道方法.
  • 大型语言模型 (LLM) 在零射击场景中更有效,但在数据可用时不如训练模型.

结论

  • 对于具有可用的训练数据的复杂生物医学关系提取任务,建议采用传统管道或序列对序列模型,而不是大型语言模型.
  • 这项研究强调了已建立的E2ERE方法对专门的生物医学NLP挑战的持续相关性和有效性.
  • 这项研究为RareDis数据集提供了第一个E2ERE分析,为该领域提供了有价值的见解.