这页已由机器翻译。其他页面可能仍然显示为英文。
View in English
对稀有疾病信息提取管道,seq2seq模型和LLM进行比较
- Shashank Gupta 1, Xuguang Ai 1, Yuhang Jiang 1, Ramakanth Kavuluru 1
- Shashank Gupta 1, Xuguang Ai 1, Yuhang Jiang 1
- 1University of Kentucky, Lexington, KY, USA.
- 0University of Kentucky, Lexington, KY, USA.
Natural Language Processing and Information Systems : ... International Conference on Applications of Natural Language to Information Systems, Nldb ... Revised Papers. International Conference on Applications of Natural Language to Info
+
|
2025年八月22日
相关实验视频
Contact us if these videos are not relevant.
Contact us if these videos are not relevant.
在PubMed上查看摘要
概括
此摘要是机器生成的。管道和序列对序列模型在复杂的生物医学数据的端到端关系提取 (E2ERE) 中表现出色. 尽管大型语言模型 (LLM) 越来越多,但当有培训数据时,传统的E2ERE方法表现优于它们.
科学领域
- 生物医学自然语言处理 (NLP)
- 信息提取
- 知识的发现
背景情况
- 端到端关系提取 (E2ERE) 对于构建生物医学知识图表至关重要.
- 现有的E2ERE方法经常与文档级任务中发现的复杂实体 (不连续,重叠,嵌套) 发生冲突.
- 由于这些复杂的特征,RareDis数据集为E2ERE提供了一个具有挑战性的用例.
研究的目的
- 在复杂数据集 (RareDis) 上评估和比较三个主要E2ERE范式的性能.
- 确定最适合生物医学NLP任务的E2ERE方法,特别是处理复杂的数据结构时.
- 提供指导生物医学领域E2ERE模型的经验证据.
主要方法
- 三种E2ERE范式的比较分析:管道 (NER + RC),序列对序列和生成的大型语言模型 (LLM).
- 使用RareDis数据集,以复杂实体为特征,用于评估每个范式的代表模型.
- 对第二个数据集的验证结果集中在化学蛋白相互作用上.
主要成果
- 基于管道的E2ERE模型在RareDis数据集上表现出卓越的性能.
- 序列对序列模型也具有竞争力,紧跟管道方法.
- 大型语言模型 (LLM) 在零射击场景中更有效,但在数据可用时不如训练模型.
结论
- 对于具有可用的训练数据的复杂生物医学关系提取任务,建议采用传统管道或序列对序列模型,而不是大型语言模型.
- 这项研究强调了已建立的E2ERE方法对专门的生物医学NLP挑战的持续相关性和有效性.
- 这项研究为RareDis数据集提供了第一个E2ERE分析,为该领域提供了有价值的见解.

