第279章九万里

semaphore提示您：看后求收藏（第279章九万里,离语,semaphore,新八一中文网），接着再看更方便。

请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能，避免出现内容无法显示或者段落错乱。

我将分为四个部分来介绍我的毕业论文。首先是研究背景。那么为什么要开展我这个研究呢？随着信息技术和网络技术的快速发展下，非结构化数据的比例迅速上升，传统的数据库并不能存储这些数据，所以这无疑带来了数据管理领域的重大挑战。文献是科技工作者获取知识的重要来源。英语作为国际通用语言，英文文献的重要性便不言而喻。文献通常以pdf进行存储。传统的pdf信息提取，比较局限，采用人工查阅的方法来实现，因此，这必定产生大量人力物力的浪费。

1 研究背景

在信息技术和网络技术的快速发展下，共享信息资源的规模也在迅速增长，人们在工作和生活

中使用各种多样的信息资源，包括语音、短视频、聊天信息等。然而，日常生活中更多的信息以自媒体为发展的数据，是不能被统计到的。

随后进行数据采集，爬取加人工采集。对两种方式采集的文献数据进行整理，将元数据记录好，并统一格式，用于后续的检索。最后是文献的精细筛选。因为rag技术就是要增加大语言模型在专业领域的可信程度，解决大语言模型的幻觉问题。那在数据的选取上就更偏向于专业程度更高的文献类型数据。

本章介绍了研究所选文献数据的获取来源和途径。通过 python 爬取的方式获取大部分文献数

据与元数据，对元数据进行基本处理，为后续分析提供帮助，丰富向量知识库的数据储备。随后为

本章未完，点击下一页继续阅读。

章节报错(免登录)

离语所有内容均来自互联网，新八一中文网只为原作者semaphore的小说进行宣传。欢迎各位书友支持semaphore并收藏离语最新章节。

第279章九万里

莽荒星球：重开人类文明

宝可梦：我打造了精灵盛世

盗墓：阴兵借道

原神：穿越后我是提瓦特灾神

江小太爷的纯情白月光

谋凤业

第279章 九万里

莽荒星球：重开人类文明

宝可梦：我打造了精灵盛世

盗墓：阴兵借道

原神：穿越后我是提瓦特灾神

江小太爷的纯情白月光

谋凤业

第279章九万里