- 1、本文档共118页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
知识产权出版社有限责任公司
DI项目数据库引擎
技术方案
(正本)
目录
TOC 1. 项目背景 6
1.1. 项目背景 6
1.2. 项目目标 7
2. 项目现状与范围 7
2.1. 项目现状 7
2.1.1 相关系统现状 7
2.1.2 硬件系统现状 7
2.2. 项目范围 8
2.2.1 用户范围 8
2.2.2 数据范围 8
3. 项目需求 8
4. 项目解决方案及整体架构设计 13
4.1. 系统技术架构设计 13
4.1.1 数据源层 13
4.1.2 数据采集层 14
4.1.3 智能数据操作层 14
4.1.4 分布式服务器 15
4.1.5 搜索及内容分析应用界面 15
4.2. 系统运行环境数据流图 16
4.3. 服务器部署说明 16
4.4. 服务器配置及用途说明 17
5. 系统功能方案 18
5.1. 数据采集加工功能 18
5.1.1. 文件系统采集 19
5.1.2. 数据库采集 23
5.1.3. 网络数据采集 25
5.1.4. 实体抽取 28
5.2. 数据检索功能 29
5.2.1 文本检索 29
5.2.2 语义检索 30
5.2.3 跨语言检索 31
5.2.4 近似检索 32
5.2.5 字段排序 32
5.2.6 分组导航 33
5.2.7 统计分析 34
5.2.8 快速建库 34
5.2.9 大数据关联 35
5.3. 内容分析功能 35
5.3.1 主题词提取 35
5.3.2 自动标引 36
5.3.3 主题向量 36
5.3.4 数据分类 36
5.3.5 关键词聚类 38
5.3.6 引证树关联分析 39
5.3.7 相关关系分析 39
5.3.8 新词发现分析 40
5.3.9 机器翻译 40
5.4. 系统部署功能 41
5.4.1 多语言支持 41
5.4.2 索引与数据分离 42
5.4.3 字段存储空间 42
5.4.4 海量文件管理 42
5.4.5 分布式检索 44
5.4.6 分布式存储 47
5.4.7 集群配置管理 47
5.4.8 集群工作状态监控管理 48
5.4.9 文件存储系统 52
5.4.10 缓存系统 52
5.5. 系统性能 53
5.5.1 稳定性 53
5.5.2 响应时间 53
5.5.3 数据更新 54
5.5.4 数据备份 54
5.6. 二次开发接口 55
5.7. 系统安全 55
6. 产品性能与可扩展性保障 57
6.1. 分布式组件介绍 57
6.2. 高性能部署方案 60
6.2.1 IDOL产品的统一平台设计 60
6.2.2 索引与数据分离 60
6.2.3 按功能配置字段 61
6.2.4 数据预处理 61
6.2.5 分布式部署 62
6.3. 系统可扩展性保障 62
6.3.1 升级扩容方案 62
6.3.2 自动数据负载 62
7. 安全策略及处理机制 64
7.1. 搜索引擎安全性 64
7.2. 用户认证 65
7.3. Windows NT/2000认证 66
7.4. LDAP(轻量目录访问协议)认证 66
7.5. 用户授权 66
7.6. 第三方安全集成 67
7.6.1 非映射安全模式 68
7.6.2 映射安全模式 68
7.7. 安全通信 69
8. 性能预估及负载能力 70
8.1. 系统的性能要求 70
8.2. IDOL系统的性能 70
8.2.1 分类效率 70
8.2.2 检索准确率 71
8.2.3 文本过滤/排重准确率 71
8.2.4 文本提取速度 72
8.2.5 千万级数据检索速度 72
8.2.6 索引速度 73
8.2.7 平均处理速度 74
8.3. 稳定性及突发事故时的容错机制 76
9. 系统软件的可靠性保障 79
10. 系统软件的接口标准保障 80
11. 系统软件 83
11.1. HP IDOL智能数据处理平台 83
11.1.1 IDOL功能模块 83
关键字搜索(Retrieval – Lite) 84
文章搜索(Retrieval - Standard) 84
高级搜索(Retrieval - Advanced) 85
临位搜索(Retrieval - AdvancedPlus) 86
自动摘要(Summarisation) 86
自动搜索导航(AQG) 87
参数统计(Parametric) 89
关键词提取(TermGetBest) 89
实体抽取(Eduction) 89
0 分类管理(
1亿VIP精品文档免费下
相关文档
最近下载
- 2021广东省小升初数学真题试卷及答案(历年共15卷).docx
- 验船师考试CCS题_图文.pdf VIP
- 人教版英语八年级下册现在完成时练习题.docx
- 2023年CDGA历年真题归集(733道).docx
- 实训5-10 分批法简化应用实训及答案.docx
- 隧道工程模块作业活动风险分级管控清单.pdf VIP
- 【真题汇编】2021-2022年(两年)广州地区六年级上学期语文期末考试分类汇编合集(解析版和原卷版-共7个专题).Doc VIP
- 【真题汇编】2021-2022年(两年)广州地区三年级上学期语文期末考试分类汇编合集(解析版和原卷版-共6个专题).Doc VIP
- A级注册验船师考试题库附答案(二).pdf VIP
- 【真题汇编】2021-2022年(两年)广州地区四年级上学期语文期末考试分类汇编合集(解析版和原卷版-共7个专题).Doc VIP
文档评论(0)