DI项目数据库引擎_技术方案.docx

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
知识产权出版社有限责任公司 DI项目数据库引擎 技术方案 (正本) 目录 TOC 1. 项目背景 6 1.1. 项目背景 6 1.2. 项目目标 7 2. 项目现状与范围 7 2.1. 项目现状 7 2.1.1 相关系统现状 7 2.1.2 硬件系统现状 7 2.2. 项目范围 8 2.2.1 用户范围 8 2.2.2 数据范围 8 3. 项目需求 8 4. 项目解决方案及整体架构设计 13 4.1. 系统技术架构设计 13 4.1.1 数据源层 13 4.1.2 数据采集层 14 4.1.3 智能数据操作层 14 4.1.4 分布式服务器 15 4.1.5 搜索及内容分析应用界面 15 4.2. 系统运行环境数据流图 16 4.3. 服务器部署说明 16 4.4. 服务器配置及用途说明 17 5. 系统功能方案 18 5.1. 数据采集加工功能 18 5.1.1. 文件系统采集 19 5.1.2. 数据库采集 23 5.1.3. 网络数据采集 25 5.1.4. 实体抽取 28 5.2. 数据检索功能 29 5.2.1 文本检索 29 5.2.2 语义检索 30 5.2.3 跨语言检索 31 5.2.4 近似检索 32 5.2.5 字段排序 32 5.2.6 分组导航 33 5.2.7 统计分析 34 5.2.8 快速建库 34 5.2.9 大数据关联 35 5.3. 内容分析功能 35 5.3.1 主题词提取 35 5.3.2 自动标引 36 5.3.3 主题向量 36 5.3.4 数据分类 36 5.3.5 关键词聚类 38 5.3.6 引证树关联分析 39 5.3.7 相关关系分析 39 5.3.8 新词发现分析 40 5.3.9 机器翻译 40 5.4. 系统部署功能 41 5.4.1 多语言支持 41 5.4.2 索引与数据分离 42 5.4.3 字段存储空间 42 5.4.4 海量文件管理 42 5.4.5 分布式检索 44 5.4.6 分布式存储 47 5.4.7 集群配置管理 47 5.4.8 集群工作状态监控管理 48 5.4.9 文件存储系统 52 5.4.10 缓存系统 52 5.5. 系统性能 53 5.5.1 稳定性 53 5.5.2 响应时间 53 5.5.3 数据更新 54 5.5.4 数据备份 54 5.6. 二次开发接口 55 5.7. 系统安全 55 6. 产品性能与可扩展性保障 57 6.1. 分布式组件介绍 57 6.2. 高性能部署方案 60 6.2.1 IDOL产品的统一平台设计 60 6.2.2 索引与数据分离 60 6.2.3 按功能配置字段 61 6.2.4 数据预处理 61 6.2.5 分布式部署 62 6.3. 系统可扩展性保障 62 6.3.1 升级扩容方案 62 6.3.2 自动数据负载 62 7. 安全策略及处理机制 64 7.1. 搜索引擎安全性 64 7.2. 用户认证 65 7.3. Windows NT/2000认证 66 7.4. LDAP(轻量目录访问协议)认证 66 7.5. 用户授权 66 7.6. 第三方安全集成 67 7.6.1 非映射安全模式 68 7.6.2 映射安全模式 68 7.7. 安全通信 69 8. 性能预估及负载能力 70 8.1. 系统的性能要求 70 8.2. IDOL系统的性能 70 8.2.1 分类效率 70 8.2.2 检索准确率 71 8.2.3 文本过滤/排重准确率 71 8.2.4 文本提取速度 72 8.2.5 千万级数据检索速度 72 8.2.6 索引速度 73 8.2.7 平均处理速度 74 8.3. 稳定性及突发事故时的容错机制 76 9. 系统软件的可靠性保障 79 10. 系统软件的接口标准保障 80 11. 系统软件 83 11.1. HP IDOL智能数据处理平台 83 11.1.1 IDOL功能模块 83 关键字搜索(Retrieval – Lite) 84 文章搜索(Retrieval - Standard) 84 高级搜索(Retrieval - Advanced) 85 临位搜索(Retrieval - AdvancedPlus) 86 自动摘要(Summarisation) 86 自动搜索导航(AQG) 87 参数统计(Parametric) 89 关键词提取(TermGetBest) 89 实体抽取(Eduction) 89 0 分类管理(

文档评论(0)

138****4948 + 关注
实名认证
内容提供者

电子信息工程师持证人

该用户很懒,什么也没介绍

认证主体侯**
领域认证该用户于2023年05月10日上传了电子信息工程师

1亿VIP精品文档免费下

相关文档

相关课程推荐