cGPT S1000自然语言搜索一体机

cGPT S1000 natural language search all-in-one rack

产品介绍

cGPT S1000自然语言搜索一体机是云创大数据针对大规模自然语言处理应用场景,自主研发的高速向量计算搜索一体机。该一体机采用并行计算架构,融合高密度混合服务硬件,为用户提供软硬件一体化的高性能自然语言搜索解决方案。

cGPT S1000自然语言搜索一体机支持TXT、Word、PDF、CSV等多种格式的数据源,支持对采集的数据源进行文本提取和数据清洗,采用分布式集群架构,智能化自动构建搜索资料库。用户只需将海量的业务文件、图书论文文献、文本数据等导入该一体机,即可建立个性化的定制搜索引擎。

支持基于文本语义理解技术,具备更加准确的检索能力,能够将输入查询的文本与一体机中的文本进行快速比对,并将搜索到与输入文本语义相近的多组结果根据相似度排序返回输出。针对千万级甚至上亿量级的文本数据库,该一体机依旧可以达到0.1秒级的返回结果速率。

总体架构

cGPT S1000自然语言搜索一体机基于大数据分布式实时计算框架,结合定制化高密度计算硬件,实现大规模自然语言处理任务的分发与计算结果汇聚,保证计算任务执行的高效和稳定。基于特征向量计算算法以及分布式集群处理资源调度技术,该一体机实现了海量特征库条件下1:N对比任务的高效分解与并行处理,可将单个任务响应效率提升到0.1秒级。

技术优势

自然语言语义理解
自然语言搜索一体机通过理解文本语义,能够识别不同表达方式的真实含义,进行语义相似度计算并排序,从而大幅度提高输出结果的准确性。
0.1秒级响应搜索
搜索方式基于语义理解而非传统的关键词匹配搜索,涵盖词、短语、整句等不同粒度,结果返回速率可达0.1秒级。
支持动态扩展
对于不同数据规模需求的用户,自然语言搜索一体机提供了弹性的性能资源配置模式,可以有效地控制系统建设成本,灵活满足千万甚至上亿量级业务规模的性能需求和使用场景。
支持私有化部署
提供API接口,搜索应用可部署至本地服务器或者用户私有云环境,与用户业务打通融合的同时,实现内外网的物理隔绝,保障数据的私密性。

技术规格

应用场景

cGPT S1000自然语言搜索一体机基于语义理解技术,能够快速查找需要的内容,可广泛应用于资料查询、专利搜索、电子病历检索、法律文献检索、学术文献检索、论文查重等多种场景。

资料查询
用户内部积存大量的档案、资料、文书等各种形式的文档,检索资料不仅繁琐且重复性高,耗费大量时间和精力。通过自然语言处理技术,只需简短的一句话或几个关键词,自然语言搜索一体机即可完成资料搜索,命中率和准确率都大幅提高。
专利搜索
通过关键词匹配不一定能够找出某一主题的所有相关专利,而借助自然语言搜索一体机,可以准确找到已经成功申请的与该主题相关的所有专利信息,包括描述、编号等,从而在专利申请时避免重复申请等问题,大大节省时间和费用。
电子病历检索
基于自然语言搜索一体机,在自然语言处理技术的助力下,用户可建设面向特定医疗领域的知识服务平台,以此更好地提供电子病例检索、处方查询、医疗知识问答等医疗服务。
法律文献搜索
基于自然语言搜索一体机,用户可对案件信息进行查询和梳理,比如针对某一案件,律师通过输入描述,即可在资料库中找出相似案例情况以及司法解释,有助于案件分析、诉讼准备等,司法人员也可借助该一体机节省资料整理、分析的时间。
学术文献检索
查阅论文时,根据关键词匹配,可以检索出不少结果,但主要是包含关键词的内容,不一定是用户真正需要查找的,而借助自然语言搜索一体机,在准确表达查找内容的情况下,只需一句简单描述,即可检索到真正为用户所需的论文。
论文查重
在论文查重时,针对论文可能存在的不同语种相互翻译导致的抄袭,或者以替换词语、改变表达的方式规避查重等问题,借助自然语言搜索一体机,可对其进行准确检测,以语义为准,及时发现论文写作时的抄袭、剽窃等乱象。