灵玖中科软件(北京)有限公司
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年5月4日 |
供求信息分类: |
商业服务 技术合作 |
供求信息描述: | 随着计算机通信网络技术的不断发展和进步,基于文本信息的计算机网络服务已经深入到人们生活的各个方面。但是计算机网络服务中的文本信息在给人们带来无障碍交流便利的同时,不可避免地也会散播一些未经证实的消息或不实内容;为了尽可能的限制这些信息的网络传播,越来越多的计算机网络服务中集成了敏感词匹配过滤功能,将不良信息的相关词作为敏感词,以对文本信息进行敏感词匹配和过滤。 目前公知的敏感词匹配技术,通常采用敏感词库中的敏感词向待判定信息全文匹配的方式进行的,具体为:把敏感词库中的所有敏感词依次向待判定信息进行比对,如果敏感词被完全包含在特判定信息中,则认为匹配到敏感词。这样的匹配技术存在的问题是,需要把敏感词库中的每一个敏感词都依次与待判定信息进行从头到尾的匹配尝试,即需要遍历一遍敏感词库以及反复遍历待判定信息进行匹配,过多的匹配次数,使得敏感词匹配的整体耗时长、匹配处理效率低。 Nlpir Parser智能平台敏感词过滤系统由灵玖软件研制,针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。 第一步:业务单位准备敏感词列表(可选,如不设置则默认为系统内置敏感词) 首先整理出敏感词文本文件,每行设置一个关键词信息,具体格式如下:词 类别 权重。 说明如下: 1.关键词与类别完全由自己设置,不限制长度、格式与编码; 2.当前系统支持最大类别数为255个; 3. 权重标准建议为1-10。10表示最大,1表示最小。 4. 同一个词可以设置为不同的类别。 第二步:导入自定义的敏感词文件(可选,如不设置则默认为系统内置敏感词) 然后,导入关键词即可,也可以使用批处理命令ImportUserDict.bat实现。 1000个关键词可以实现1分钟内导入,1万关键词5分钟以内,10万关键词约需30分钟,百万级别关键词的时间略长,预计需要半天的时间。导入的词表会以特定的格式加密存储。不会泄露用户的业务机密。 第三步:扫描内存或者文件 最后,选择待扫描文件夹,即可实现数据的快速实时扫描。适合于小规模数据的测试。 大规模数据建议采用批处理命令KeyScanner.bat配置实现。待扫描文件的格式目前只支持文本文件。 批量扫描的结果输出到指定的结果文件,输出敏感的行号,并给出敏感的内容。 Nlpir Parser智能平台敏感词过滤系统作用:一方面有效确认了将待处理文本信息中应当参与敏感词匹配的匹配字符数N,避免了因将待处理文本信息中匹配字符数不确定而对待处理文本信息中可能的字符串组合方式进行遍历尝试;另一方面还成功的定位到更有可能匹配成功的敏感词类别中进行敏感词匹配处理;从而尽可能的减少了匹配次数,提高了匹配处理效率。 |
灵玖中科软件(北京)有限公司 发布的其它供求信息和贸易商机:请注意所有供求信息都由用户自行发布,本网不对任何信息的真实性及有效性负责