企业供求信息 [贸易商机]
企业详细资料  全部供求信息  全部博客

灵玖中科软件(北京)有限公司

企业地址: 企业邮编:
联系电话: 所属行业: 计算机/互联网
公司传真: 公司所在地: 北京 海淀
公司网站: 企业类型: 私营/民营
电子邮件: 7294994234@qq.com 联系人:
企业全称: 灵玖中科软件(北京)有限公司 QQ:
企业简介: 未填写
提示:该条供求信息时间过于久远,可能已经无效!

NLPIRParser新词智能发现系统

商机面向地区: 北京 海淀 发布日期: 2017年3月29日
供求信息分类: 计算机/互联网 软件开发
商机联系人: 张先生
供求电话: 010-62642816
电子邮件: 7294994234@qq.com
QQ: 2794992434
销售信息: 供应 NLPIRParser新词智能发现系统    
供求信息描述:

  现在社交网络和视频网站发展都非常迅猛,参与人数非常多,每日UGC量非常可观。也因此经常制造爆炸性新闻,新词的制造和流行也频频出现。不同的社交圈内,由于话题性的不同,其新词分布也不同,所以直接引入搜狗等输入法的新词,会造成新词污染。因此,往往需要基于自营社交圈的语料库做新词发现,才能实现更精确的文本语义分析。
  灵玖软件NLPIRParser文本新词智能发现系统可以自动从单篇文章、及批量文章中自动识别词典中没有出现 的新词,适用于新词发现、专业词典自动生成及知识图谱中的语义新概念的自动 提取。系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统 (Windows, Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包 括:C/C++/C#,Java,Python,Hadoop 等)。
  灵玖软件NLPIRParser文本新词智能发现系统总结:
  1. 凝固度
  凝固度是指一个新词单独出现的频次很高,远高于其组合词的概率之和。
  假设是二元组词,词A和词B单独出现的概率分别是P(A)和P(B),假设这两个词是独立词,则两个词同时出现的概率为P(A)*P(B)。如果这两个词不是独立的,则两个词同时出现的条件概率会大于P(A)*P(B),即P(C) >>P(A)*P(B)。一般远大于,量级设定为1000倍。
  2. 自由度
  文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。
  左(或右)邻接字频 / 词频 > 0.2。说明左(或右)邻接有其他词和该词经常同时出现,往往邻接词比该词更有代表性。比如“欧丽格”
  3. 新词IDF
  IDF表征了新词在文档中出现的次数,如果出现的频次越高,说明这个词在不同的环境中出现的概率更高(这个和自由度有相似性)。IDF在论坛中提取新词具有特定的意义,表征了新词在不同帖子中的认同度。一般IDF越高,说明其倍认可度越高,越有可能是新词。[但是如果IDF非常高,反而代表这个词非常普通,不一定必要进入到新词库,尤其是为了防止造成新词污染,影响词的原子性。
  新词语的产生总是与社会、人口、物质、道德、观念、文化、习俗等的变迁密切相关的,所以最能产生新词语的地方总是起于社会的某些最活跃的领域、人群、媒体,甚至某些地区。它不仅仅是作为新的语言载体、新的交际工具出现在我们的生活中,而且真切地反映了社会生活,记录了整个社会的每一步进程,因此文本智能新词发现就起到了非常重要的作用。

   
灵玖中科软件(北京)有限公司 发布的其它供求信息和贸易商机:
供应 KGB知识图谱商业服务 技术合作北京 海淀2019年10月17日
供应 NlpirParser智能平台关键词提取商业服务 技术合作北京 海淀2017年5月24日
供应 NlpirParser敏感过滤解决难题计算机/互联网 软件开发北京 海淀2017年5月9日
供应 NlpirParser智能平台敏感词过滤商业服务 技术合作北京 海淀2017年5月4日
供应 Nlpir Parser全文智能搜索系统商业服务 咨询/调研北京 海淀2017年4月26日
供应 NlpirParser智能全文搜索商业服务 技术合作北京 海淀2017年4月21日
供应 NLPIR语义智能平台大数据挖掘引擎商业服务 技术合作北京 海淀2017年4月5日
暂无信息……
请注意所有供求信息都由用户自行发布,本网不对任何信息的真实性及有效性负责
[ 用户登录 | 用户注册 | 使用帮助 | 站内导航 | 关于我们 ]
商業機器人 - 提供免费发布供求信息/产品/博客,公司企业黄页登记查询服务的B2B电子商务网站