灵玖中科软件(北京)有限公司
提示:该条供求信息时间过于久远,可能已经无效!
商机面向地区: |
北京
海淀
|
发布日期: | 2017年3月29日 |
供求信息分类: |
计算机/互联网 软件开发 |
供求信息描述: | 现在社交网络和视频网站发展都非常迅猛,参与人数非常多,每日UGC量非常可观。也因此经常制造爆炸性新闻,新词的制造和流行也频频出现。不同的社交圈内,由于话题性的不同,其新词分布也不同,所以直接引入搜狗等输入法的新词,会造成新词污染。因此,往往需要基于自营社交圈的语料库做新词发现,才能实现更精确的文本语义分析。 灵玖软件NLPIRParser文本新词智能发现系统可以自动从单篇文章、及批量文章中自动识别词典中没有出现 的新词,适用于新词发现、专业词典自动生成及知识图谱中的语义新概念的自动 提取。系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统 (Windows, Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包 括:C/C++/C#,Java,Python,Hadoop 等)。 灵玖软件NLPIRParser文本新词智能发现系统总结: 1. 凝固度 凝固度是指一个新词单独出现的频次很高,远高于其组合词的概率之和。 假设是二元组词,词A和词B单独出现的概率分别是P(A)和P(B),假设这两个词是独立词,则两个词同时出现的概率为P(A)*P(B)。如果这两个词不是独立的,则两个词同时出现的条件概率会大于P(A)*P(B),即P(C) >>P(A)*P(B)。一般远大于,量级设定为1000倍。 2. 自由度 文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。 左(或右)邻接字频 / 词频 > 0.2。说明左(或右)邻接有其他词和该词经常同时出现,往往邻接词比该词更有代表性。比如“欧丽格” 3. 新词IDF IDF表征了新词在文档中出现的次数,如果出现的频次越高,说明这个词在不同的环境中出现的概率更高(这个和自由度有相似性)。IDF在论坛中提取新词具有特定的意义,表征了新词在不同帖子中的认同度。一般IDF越高,说明其倍认可度越高,越有可能是新词。[但是如果IDF非常高,反而代表这个词非常普通,不一定必要进入到新词库,尤其是为了防止造成新词污染,影响词的原子性。 新词语的产生总是与社会、人口、物质、道德、观念、文化、习俗等的变迁密切相关的,所以最能产生新词语的地方总是起于社会的某些最活跃的领域、人群、媒体,甚至某些地区。它不仅仅是作为新的语言载体、新的交际工具出现在我们的生活中,而且真切地反映了社会生活,记录了整个社会的每一步进程,因此文本智能新词发现就起到了非常重要的作用。 |
灵玖中科软件(北京)有限公司 发布的其它供求信息和贸易商机:请注意所有供求信息都由用户自行发布,本网不对任何信息的真实性及有效性负责