本文档有中文版本。
在一些基于SAP HANA文本分析的项目中,我们经常需要正确识别特定的名称、产品。SAP HANA切分引擎可能无法正确识别新词。假设我们需要正确识别和提取单词"上网卡"、"上学"、"乔ÿ"
首先我们还需要创建表切分测试,并在列内容上添加全文索引:
然后我们将单词"上网卡"、"上学"、"乔ÿ插入到表切分测试:
中,然后我们查询表$TAਡFTÿ索引和结果,如图所示下面:
我们可以看到SAP HANA切分引擎无法正确识别三个单词。
为了解决上述问题,云服务器,SAP HANA提供了自定义词典。对于不在默认词典中的单词,我们可以将其添加到自定义词典中,以便正确识别。
SAP HANA的中文自定义词典文件为简体中文-标准样品-cd,文件路径为\usr\sap\XXX\SYS\global\hdb\custom\config\lexicon\lang\simplified chinese-标准样品-光盘。XXX是您的HANA实例名称。文件中有一些示例:
SAP HANA支持两种类型的名词。我们可以添加标识符[Nn Prop]将单词标记为names,云服务器服务,并添加[Nn]将单词标记为common noun。最后的文件在我们添加了三个单词后如下图所示:
然后我们截短了表切分测试并插入了这三个单词,结果如下:
我们可以看到"上网卡"、"上学学"和"乔挈挈"已经被正确识别了。
我们现在使用的是配置抽取挈CORE而不是LINGANALYSIS挈FULL。如前一篇博文所述,EXTRACTION\u CORE可以识别组、名称…等,我们先去掉之前的全文索引,然后添加配置为"EXTRACTION\u CORE"的全文索引:
然后插入以下单词并查询结果:
如上图所示,单词"乔忠谋"和"张忠谋"被识别为人名,而单词"乔忠"被识别为名词组。我们之前解释过的原因是,我们将标识符[Nn Prop]添加到单词"乔掵"和"张忠谋"中,试用云服务器,因此它们将被标记到个人姓名中,51返利,永久免费自助建站平台,但是带有标识符[Nn]的单词"故故"将被标记到名词组中。
请不要修改文件系统中的词典。支持的向HANA添加自定义词典的方法是通过HANA存储库:创建自定义文本分析词典-SAP HANA文本分析开发人员指南-SAP库