我们有一个中文版本的这个文件。
在过去的博客中,我们可以爬行的html源文件和提取html内容使用RLANG。在本博客中,我们将讨论如何用SAP-HANA实现中文分词,因为分词是基于文本的场景的基础。
1.SAP-HANA中文分词介绍
SAP-HANA分词是SAP文本分析的一部分,我们可以通过在表上创建全文索引来使用SAP-HANA分词引擎。SAP HANA文本分析支持七种数据类型:text、BINTEXT、NVARCHAR、VARCHAR、NCLOB、CLOB和BLOB.
要使用SAP HANA中文分词,首先要确保
您安装的HANA数据库支持中文分词。我们可以用
下面的SQL来检查功能:
如下图所示,企业正版软件,支持简体中文
2。演示
首先,我们创建了一个表进行测试:
列内容存储了用于分段的文本。LANGU列指定了我们使用的语言。这里我们指定语言为ZH.
接下来,我们在table SEGMENTATION\u TEST的content列上创建全文索引。我们可以使用以下SQL:
我们应该知道需要创建全文索引的表必须有主键,否则会发生错误。
在我们创建了全文索引之后,公众号返利系统,SAP HANA会自动生成一个名为$TA\name>的表
现在我们在表分段测试中插入一条记录:
然后我们查询表$TA\u FT\u索引的内容,每行包含单词和一些其他信息:
如上所示,物联网智能家居,分词表不仅包含拆分单词,还包含单词的语音。例如,啥是大数据,"获取"这个词是动词。HANA是一个无法识别的单词,因此语音未知。
SAP HANA支持各种文本分析配置:
LINGANALYSIS\u BASIC:此配置为非结构化数据的语言分析提供以下语言处理功能:
LINGANALYSIS\u STEMS:此配置提供以下语言处理功能非结构化数据的语言分析功能:
LINGANALYSIS\u FULL:此配置提供以下语言
非结构化数据的语言分析处理功能:
EXTRACTION\u CORE:此配置从非结构化文本中提取感兴趣的实体,如人员、组织、,在大多数用例中,这个选项是足够的。EXTRACTION\u CORE\u VOICEOFCUSTOMER:Voice of the customer内容包括一组实体类型和规则,用于满足提取客户情感和请求的需求。在处理和分析文本时,可以使用此内容检索有关客户需求和看法的特定信息。配置涉及复杂的语言分析和模式匹配,包括处理词性、句法模式、否定等,以确定要提取的模式。
要跟踪源表中的删除,表$TA\u FT\u索引中的键需要与源表的键对齐。为此,请使用以下SQL语句:
,大数据行业分析