
网站首页 > 专利信息
本发明提出了海量文本数据快速聚类方法,外部输入的命令行参数和指定目录下读取的文本信息经预处理后通过内部接口调用预设的结构体完成对指定目录下的文本数据聚类,输出指定目录下的EXCEL文件或图形界面聚类结果,并对聚类效果进行评估;所述方法具体包括如下步骤:文本数据读取、文本信息预处理、文本数据聚类处理以及聚类结果输出;其中,文本信息预处理包括:S1:对中文文档进行分词,对英文文档进行TOKEN处理;S2:去除停用词;S3:计算去除停用词后的文档simhash编码;S4:采用word2vector向量方式进行词嵌入,计算去除停用词后的文档向量;S5:采用bert向量方式进行词嵌入得到词向量;该方法通过内部或外部评估实现对聚类算法的最优聚类算法策略。
联系电话:028-87659663 028-85404682 028-85460925 邮箱:cdjz617@126.com
办公地址:四川省成都市武侯区科华街10号四川大学国家高新技术孵化平台609
成都川大技术转移集团有限公司
蜀ICP备11025552号-1
Copyright © 2007-2011 技术支持:成都网络公司-三以网络