登录
注册
全部
期刊
图书
学位论文
会议论文
专利
多媒体
全部
书名
作者
全部
书名
作者
全部
书名
作者
全部
书名
作者
全部
书名
作者
全部
书名
作者
全部
书名
作者
唐卫清
首页>找到“
唐卫清
”相关的
2
条结果
栏目导航
全部(2)
全二分最大匹配快速分词算法
关键词:自动分词 中文信息处理 数据结构
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。
基于兴趣模型的WEB信息预测采集过滤方法
关键词:信息采集 兴趣模型 文本过滤
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。本文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础之上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。
1/1