waemz

为人知 为人用 为人信

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  30 随笔 :: 0 文章 :: 20 评论 :: 2 引用

置顶随笔 #

     摘要: 不知怎地,我上传图片和其他文件会出错。看到有朋友想要几个代码,就加我QQ吧.  阅读全文
posted @ 2009-06-02 18:41 waemz 阅读(42) | 评论 (1)编辑

2009年6月2日 #

     摘要: 不知怎地,我上传图片和其他文件会出错。看到有朋友想要几个代码,就加我QQ吧.  阅读全文
posted @ 2009-06-02 18:41 waemz 阅读(42) | 评论 (1)编辑

2009年5月29日 #

     摘要: 上一节做了分词器的实现,并实现了Simple、Standar、Cn、ICTCLAS几个分词算法。本节实现文档转向量表示,并命名为特征权重量化器,特征权重量化我只实现1个算法----TFIDF算法。  阅读全文
posted @ 2009-05-29 21:45 waemz 阅读(39) | 评论 (0)编辑

     摘要: 我自己简易封装了一个分词器,使用Lucene.Net.类图如下  阅读全文
posted @ 2009-05-29 18:14 waemz 阅读(57) | 评论 (1)编辑

2009年5月28日 #

     摘要: 接着上节的思路说,一个网页要想在浏览器中能够正确显示,需要在三个地方保持编码的一致:网页文件,网页编码声明和浏览器编码设置。  阅读全文
posted @ 2009-05-28 23:30 waemz 阅读(26) | 评论 (0)编辑

     摘要: GB2312是对中国的开发人员来说很重要的一个词汇,它的来龙去脉并不需要我在这里赘述,随便Google之便明白无误。我只是想提一句,记得前一节说到编码字符集和字符集编码不是一回事,而有的字符集编码又实际上没有做任何事,GB2312正是这样一种东西!  阅读全文
posted @ 2009-05-28 22:58 waemz 阅读(19) | 评论 (0)编辑

     摘要: 需要再一次强调的是,无论历史上的UCS还是现如今的Unicode,两者指的都是编码字符集,而不是字符集编码。花费一点时间来理解好这件事,然后你会发现对所有网页的,系统的,编码标准之间的来回转换等等繁杂事务都会思路清晰,手到擒来。   阅读全文
posted @ 2009-05-28 22:57 waemz 阅读(32) | 评论 (0)编辑

     摘要: 上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。  阅读全文
posted @ 2009-05-28 22:52 waemz 阅读(27) | 评论 (0)编辑

     摘要: 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。 以上是经常被有关SVM 的学术文献引用的介绍,有点八股,我来逐一分解并解释一下。   阅读全文
posted @ 2009-05-28 22:51 waemz 阅读(32) | 评论 (1)编辑

     摘要: 线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.   阅读全文
posted @ 2009-05-28 22:51 waemz 阅读(14) | 评论 (0)编辑

2009年3月6日 #

     摘要: [代码] 阅读全文
posted @ 2009-03-06 17:30 waemz 阅读(120) | 评论 (0)编辑

Code

 

posted @ 2009-03-06 17:09 waemz 阅读(92) | 评论 (0)编辑

2009年3月2日 #

     摘要:   阅读全文
posted @ 2009-03-02 11:28 waemz 阅读(181) | 评论 (0)编辑

2009年2月25日 #

     摘要: 代码太多,编辑的时候卡的很,于是再整个(二) 前面贴完了分类器的代码,下面主程序如下  阅读全文
posted @ 2009-02-25 09:21 waemz 阅读(389) | 评论 (9)编辑

     摘要: 昨天有幸拜读了洞庭散人的<基于朴素贝叶斯分类器的文本分类算法>,我正在学习这个,我从内心感谢洞庭散人的分享!随即我把它移植到了c#平台上。 该程序用到了Lucene.Net,用到了基于词典的ICTCLAS中文分词1.0.   阅读全文
posted @ 2009-02-25 09:04 waemz 阅读(580) | 评论 (6)编辑

2008年2月1日 #

     摘要: Ver2.1还添加了以下操作符: is - 和调用equal方法相同. Ex: #obj1 is obj2# 会返回if obj1 equal obj2 isnot - 和调用notequal方法相同. Ex: #obj1 isnot obj2# and - 相当于c#中的&&操作符   阅读全文
posted @ 2008-02-01 16:02 waemz 阅读(233) | 评论 (0)编辑

     摘要: AderTemplate只能运行于.NET2.0之上. 这里有一个简单例子:  阅读全文
posted @ 2008-02-01 12:16 waemz 阅读(393) | 评论 (0)编辑

2007年6月14日 #

     摘要: 本人才疏学浅,具体实现原理不敢多说,仅仅写出使用方法,供大家参考.  阅读全文
posted @ 2007-06-14 15:38 waemz 阅读(792) | 评论 (0)编辑

2007年5月13日 #

     摘要: 话说十年前,有一个暴发户,他家有三辆汽车——Benz奔驰、Bmw宝马、Audi奥迪,还雇了司机为他开车。不过,暴发户坐车时总是怪怪的:上Benz车后跟司机说“开奔驰车!”,坐上Bmw后他说“开宝马车!”,坐上Audi说“开奥迪车!”。你一定说:这人有病!直接说开车不就行了?!  阅读全文
posted @ 2007-05-13 01:34 waemz 阅读(123) | 评论 (0)编辑

2007年5月11日 #

     摘要: 在业务复杂的应用程序中,有时候会要求一个或者多个任务在一定的时间或者一定的时间间隔内计划进行,比如定时备份或同步数据库,定时发送电子邮件等,我们称之为计划任务。实现计划任务的方法也有很多,可以采用SQLAgent执行存储过程来实现,也可以采用Windows任务调度程序来实现,也可以使用Windows服务来完成我们的计划任务,这些方法都是很好的解决方案。但是,对于Web应用程序来说,这些方法实现起来并不是很简单的,主机服务提供商或者不能直接提供这样的服务,或者需要你支付许多额外的费用。 本文就介绍一个直接在Web应用程序中使用的简单的方法,这个方法不需要任何额外的配置即可轻松实现。  阅读全文
posted @ 2007-05-11 16:40 waemz 阅读(162) | 评论 (0)编辑

2007年4月24日 #

     摘要: 1. document.GetElementsByTagName可以获得某一个标签的所有元素,可以通过document.getElementsByTagName(‘*’)获得页面上的所有元素,这里星号代表任何标签,而注释标签的tagName是”!”  阅读全文
posted @ 2007-04-24 01:11 waemz 阅读(110) | 评论 (0)编辑