关于作者

用户名:carouter
笔名:carouter
地区:
行业:其他

日历  

快速登录

+ 用户名:
+ 密 码:

在线留言



访问统计:
文章个数:4
评论个数:5
留言条数:0




Powered by BlogDriver 2.1

carouter的博客

 

文章

test

testtestestaseafawefasefasfawefawefawefd


- 作者: carouter 2005年04月19日, 星期二 21:28  回复(0) |  引用(0) 加入博采

数据挖掘实例

德国贷款公司

 

 

目的:

 

给定某些属性,判断某贷款顾客的可信性(即"good/bad"状况)。

 

 

简单思路:

      

       该数据包含了666条贷款顾客的历史数据和21个属性。但是我们认为,这21个属性不都能够有效地帮助我们判断顾客的可行性,所以我们首先把一些比较不相关的属性去掉。接下来,我们再用聚类方法帮助我们把带有连续变量的属性离散化。做完预处理后我们再从中找出对有参考价值的关联规则。

 

 

基本步骤:

 

      

1.去掉多余属性

 

关联规则的随机性

该数据里有一布尔属性foreign workers,取值为yesno。我们发现,其中取值为yes的元组占了所有元组的96%。置信度其实代表了一种条件概率,它无法判断两个属性之间是否带有随机性。因此,带有foreign workers的关联规则无法提供我们更多可以参考的信息。

 

χ2依赖性检验

首先,我们利用χ2-检验试探各属性("Duration in months", "Credit Amount" "Age in years" 除外)"good/bad"属性之间是否存有依赖性。

 

以下以 "Credit History" 为例描述算法:

Credit History

All Paid Duly

Bank Paid Duly

Critical

Delay

Duly Till Now

Total

Good/Bad

Bad

17

18

38

17

119

209

Good

10

17

157

40

233

457

Total

27

35

195

57

352

666


Degrees of freedom: 4

Chi-square value = 32.8752245686945

p-value is less than or equal to 0.001.

The distribution is significant.

χ2-检验显示属性 "Credit History" 与属性 "Good/Bad" 之间存有依赖性。

 


 

经多番检验,只有"Status of Checking Account", "Credit History", "Purpose", "Savings Account / Bonds", "Present Employment Since", "Property", "Housing" 以及 "Foreign Worker" 属性与"good/bad"属性之间有显著性(α0.05)的依赖性。因此,我们将重点放在这9个属性上,再可能的情况下对这几个属性的取值类进行加以分类或归类,希望最终能够从中得到这些属性与"good/bad"属性之间更好的关联规则。

 

 

 

 

 

2.把连续变量离散化(离散化/分类/归类)

 

χ2检验后,我们利用 Clustering Classification 以及 Equal-width 方法针对属性"Duration in months" "Credit Amount" "Age in years"进行离散化以及对以上有显著依赖性的属性取值进行加以分类或归类。

 

Equal-width

 

我们利用weka里的Discretize功能将连续变量离散化。以下以"Duration in months"属性为例:

 

我们用weka.filters.unsupervised.attribute.Discretized功能将"Duration in months"属性的取值分为3大类: "Short-term", "Mid-term" 以及 "Long-term" 。分类后各类的数据数量为:"Short-term"0-12个月)245条数据, "Mid-term"13个月-24个月)270条数据以及 "Long-term"25个月以上)151条数据。



Simple K-Means Clustering

 

K-Means算法是将数据分入预先设定的聚类数。首先,它随机性地将几个数据点设定为质心(cluster centroid)。接着,它再计算出各聚类的边界及新的质心位置。反复运行以上步骤就会得到预先想得到的几个聚类,从而把连续变量值离散化,或进一步聚类某些属性的取值分类。

 

"Credit Amount" 属性为例描述Simple K-Means Clustering 离散化方法:

我们利用weka里的Cluster功能SimpleKMeans算法将"Credit Amount"属性中的取值离散化,分为4类:"low"0-2500),"mid"2501-4400),"high"4401-8500) 及"veryhigh"8500以上)。请看下图。




Classification

 

我们也把property属性重新离散化,把各个取值再加以分类,希望能够从中得到更有参考价值的关联规则。



属性与其取值聚类

 

属性

取值聚类

属性

取值聚类

Status of Existing Checking Account

  • 0DM
  • <200DM
  • >200DM
  • no checking account

Personal Status and Sex

  • single male
  • married male
  • divorced male
  • divorced female

Duration in month

  • <13 (short-term)
  • 13-24 (mid-term)
  • >24 (long-term)

Other Debtors / Guarantors

  • none
  • co-applicant
  • guarantor

Credit History

  • all paid duly
  • bank paid duly
  • critical
  • duly till now
  • delay

Property

  • real estate
  • building society
  • car
  • unknown

Purpose

  • tangible
    • car
      • used
      • new
    • household
      • furniture
      • radio-tv
  • intangible
    • business
    • repair
    • education
    • retraining

Age in years

  • <22 (young)
  • 23-35 (mid)
  • 36-51 (old)
  • >51 (retired)

Credit Amount

  • 0-2500 (low)
  • 2501-4400 (mid)
  • 4401-8500 (high)
  • >8500 (veryhigh)

Other Installment Plans

  • banks
  • stores
  • none

Savings Account / Bonds

  • <100DM
  • 100-500DM
  • 500-1000DM
  • >1000DM
  • unknown / no savings account

Housing

  • rent
  • own
  • for free

 

Present Employment Since

  • unemployed
  • 1-4
  • above 4

Number of Existing Credits at This Bank

  • one
  • two

Number of People being Liable to Provide Maintenance for

  • one
  • two

Status

  • good
  • bad

 

 

3.关联规则

 

利用wekaassociation功能,我们得到许多的关联规则。在众多关联规则中,以下15条规则属于较有参考价值:

 

1.      Statusofexistingcheckingaccount=noaccount Purpose-3=Tangible Personalstatusandsex=single-male Other-debtors/guarantors=none Otherinstallmentplans=none Housing=own ==> Status=good.     conf:(0.95)

 

2.      Statusofexistingcheckingaccount=noaccount Credithistory=dulytillnow Housing=own Numberofexistingcreditsatthisbank=one Liabletoprovidemaintenancefor=one ==> status=good. conf:(0.92)

 

3.      Statusofexistingcheckingaccount=noaccount Presentemploymentsince=over-seven ==> status=good.    conf:(0.91)

 

4.      Statusofexistingcheckingaccount=noaccount Credithistory=dulytillnow Numberofexistingcreditsatthisbank=one Liabletoprovidemaintenancefor=one ==> status=good.    conf:(0.90)

 

5.      Purpose=radio-tv Housing=own Job=skilled ==> status=good.                                  conf:(0.89)

 

6.      Presentemploymentsince=>4-years Ageinyears=middleage Job=skilled ==> status=good.   conf:(0.88)

 

7.      Statusofexistingcheckingaccount=noaccount Durationinmonth=mid-term Housing=own ==> status=good.                                                                                                     conf:(0.88)

 

8.      Statusofexistingcheckingaccount=noaccount Credithistory=dulytillnow Housing=own ==> status=good.                                                                                                              conf:(0.87)

 

9.      Purpose-3=Tangible Personalstatusandsex=single-male Other-debtors/guarantors=none Otherinstallmentplans=none Housing=own Job=skilled ==> Status=good.                    conf:(0.86)

 

10.  Statusofexistingcheckingaccount=noaccount Property=car Housing=own ==> Status=good.    conf:(0.86)

 

11.  Purpose-2=Household Presentemploymentsince=>4-years ==> Status=good.                 conf:(0.85)

 

12.  Credit-amount-simplekmeans=low Property=real-estate ==> Status=good.                       conf:(0.77)

 

13.  Purpose-2=Household Credit-amount-simplekmeans=low ==> Status=good.              conf:(0.76)

 

14.  Purpose-2=Household Job=skilled ==> Status=good.                                                 conf:(0.73)

 

15.  Presentemploymentsince=>4-years Job=skilled ==> Status=good.                            conf:(0.72)

 

 

4Weightage:

 

根据所得关联规则,我们发现以下13属性的某些取值类倾向属性 "Status"=good.:

  • Status of existing checking account: No checking account
  • Duration in monthMid-term (13-24 months)
  • Credit history: All paid dulyNo existing credit
  • Purpose: Household
  • Credit amount: Low (0-2500)
  • Present employment since: >4
  • Personal status and sex: Single male
  • Other debtors / guarantors: None
  • Property: Real estate; Car
  • Age in years: Mid (23-35)
  • Other installment plans: None
  • Housing: Own
  • Job: Skilled

 

根据历史数据,若某顾客拥有以上13个属性值的任意7个,我们可以认为该顾客的Statusgood

 

 

 

5.预测:

 

我们可用以上weightage方法来预测Germantest数据库中顾客的"Status"。我们从Germantest数据库中取出一名顾客的资料来预测他的"Status"

 

no-account,24, duly-till-now, new-car,1393, less100DM, four-years,2, single-male, guarantor,2, real-estate,31, none, own,1, skilled,1, no, yes

 

该顾客的得分为10分,因此该名顾客的预测Statusgood.

 

 

 

结论:

 

       经过大量的预处理,包括假设检验、分类、聚类和离散化等方法,我们客观地把一些属性去掉,也将连续属性离散化。最终我们也从"海量"关联规则中筛选出一些较有参考价值的规则,来帮助我们判断某顾客的可信性。




- 作者: carouter 2005年04月18日, 星期一 12:00  回复(1) |  引用(0) 加入博采

4.14
        3.16-4.14,我们以为能等到水木恢复校外登陆,等来的却是学校完全接管水木。
        中午上完课回来,就从朋友那儿听说水木出事了。登录一看,sysop版吵翻天。
sysop帐号从本机登录,并发表了一篇公告说系统维护,只开放了telnet,也就是ssh和www
都关了。马上被证实并非站务的公告,而是学校使用sysop帐号发的公告。我找了个站务问
了一下,大概情况是校方取得了服务器和sysop帐号的控制权。然后我看到了站务发了一篇
公告,其中说:
"   鉴于现水木清华服务器已经不由我们掌握,我们不再能保证用户的一切数据、资料的
安全,请大家自行注意安全与备份。所有个人发表的文章各人都自己拥有版权,所有个人
的资料各人都拥有隐私权,如果无法清理,被其他人备份,可以和有关部门联系要求清理。


   水木清华站务委员会成员一直团结在一起,但是我们无法与暴力和强权抗衡,辜负了
大家的期望。

但是我们依然承诺会给大家重新提供一个可以信任、安全可靠、好朋友们在一起的我
们自己的家园。 "

 
       看来事情不小。在特快版看到有人呼吁2:15去校团委的贴子。虽然没有确认,但从
各方面得到的消息表明这次接管水木的直接执行者是校团委,我猜测就是团委下属的成才中
心。2点一刻,我借了个相机跑了出去。

        到团委门前时,那儿已经聚了十来个人,正在与团委的三名老师交涉。没有人拍照
。我小心地转了一圈,从三个角度拍了全景,然后上前去看个究竟。同学有点激动,质问团
委将水木怎么了。三名老师都很年轻,一个稍发胖,另两名较瘦。他们解释说团委并不清楚
发生了什么;他们会向知情者了解情况,劝同学们回去等消息。同学们当然不肯走,于是他
们又建议留两名同学下来等消息,其它人回去,但仍没有人配合。我靠近拍了他们的照片,
他们大概注意到了,但没有说什么。
        人开始增加,但直到我离开时也只有三十多人。气氛比3.18那天较为紧张,有几名
同学很激动,斥责团委暗地里夺取水木的行径,几乎出现争执。另有几名团委的老师从团委
的门进出,不时耳语。那三名老师试图劝同学到屋里谈,同学没有答应,仍呆在外面。

        近两点半,仍只有我一个人在拍照。有一名同学过来向我打招呼,说他听到有一个
老师可能给保卫处打了电话,让我将那个老师拍下来。那个老师年纪较大,站在后面,并没
有和同学直接交涉。我将他拍了下来。这时是2点45左右。

        有三名保安骑自行车自西向东经过,但没有停留。我本打算离开,因为只有我一个
人在拍照,有点担心。不过不久又有两名同学带着相机过来,也在周围拍照。我注意到团委
大楼对面停着一辆奇怪的别克车,于是将它拍了下来。司机出来,走到我面前,问我拍什么
,用很硬的口气要求我把照片删掉。我照做了,然后他脸色转缓,说他们是来开会的,跟这
儿没关系,不让我拍照。

        近3点,我打算离开。到8#超市买了点东西,再出来时团委门口人仍没有散去。那
辆别克车仍在,换了个位置。我骑车回宿舍来了。


        回到宿舍,hy给我打电话说她过来了,想到我这儿上网看看水木怎么样,我说那过
来吧。ft的是她居然带了两个wstp的记者,ft,总给我惹麻烦。他们用我的电脑上线看了一
会,不久离开。

        这是水木被接管第一天,就这么过去了。想起5年前网络中心接管水木的事,叹历
史竟然一再重现。这次又会有怎么样的一个结局?我已经见证了糊涂和百合的死亡,还要见
证水木么。我宁可不享有这样的荣幸。

- 作者: carouter 2005年04月15日, 星期五 09:02  回复(1) |  引用(0) 加入博采

我希望把blog建在什么地方?
    开始接触blog三个多月了,在无数个提供blog的网站上注册帐号,却一直没有找到一个能让我满意的地方。在我心目中,一个完美的blog服务应该有:(按我认为的优先级排列)




    速度:时间太宝贵了,花时间在等待一个个页面的打开与提交太浪费。一个速度太慢的blog不应该在我的考虑范围之内 。不幸的是身处教育网,而绝大部分blog都在公网上,访问速度都一般。国外网就更不用说了,虽然有代理但速度无法忍受。中国教育人博客 (www.blog.edu.cn)倒是很佳,速度慢快。但是它的功能太弱了,没得讲。目前我所访问的几个blog的速度:最快的是blog.edu,其 次是水木及公网的blog站点如blogcn、blogchina等;最差的是msnspace、motime、blogger等国外blog。

    稳定性:不稳定没得说了。想读、想写时,突然来个无法访问无法登录是很郁闷的。朋友开玩笑说blog建在localhost是稳定的,反正想写时必然开着 电脑。笑话当然是笑话,blog还是要24小时开放,世界各地均可访问才好。公网的大部blog稳定性都还可以接受,不过blogchina经常会因访问 人数过多而出错;msnspaces则经常登录不上。我感觉稳定性 blogcn、blog.edu > blogchina、msnspaces。其它的用得不多,应该都和blogcn一样。

    提供trackback、rss:要是blog不提供trackback,那还叫blog么?可小百合就有勇气不提供trackback,所以我一直鄙视 小百合的技术。其它的blog基本都支持trackback。rss呢,大多数都提供,但用起来顺手的不多,我用feeddeamon自动发掘验证 newsfeed,顺利的只有blogchina以及两个用wordpress自建的blog。blogcn和msnspaces看来都支持rss,但我 没找到newsfeed地址怎么写。blog.edu太恶心,居然不提供rss。

    言论自由。真正言论自由,要什么词都不过滤那有点难,只有国外的行了。不过msnspaces似乎对国内用户的spaces也采取过滤政策了, faint。其实过滤点词我没什么所谓,为了站点安全把政治敏感的东西过滤就过滤呗。可是blog.edu居然将水木也过滤掉,太恶心了。水木的过滤词也 很很过分,lqqm、sopai、yjrg全部过滤,更恶心。公网的blog设的关键词不过,但会手动删除敏感文章,不能怪他们,人在江湖身不由己。言论 限制的程度:blog.edu、smth > 国内其它blog > 国外blog。

    博客数与整体水平:虽然很多人把blog当日记写给自己看,但交流对高水平的blog还是很有帮助的。如果把blog写在一个基本没什么用户或者基本没什 么好文章的站点上,没有人来读没有人来评论也没有人引用,那就没什么好玩的了。所以我倾向于把blog建在大站比如blogchina或 blogger.com。blog.edu实在很一般,在那里建blog是个失误。水木blog的文章水平还不错,但blogger们沿袭了灌水的习惯, 小圈子很抱团,一个新的blogger进入时很难获得认同。我比较欣赏msnspaces,一般每个space上都会有个模块显示最近更新的space 名,这样促进了members之间的交流。

    允许匿名回复:不少blog都支持匿名回复的。但也有几家不支持,比如smth、blog.edu、 msnspaces。smth大概是出于硬盘空间考虑;blog.edu是从水木事件后停止匿名评论的,大概是教育部作梗;msnspaces不得而知 了,也许是推广msn,这是垄断的习惯。

    附加功能:比如提供附件上传,相册,留言本,等等。msnspaces提供的相册很不错。

    可以自定义模板:这个是给高手考虑的。smth提供了自定义模板,可以用xml/xsl/css写。motime也提供了类似的东西。blog.edu可 以编辑,不过似乎用的是html,大概没办法写出太漂亮的东西来。值得一提的是msnspaces,它提供了若干种模块,可以直接把模板往页面上拉。虽然 不是完全的自定义,但它做的那些模板已经足够漂亮了,我喜欢。

   模板丰富、页面简洁:大多数blog都提供许多模板。怎么叫丰富这个见仁见智了。页面这个也和个人偏好有关,我喜欢简洁的页面。wordpress搭的页面都很好,我喜欢。

 

    写完了,给我尝试过的几个blog做一下简单评价吧。

    blog.edu,除了教育网访问速度以外一无是处。不过因为某些其它原因,我仍然把它当主阵地。

    smth blog,基本还可,只是水木目前封了校外,blog的元气伤了七成不止。不允许匿名回复也很让人ft。

    blogchina,打开链接经常时不时连到toomany.htm的页面,难道它的服务器撑不住了么?

    blogcn,帮助文档里居然找不到rss newsfeed地址的格式,feeddaemon也自动发掘不到;
 
    msn spaces,很漂亮;附加功能很多,更像个人主页而不仅是blog;不过首页上居然将日志全文显示,结果我的首页总是拉得特别长。它为什么不设成只显示5行或者10行呢?

    motime,简洁,专业。不过添加日志时居然没有地方写标题,大概它认为日志的标题都应该是Apri 10th, 2005之类的。

    sopai的blog,界面很像smth,不过功能还非常弱。为什么要学smth的界面呢。。smth的又不漂亮

- 作者: carouter 2005年04月10日, 星期日 16:18  回复(3) |  引用(0) 加入博采