固网运营商客户流失预警模型研究.pdf下载分享

资料简介

随着移动业务的竞争加剧,固网运营商面临严重的客户流失问题。本文基于CRISP-DM数据挖掘方法论,详细探讨了构建客户流失预警模型的步骤,包括商业理解、数据理解、数据准备、建模和模型评估。通过引入ROC曲线和互信息量的概念,提出了一种新的mSTree-Logistic模型,有效提高了模型的预测准确性和稳定性。实证研究表明,该方法能够有效预警客户流失,为固网运营商提供重要的决策支持。

  • 文件名称:固网运营商客户流失预警模型研究.pdf

  • 文件类型:PDF文档

  • 文件标签:客户流失预警、固网运营商、数据挖掘

百度网盘下载

内容预览

北京邮电大学
硕士学位论文
固网运营商客户流失预警模型研究
姓名:张莹莹
申请学位级别:硕士
专业:信息管理与信息系统
指导教师:舒华英
20080228

北京邮电大学硕士毕业论文
固网运营商客户流失预警模型研究
摘要
随着移动业务分流的加重、固网市场竞争的加剧,国内的固
网运营商面临着巨大的挑战,客户流失现象日益严重。老客户流
失带来的损失以及获取新客户的困难使得固网运营商意识到实施
客户流失预警以及客户挽留的重要性。本论文针对固网运营商对
客户流失预警的迫切需求以及国内相关研究和应用较少的现象,
展开固网运营商客户流失预警模型的研究。
本文应用CRISP.DM数据挖掘过程方法论,结合固网运营商
的业务特点,详细阐述了建立固网运营商客户流失预警模型的各
个步骤:商业理解、数据理解、数据准备、建模和模型评价。同
时,在总结固网运营商客户流失预警数据特点的基础上,指出了
固网运营商客户流失预警的关键问题。
特征变量的构造和特征变量的选取对客户流失预警模型的学
习效率以及最终模型的准确性和稳定性有很大影响。在分析和比
较了众多变量关系分析理论的基础上,本文引入受试者操作特征
曲线(ROC曲线)和信息论中的互信息量的概念来建立特征变量
选取机制及具体方法:删除无分类预测能力的特征变量(ROC曲
线的AUC小于等于0.5的变量),对于高相关的特征变量,优先
保留高分类预测能力的特征变量,删除低分类预测能力的冗余变
且
亘。
建模方法是预测结果是否有效的关键。本文在创新模型
TreeLogit的基础上提出了mSTree.Logistic模型。该模型通过对使
用多个样产集分别训练出的多棵决策树预测函数进行逻辑回归来
得到最终的b.:测函数。
本文对某固网运营商一市级分公司的客户数据进行上述方法
的实证应用。应用结果证明了上述方法的可行性和有效性。
关键词:客户流失预警ROC曲线互信息量决策树逻辑回归
n

北京邮电大学硕士毕业论文
ASTUDYONCHURNPREDICTIONOFFIXED.
LINE
SUBSCRJBER
ABSTRACT
Withthegrowingsubstitutionbymobilecommunicationservices
and
increasing
competition
in
the
fixed-line
market,
domestic
fixed—lineoperatorsarefacinggreatchallenges.
Theincreasinglossof
subscribersisoneofthebiggestchallenges.
Thehugelosscausedby
theswitchofsubscribersandthegreatdifficultyofwinningnewones
makethefixed.
1ineoperatorsrealizetheimportanceofsubscriber
chumpredictionandsubscriberretention.
Inresponsetothefixed.
1ine
operators’
strong
desires
forchumpredictionandthe
lack
of
researchesandpracticesinthefixed.
1inemarket,
thisthesisstudies
howto
apply
data
mining
theories
andtechnologies
tochum
predictionoffixed.
1inesubscriber.
Appl如ngtheCRISP—DMmethodology,andcombiningitwiththe
understandingsoffixed.
1inebusiness,
thisthesiselaboratesthestq,
S
ofbuildingchumpredictionmodelforfixed-linesubscriber,including
business
understanding,
data
understanding,
data
preparation,
modelingandevaluation.
Thisthesisalsopointsoutthekeyissuesof
chumpredictionoffixed.
1ine
subscriber,aftersummarizingthe
problemsoftheavailable
dataforchumpredictionoffixed-line
subscriber.
Theconstructionandselectionofcharacteristicshasgreatimpact
onthelearningefficiency,accuracyandstabilityoffinal
models.
After
analyzingvarious
variable
correlationtheories,
the
thesis
introducesROCCurvesandmutualinformationtheoriestoworkout
themethodforcharacteristicselection.
Inthemethod.
ROCCurvesare
firstlyapplied
to
detectanddeselect
ineffective
characteristics.
Subsequently,
mutualinformationisusedtodetectstronglycorrelated
characteristics,
amongwhichcharacteristicswithsuperiorpredictive
performancearekept.
III

Modelingmethod
is
thekeytotheeffectiveness
ofprediction
results.
ThisthesisproposesmSTree-Logisticmodel,
beinginspired
byTreeLogitmodel.
Inthismodel,
alogisticregressionfunctionis
inducedfrommultiple
decisiontrees,
which
arebuiltbasedon
differenttrainingsamplesetsrespectively.
Apracticeofchumprediction
iSconductedin
a
filiale
ofa
fixed-lineoperator.
Thetheoriesandmethodsproposedinthisthesis
areprovedtobefeasibleandeffective.
KEYWORD:
Chumprediction
ROCcurve
Mutualinformation
Decisiontree
Logisticregression
IV

北京邮电大学硕士毕业论文
图目录
图2.
1数据挖掘的多学科性……………………………………………………….
8
图2.
2神经元的结构……………………………………………………………15
图2.
3线形函数………………………………………………………………….
15
图2.
4Sigmoid函数…………………………………………………………………………………。l6
图2.
5双曲正切函数……………………………………...

百度网盘下载