你的浏览器版本过低,可能导致网站不能正常访问!
为了你能正常使用网站功能,请使用这些浏览器。

常见算法优缺点比较

[复制链接]
恋上你的芯 发布时间:2017-12-1 13:06
机器学习算法数不胜数,要想找到一个合适的算法并不是一件简单的事情。通常在对精度要求较高的情况下,最好的方法便是通过交叉验证来对各个算法一一尝试,进行比较后再调整参数以确保每个算法都能达到最优解,并从优中择优。但是每次都进行这一操作不免过于繁琐,下面小编来分析下各个算法的优缺点,以助大家有针对性地进行选择,解决问题。
" d9 J( d4 R! B) ]
11.png
1.朴素贝叶斯
4 m& x  f2 H1 U, X8 g& p- j/ r- Y: M. {* I
朴素贝叶斯的思想十分简单,对于给出的待分类项,求出在此项出现的条件下各个类别出现的概率,以概率大小确定分类项属于哪个类别。
6 v8 G- W; {2 p
0 Y9 A& h3 h2 t+ J优点:9 u6 b9 W& y! k' j7 o9 O
/ y7 d, F; a9 p" x- l% G% v
1)朴素贝叶斯模型发源于古典数学理论,因此有着坚实的数学基础,以及稳定的分类效率;
; Q) `5 Q! r8 J) _5 e* n9 O( V; }
2)算法较简单,常用于文本分类;
" N6 v: ]. N. W: E& E) M( x/ O  e! `& Q1 G! L& W% ^) x! e
3)对小规模的数据表现很好,能够处理多分类任务,适合增量式训练。
& M5 a8 Q4 l! v
0 }3 J: p5 T) \& D. ^缺点:
% D; E5 n* B# J4 T( I6 C' b) i7 u, \8 L' P+ m7 O
1)需要计算先验概率;, ~( b$ X+ @  {: K: @

& a4 N) N& T6 v! W2)对输入数据的表达形式很敏感;) ]/ `6 l" j' n% b5 H; `1 A7 t

% H# Q! ]: p' B6 h3)分类决策存在错误率。
% Z$ F& s2 s7 G3 g; y 12.png
; I( c" e" \4 f; l6 S: l
2.逻辑回归
( C3 }+ q$ A$ I( k, {9 V- @4 v) A/ m: O, q
优点:$ [3 z/ v, d0 P/ V8 L* d$ }" k

% C. \2 w& p; Z: X+ N/ I; g1 Z3 @1)实现简单,广泛地应用于工业问题上;; S; X1 I- e1 I/ D3 u) N: ?
! @" h$ U# r3 N) C/ |9 r: c
2)可以结合L2正则化解决多重共线性问题;) e6 P6 ~" ]  v( ~" ]
8 \% |- E% V, i6 r' J& K, e
3)分类时计算量非常小,速度很快,存储资源低;
2 @1 J9 s! K; M- H& |
8 K  J- P! @, q: f0 R, Z7 j# e" k缺点:
( }/ B; A$ R  n5 N4 I; q, \4 K$ `) ]0 N% z
1)不能很好地处理大量多类特征或变量;
6 l0 q6 a. l0 \
1 a; M4 e, m/ y/ B% s" Q: O0 i5 f2)容易欠拟合,一般准确度较低;! x: u5 C2 H7 d5 q  |1 }; @
$ U; Z3 u5 }, ^: [1 r/ U" R/ Y0 u
3)对于非线性特征,需要进行转换;
2 }- N/ |+ G2 B/ k/ S
" g8 [4 T! `- M4)当特征空间很大时,逻辑回归的性能不是很好;2 Z/ Z) x- A" l8 E! G4 @9 }9 U) x

2 h+ B& n  r: n# p$ h- M5 |: c- B  y5)只能处理两分类问题(在该基础上衍生出来的softmax可以用于多分类),且必须线性可分。
( E' z4 b1 V+ e8 S' U- |" r$ N 13.png

& z' _' H) r6 {
3.线性回归
# F3 D9 p5 S- w3 b, T  p
2 j1 M: v' N+ I+ Y: K. Q线性回归与逻辑回归不同,它是用于回归的,而不是用于分类。其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化。
& m+ V  }, O4 E; ?
( t" E  O; b' F. o* b# L优点:实现简单,计算简单;. h$ K/ R1 j5 I
( ~) j+ w5 x9 o
缺点:不能拟合非线性数据。
0 s, `" T9 Q) \  o% g8 v2 s
( d5 u, c7 Q/ Q, e4.最近邻算法1 X% `3 T4 |. t$ D- a8 y
# `/ v6 ^  P: S" n3 q9 k
优点:# T/ c6 Q& e. ]! b$ r$ b6 p
. r% G. _$ `' O6 `9 m. m5 A2 i
1)对数据没有假设,准确度高;! a5 x! l- h+ Q  P# v$ M6 U" B; Q

# o4 g7 G: }. v9 n' u2)可用于非线性分类;
" @3 o' x0 k% ]3 G$ i, _. z5 X3 \. q  ~' `
3)训练时间复杂度为O(n);7 R9 P: s- ~5 \% p$ ?/ @5 `" M

& {. u& M0 X! ]! c& Y0 u4)理论成熟,思想简单,既可以用来做分类也可以用来做回归。& Q- \% j# T) k1 g+ e3 x2 N! j

; g4 y4 v( i( @# @% X  w) r缺点:, G/ f- H3 O% i  ?6 K8 @
* o  D/ C4 G- d
1)计算量大;3 f: V2 N% r7 g* \

5 o0 [5 f! ^' g7 {0 b& ^9 s8 @2)需要大量的内存;
* |" Z" B- g5 b9 t
4 j9 t* g; W! U3 K  z; t* I8 {3)样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少)。9 G. ?$ o! S7 e! I$ b
14.png

/ E: m/ R6 B+ k. u  ~
5.决策树
# a1 ?3 e: B: U, C' w, g1 B: y2 D' s# d
优点:7 P- E, F/ Q1 [, H7 C

7 P7 L" Z- D: M3 L1)能够处理不相关的特征;! K( w7 @9 ^* O( s0 Z

$ h$ U* H! Q; ?$ Z2)在相对短的时间内能够对大型数据源做出可行且效果良好的分析;# k4 b4 i, F5 b) e. V! A6 l: X' u/ L
, c, n3 _$ u0 n7 }4 i. A
3)计算简单,易于理解,可解释性强;
+ u: C) e* O2 ]1 E" y
3 ^7 T4 m1 @5 z, p: u4)比较适合处理有缺失属性的样本。
- [( {. J& x: ]+ d0 W, ]# C
& \$ W, U5 ?) p+ m缺点:& O% p, U( ?3 h
) O/ P5 k, K, o: l( ?+ ]
1)忽略了数据之间的相关性;
. x7 t  `6 w  [8 P3 L# a$ M6 ?/ Y+ Z7 i  C
2)容易发生过拟合(随机森林可以很大程度上减少过拟合);# r( g" o/ B; Q, V- b  D' i

8 L  _' ?+ a1 z3)在决策树当中,对于各类别样本数量不一致的数据,信息增益的结果偏向于那些具有更多数值的特征。

; Y: \+ A5 @4 \1 e* P# t% v0 v: W% D

评分

参与人数 1 ST金币 +10 收起 理由
wofei1314 + 10 赞一个!

查看全部评分

收藏 2 评论3 发布时间:2017-12-1 13:06

举报

3个回答
anywill 回答时间:2017-12-1 22:41:13
学习了
MrJiu 回答时间:2017-12-2 11:08:17
卧槽,感觉有点太高级啊!!!
andey 回答时间:2017-12-4 11:25:32
提示: 作者被禁止或删除 内容自动屏蔽

所属标签

关于
我们是谁
投资者关系
意法半导体可持续发展举措
创新与技术
意法半导体官网
联系我们
联系ST分支机构
寻找销售人员和分销渠道
社区
媒体中心
活动与培训
隐私策略
隐私策略
Cookies管理
行使您的权利
官方最新发布
STM32N6 AI生态系统
STM32MCU,MPU高性能GUI
ST ACEPACK电源模块
意法半导体生物传感器
STM32Cube扩展软件包
关注我们
st-img 微信公众号
st-img 手机版