01$ e6 ?5 o s# \ 引言 ) I: R8 ?1 o' u- A& e9 ^4 B: n9 r. g + ~' k7 X+ ~1 }" ^+ j/ f ( |- Q1 H! W5 D9 a7 }( P+ v$ w 0 A! M4 ^5 `: ?/ @! P 8 z2 c) J" b4 C- k9 m% \. s( D6 A: Z 通常客户在做低功耗蓝牙模块设计的时候,如果蓝牙模块在实际使用场景中和手持移动设备(如手机等)绑定使用的话,往往会非常注意蓝牙模块与不同品牌、不同型号的手机的兼容性测试。这些测试项目可能包括长时间连接状态的保持,频繁建立连接,或主动断连后再次建立连接等场景。本文描述的问题是客户在其兼容性测试中发现的一个比较典型的问题,即当从设备在与手机端处于连接状态下,从设备启动连接参数更新进程后,会导致断连的问题。由于是兼容性测试,测试设备,特别是作为主设备的手机来自不同的供应商,在兼容低功耗蓝牙协议的基础上,某些细节部分的差异难以避免。所以,本文只论述了该客户问题的分析过程及得出的结果,并不期望涵盖所有类似场景下导致断连的原因。 5 \7 Q1 x, D5 _% Y3 P! x: m ! H/ [& m" \0 Q! K- W- r0 \ " T/ }2 p$ g/ ? _/ u4 r5 E# P9 R& ` - O, M" k& ]9 p% e: u. n# @ 02 连接参数更新进程简述; o8 ?& [ M7 l+ m * r0 q, l& U. |* E2 [ * ^! h" @1 J. X! |! {6 y- L " K+ c. e' f3 Q; v 3 f2 D% B: k- }7 |. u) O" u T2 |: m4 {4 {1 \. g2 z3 A* r 低功耗蓝牙的核心规范中有规定,当主从设备建立连接后,可以通过启动特定的进程改变当前连接的相关参数,如连接间隔(ConnInterval),从设备延迟(SlaveLatency)和监控超时(SupervisionTimeout)等。 5 B) ?& O3 s) L3 z4 A6 A( r' M; f; |8 H ; f9 N5 H+ [- Q8 ^& \2 M# E1 ? r! n * }! d7 v+ P5 w' k! U7 i% q: { m( V7 y3 B3 K0 o6 M% A3 R5 Z , x& j3 K, [9 t7 O' ` 低功耗蓝牙的核心规范中定义了几个不同的连接参数更新流程,有的流程主设备和从设备都可以启动,有的流程只能由从设备或主设备启动。为避免引入过多对本文关注话题的无用信息,我们在这里只介绍一种由从设备启动的连接参数更新的流程。即由从设备通过调用L2CAP 层的命令的方式启动的连接参数更新流程。 % m/ ^( D% L& @5 C- m* f! r o% n o! G8 ^2 ? 3 T: T! v2 G* d1 h$ L 流程图如图 1 所示。流程图的前提条件是主从设备端之间已建立连接,从设备希望改变当前已建立连接的连接参数。 1 r3 S$ b% h% ~ D2 ^* T* Q; u1 @ # V2 j) k* ]+ G3 ^ 9 e1 ^. o# ?- M% v . X3 ^ x- E& o p# Y 整个流程的步骤解析如下: 6 ~8 o+ D B: F4 K* C8 A 5 G2 ^2 T' W+ o( N1 x 4 a3 \& Q' a& V9 A& M D. c, f }4 w+ Q7 q1 Y 第一步:从设备发起 Connection Parameter Update Request,提交新的连接参数给主设备,希望主设备可以采用这些参数。主设备接收到从设备的 Request 后,会根据自身当前条件(是否能支持这些连接参数)决定是否接受请求。如果接受,则执行第二步;如不接受,则直接跳到第四步拒绝该 Request。 9 I5 h1 @: d" h$ p, e 3 f' ]! ]/ F) Z$ e5 ~7 c9 t5 v+ K 6 |3 t3 Q: d1 C 6 J2 |5 X: @- B3 U# v 第二步:主设备接受请求,给从设备发送链路层数据包LL_CONNECTION_UPDATE_REQ,该数据包中包含了主设备在分析了从设备在第一步中提交连接参数后,决定最终使用的目标连接参数,并约定在后续的特定连接事件开始使用新的连接参数。 : E9 ?4 Y& E" T; W8 v+ H" Z! |2 n( E 8 {+ `9 g2 u3 \% b2 s( i2 ~ 4 Q8 d c/ c, K6 n* e. [) p 第三步:从设备在接收到 LL_CONNECTION_UPDATE_REQ 数据包后发送一个链路层的空包作为响应,并结束当前连接事件。 7 {) F. I+ y0 W! w6 x 4 O1 N$ e# C, Y , {+ i7 t! O& t) k5 S. } 第四步:主设备发送 L2CAP 层的 Connection Parameter Update Response 命令,作为对第一步中 Request 命令的回复,回复中的相关标志标明是接受(Accept)还是拒绝(Reject)之前的 Request 命令。如果是接受,则主从设备双方会在第二步中LL_CONNECTION_UPDATE_REQ 数据包中所指定的后续特定连接事件中开始使用新的连接参数,并成功完成连接参数更新过程。/ ^, m. N J% }8 X9 Y: s ; x9 H% K" D9 | 4 I, P, k) K. Y6 d1 k1 x 4 \' n" R0 M( ~: b0 X 图片1 M( q' r5 v" C1 m j1 U0 f 图1.连接参数更新流程7 a& S4 `3 V; R 6 j' N; r- M% ]" T" j9 X9 J # k0 x# y9 ?/ k 9 K B' m2 l0 |6 H0 T- K 03! U$ S1 p2 o+ D# x8 ~$ \; e ; m0 R" c& b& Q, J# x8 |$ l 客户可能的测试逻辑和问题现象描述7 c% j$ V. Z4 g4 C ! Q+ x1 s) z, ^3 l& b! m" O 6 ?. n8 M" z+ ] 客户使用智能手机和 ST 的 BlueNRG LP 作为测试的主从设备。客户的兼容性测试中需要使用预设连接间隔和监控超时时间。为了在测试过程中可以实时调整相关参数,需要手机端作为主设备通过私有逻辑将新的连接参数通过低功耗蓝牙连接发送给从设备( BlueNRGLP ), 并由从设备启动上述的更新流程,以完成连接参数的更新并继续执行后续的其他测试项。 ' H: Z D3 A( j# c6 |! ] ) O( y9 w) y/ }- d3 \ 问题现象: 1 ~+ `$ \' }, C* J ) a8 ?+ \+ t# u 8 L& W) x, B$ n: V; i 主从设备在完成上述流程第四步后,且主设备发送 Connection Parameter UpdateResponse 命令所给出的响应也是接受的情况下,主从设备在上述流程中第二步LL_CONNECTION_UPDATE_REQ 命令所指定的特定连接事件中开始采用新的连接参数时会发生断连。从设备重新进入广播状态。 " \3 [. ]6 `7 o. { # C" z/ c t& x Y5 Q . |7 O# N+ }$ \! x, F 客户的疑惑点在于主从设备已经完成了上述连接参数更新的交互,意味着应该可以顺利切换到新的连接参数,没有道理会导致后续的断连,由于作为主设备的智能手机是某大品牌产品,怀疑 BlueNRG 的协议栈是否存在兼容性问题。* u/ m- m' r! S2 z5 \ / _. U" u6 h' N7 b, ` ' R. t# @: ~! B+ ^; A) ] , }2 {' U: {6 I! B8 @: E7 {5 [ - `, v' F8 x, k6 c/ Y* U6 J5 Q' t& R 04 问题分析 ) o4 j& Z1 X! o/ h , P. z. c7 @$ x8 `/ r" |1 f 根据问题复现时使用低功耗蓝牙抓包工具所抓取的 log 数据,做如下分析。 $ W4 p$ {! G7 r3 s% ]' u h * I [& \ s& D' m { 1 ~/ l8 f# w2 k9 V* H( y1 m 4.1.分析 LL_CONNECTION_UPDATE_REQ 数据包内容, y0 X% ~* L0 g* b( b. H, F( s - Q& p0 s, n9 \9 y. W0 {* z' I 1 h/ P! {) R& j9 }4 J# C * L& j t: ], u6 v 4.1.1. 如图 2 所示,LL_CONNECTION_UPDATE_REQ 数据包内容,需要重点关注如下数据: " X. C! j7 Q; Y$ d3 z9 d4 i2 U 6 U( N* S9 @ k# x 2 w2 N4 a/ }9 i: F; ^ o: ~" Y 5 D1 Z+ @% Y+ r K" h, O8 B/ q 1. Event counter:29, 表示 LL_CONNECTION_UPDATE_REQ 发送时所在的连接事件编号为 29。 2. Instant:35:约定在第 35 个连接事件中,主从设备开始使用新的连接参数。/ N5 p4 N2 x* Z7 {) t0 q2 l3 y2 @ 3. Interval:816(1020msec), 表示新的连接间隔为 1.02 秒。 4. Window Size/Window Offset:第 35 个连接事件中,主从设备开始使用新的连接参数进行第一次数据包交互时,接收、发送窗口的定时信息。 u- G4 ]4 A$ o4 W 0 n' X. T% X+ Q6 w1 E" D5 R! h K1 F1 O 图片 图2.LL_CONNECTION_UPDATE_REQ PDU 抓包数据" G5 L1 r/ f# S! z 0 o' X1 m& Q& D+ I4 j5 l 2 L5 y! t6 { B/ N 9 y3 S9 s6 k. V h% P2 O: l5 V 4.1.2. 从下图 3 中获取从连接事件 29 到从设备进入广播状态这个过程中每个连接事件及连接时间中数据包收发的时间戳。 ! t% _5 K- F z6 p( O/ O ! `, `; d ^' j# B7 G( b % h: {+ C* P7 V 图片 图3.时间戳2 J H( l$ O; ^6 k* R3 ?. Y 6 l5 M+ ~8 M7 S& O4 T 8 S/ x; N9 R- X8 B- b 从图 3 中可以看出: ( n- M4 j& ~; q- t) I & h) y, c8 l- |+ P$ ` 3 U# ~) V3 V, o k3 ^ 1. 从连接事件 29 到连接事件 34,连接间隔为 30ms,即旧的连接间隔。$ b; W2 t1 J4 Q+ V* V* p6 F0 e% J5 K 2. 连接事件 35 中主设备的发包时间和连接事件 34 的开始时间差大大超过 30ms,所以可以再次确认是在连接事件 35,主从设备开始使用新的连接参数。 3. 从连接事件 35 开始及后续的 3 个连接事件中,只有主设备发送空包,从设备没有发送空包。# F5 A5 c2 d9 M/ @ 4. 由于新的连接参数的监控超时时间在客户的测试中为 4 秒,所以从设备没有发送空包的 4 个连接事件结束后,即发送了断连。然后,从设备重新开始发送广播包。6 ^6 E5 i) u. o1 @ @ 4 n B3 v' C6 j7 y& R* b; t 9 Q! z- a' \+ {, q8 z) v! p 2 P+ Y+ y( L: Y* x0 X N; q" D 4.1.3. 如下图 4,通过分析抓包 LOG 中各个连接事件、即数据包发送的时间戳后发现:& m' O! Y8 E5 ` 9 x0 ]2 b5 A6 O* Z9 z- F 2 K& R" G |! b. c' E, { 5 M! E( R2 C. y5 H 1. 通过 LL_CONNECTION_UPDATE_REQ 数据包中 transmitWindowOffset 计算出TransmitWindow 的开始时间点应该在 11.477925s% m1 s$ O- @: n/ |- o 2. 从抓包的 log 信息中发现,主设备实际的发包时间点在 11.477909s,也就是主设备的发包时间先于蓝牙协议中规定的 TransmitWindow 的起始点,导致从设备无法接收到来自主设备的空包,从而无法在同一连接事件(连接事件 35 及后续的 3 个连接事件)中反馈一个空包,进而导致 4 秒监控超时,最终导致断连。从设备退出连接态后重新进入广播态。 9 ]5 P R% S+ u3 ? y 7 I2 D5 n; p0 P- N2 U# v# L$ B- b. y ) E, W' C# |# E1 ]8 z / X R+ S* t5 ^3 w5 v 图片 图4.连接事件即数据包发送时间分析 # i" s& a D+ k" P3 N 8 {) @# D; L( g0 Z 05 小结% A. P h# n* s, R, I2 f. {& p ' x/ `( T* q! N( c, s - {4 B! _$ c" w7 X8 }& v M1 B6 `1 A5 R9 J8 Y2 @ 上述问题的根本原因是作为主设备的智能手机虽然完成了连接参数更新流程中主从设备之间的交互,但由于其在后续规划的连接事件,规划的射频任务的时间点的偏差而导致了断连。 " `0 Y' Z3 ^& y" J( F5 W1 M 导致低功耗蓝牙断连的可能原因有很多,上述的情况只是其中一种。本文的意图是介绍上述问题的分析过程,读者可以参照本文展现的分析方法、将其运用到类似问题的解决过程中。 9 p! L+ _) |0 X% q0 ]9 `. D% W; d , X( ?$ V. I- d, z 通过对抓包 LOG 中的时间戳的分析,有很大机会可以帮助找到解决问题的突破口。 : y/ y8 {3 J! S. U3 |/ `# {& d& O3 U / ^5 r- u5 h0 A1 [ |