You are on page 1of 9

I

SSN1000G0054 清华大学学报 (自然科学版) 2017 年 第 57 卷 第 12 期 3/16


 
CN11G2223/N  JTs
inghuaUn
iv(
Sc l),2017,Vo
i& Techno l.57, No.
12 1245
G1253

在线社会网络中面向节点影响力的信息传播阻断模型

赵   宇1,2 ,  黄开枝1,2 ,  郭云飞1 ,  赵   星1,2


(
1.国家数字交换系统工程技术研究中心,郑州 450002;2.移动互联网安全技术国家工程实验室,北京 100876)

摘   要:目前 信 息 传 播 阻 断 模 型 是 在 网 络 中 选 择 并 删 除 l SAA.Theprob
lemisthenenc
odedasamixedi
ntegerp
rogramming
(MIP)p
rob
lem.F i
nal
ly,aquan t
um gene
tica
lgori
thm i
sus edto
个最佳节点(边)使 信 息 传 播 到 的 节 点 数 量 最 小,该 模 型 未
s
ele
ctt
hebe
stlnode
sandr
emovet
hem.S
imu
lat
ionsshowt
hatt
he
考虑信息传播节点的影响力,导致选择的l 个最佳节点(边)
be
stl node
sse
lec
ted by t
his mode
lin
fluenc
ethe i
nfo
rma
tion
并不准确,阻断有效性较差.针对此问题,该文提出 一 种 面 d
iff
usi
onove
rasma
lle
rrangeandt
hep
roc
ess
ingt
imei
ssho
rte
rthan
向节点影响力的 信 息 传 播 阻 断 模 型,并 设 计 了 一 种 基 于 采 t
het
rad
iti
ona
lmode
l.
样平均近似的求 解 方 法.模 型 以 网 络 中 节 点 的 影 响 力 为 有 Ke
ywo
rds:soc
ial network; informat
ion d i
ffus
ion b lo
ckng;
i
效性依据,通过选择并删除l 个 最 佳 节 点 来 改 变 网 络 结 构, minimum inf
l e; s
uenc t
ochast
ic opt
imiza
tion; mi
xed
i
ntegerp
rogramming (MIP)
使信息传播到的 目 标 节 点 影 响 力 之 和 最 小;该 模 型 为 随 机
优化问题,首先利 用 采 样 平 均 近 似 将 目 标 函 数 转 化 为 确 定
性问题,其次进一步编码为混合整数规划问题,最后采用一 以微信和微博为代表的在线社会网络已经成为
种量子遗传算法解决该问题得到l 个 最 佳 节 点 并 将 其 删 除. 人们日常交流的重要工具,是民意集中表达与反映
仿真结果表明:相比于传统模型,通过本模型选择的l 个 最
的平台.在给人们获 取 信 息 带 来 便 利 性 的 同 时,该
佳节点能够将信 息 传 播 的 影 响 力 控 制 在 更 小 的 范 围,且 处
平台上也传播着大量有害信息,给人们正常生活造
理时间更短.
成了 不 良 影 响,甚 至 影 响 社 会 和 谐,危 害 国 家 安
关键词:在线社会网络;信息 传 播 阻 断;影 响 力 最 小;随 机
全.在线社会网 络 具 有 规 模 大 和 结 构 复 杂 等 特 点,
优化;混合整数编码
很难根除有害信息的产生,通过改变网络结构等方
中图分类号:TN915.
81 文献标志码:A 式来阻断信息 传 播 是 目 前 可 行 的 解 决 途 径,因 此,
文章编号:1000
G0054(
2017)
12G
1245
G09
对信息传播阻断方法的研究已经成为热点 [12].
DOI:10.
16511/
j.cnk
i.qhdxxb.
2017.
25.
061
信息传播阻断模型主要在信息传播源点数量和
位置确定 的 条 件 下,研 究 选 择 并 删 除 l 个 节 点 或
I
nformat
iondiff
usionb
locki
ngmod e
lo fnod
e 边,使信息传播到的 节 点 数 量 最 少.目 前 信 息 传 播
in
flu
enceG
ori
entedinonl
ineso
cia
ln etwo
rk 阻断问题的研究主要分为 2 类:一类是减小邻接矩
2,
1, 2,
1, 1, 1,
2 阵最大特征值使得信息传播的最少节点数量低于爆
ZHAOYu HUANGKa
izh
i GUOYu
nfe
i ZHAOX
ing

(1.Nat
ionalDi
git
alSwi
tchi
ngSys
tem Engine
eri
ngand 发门限,2012 年 Pr
aka
sh 等 3 提出了消息大规模传
[]

Te
chno
loi
gcalR & DCenter,Zh
engzhou450002,Chna;
i 播门限理论,证明了消息大规模传播条件主要由网
2.Na
tiona
lEngine
eri
ngLaboratoryfo
rMobil
eNe
two
rk
, , )
络结构邻接矩阵的最大特征值和感染率决定,抑制
Se
cur
ity Beii
jgn 100876 Chi
na
信息传播只需使邻接矩阵的最大特征值(谱半径)减
Abst
ract:In
forma
tion d
iff
usi
on b
l ock
ing max
imiz
ationis us
edto
se
lectandde
let
ethebestlnodes(edges)t
omi n
imizethenumbero
f 少到爆发门限以下,该结论为后续信息传播阻断研
node
sre
cei
vingi
nfo
rma
tioni
nthene
two r,t
rk.Howeve he mode
l 究提供了理论依据.如何通过删除节点或边最快地
doe
sno
ttakei
ntoa
ccoun
tthenode
􀆳si
nfl
uenc
e wh
ich b
lockst
he
i
nfo
rma
tionf
lowandl
owe
rst
hee
ffi
cienc
y.Th
ispape
rpr
esen
tsan
i
nfo
rma
tion d
iff
usi
on b
lock
ing mode
ltha
tcons
ide
rst
he node
􀆳s 收稿日期:2017
G04
G24
in
fluence with a method based on the s
ampli
ng ave
rage
2016YFB0801605);
基金项目:国家“九七三”重点基础研究项目(
approxima
tion (
SAA).The mode
lissel
ect
sanddel
etest
hebestl
61521003)
国家自然科学基金资助项目(
node
sto change t
he ne
two
rk s
truc
tur
e wh
ich mi
nimi
zing t
he
i
nfl
uenc
eoft
het
ar 1984—),男,博士研究生.
作者简介:赵宇(
ge
tnode
s.Themode
lisas
tocha
sti
cop
timi
zat
ion
r
pob
lem wh
ichi
str
ans
fer
redi
nto a de
termi
nis
ticp
rob
lem us
ing 通信作者:黄开枝,教授,EGma
il:huangka
izh
i@t
singhua.
edu.
cn

 246 清 华 大 学 学 报 (自 然 科 学 版) 2017,
57(
12)

减小谱半径是 NP
Gcomp
let
e和 NP
Gha
rd 问题 4 ,文 如图 1 为独立级联的传播过程,在t0 时刻,信息传
[]

[
5]以删除点 或 者 边 的 代 价 最 小 为 目 标,设 计 了 一 播的源点节点 1 和 2 通过连接边将消息传播给邻居
种减小谱半径的贪心游走算法,得到近似度较高的 节点 3、4、5,其中节点 3 和 5 接 收 并 转 发 该 消 息,
解.文[ 6]基 于 谱 半 径 提 出 描 述 节 点 阻 断 信 息 传 播 用方块来表示,节点 4 没 有 继 续 转 发 该 消 息,用 圆
能力 的 概 念 Sh
iel
dVa lue,基 于 此 概 念 设 计 了 满 足 来表示;在t1 时刻,与节点 3 和 5 连接的节点为 6
子模型特征的阻断函数,并提出了平衡优化质量和 和 9,其中节点 6 接 收 并 转 发 该 消 息,用 三 角 来 表
时间复杂度 的 Ne
tSh
iel
d+ 算 法.另 外 一 类 是 以 信 示,这一时 刻 节 点 1 和 2 不 会 再 接 收 并 转 发 此 消
息传播到的节点数量最小为直接目标,Kha li
l等 7
[]
息;在t2 时刻,节点 6 转 发 该 消 息,但 是 在 该 信 息
以边活跃图模型为基础,得出通过删除边使信息传 传播过程中没有节点继续接收,这一传播过程最终
播范围最小化问题满足超模型特征的结论,基于该 接收消息的节点为 3、4、5、6.
特征设计了有效的数据结构和最优近似算法,其阻
断效果 优 于 启 发 式 算 法.此 外,Zhang 等 [8]将 删 除
对象调整为以群组为单元,通过删除或者免疫最佳
的群组达到最佳阻断效果.
当前信息传播阻断问题研究的不足之处是其模
型只研究传播到节点的数量,并未考虑节点间影响
力的差异,导致阻断 目 标 不 精 确,信 息 传 播 阻 断 的
有效 性 较 差.例 如,对 不 健 康 信 息 进 行 阻 断 时,更
应该考虑该信息对不同人群的危害,而不是只考虑
传播的范围,如该信息在青少年人群中传播的影响
图 1  独立级联模型示意图
可能远大于在老年人中传播的影响;对国际政治谣
言进行阻 断 时,该 谣 言 对 于 高 级 官 员 来 说 更 加 敏 信息传播过程是在源点数量和位置固定的条件
感,若 传 播 到 了 偏 远 山 区,即 使 接 收 人 数 较 多,其 下,信息以独立级联 的 方 式 在 网 络 中 传 播,最 终 传
产生的影响可能也相 当 有 限.因 此,阻 断 模 型 的 目 播到的节点数量用σ(
G)来表示:
标并不应只局限于信息传播到的范围,更应考虑对 σ(
G)= 􀰐x (G).
v∈T
v (
1)
网络节点产生的总体影响.
其中:xv(
G)表示图 G 中 目 标 节 点 集 T 中 的 节 点v
为此,本文提出了一种面向节点影响力的信息
感染概率,是0~1 间的随机变量,其分布受独立传
传播模型,并设计了一种基于采样平均近似的求解
播概率和网络 结 构 影 响;目 标 节 点 集 T ⊆V ,V 为
方法.在该模型中,阻 断 的 有 效 性 是 以 信 息 传 播 到
所有节点集.
的目标节点影响之和 最 小 为 目 标,为 此,模 型 引 入
信息传播阻断目标函数是研究删除哪些节点或
了单个节点的影响力权值,通 过 选 择 并 删 除l 个 最
者边使信息传播的范围最小:
佳节点,达到信息传播的有效阻断.
n(
mi σ(
Gl)). (
2)
1  问题描述
l

l 表示删除 的 节 点 集 或 者 边 集,Gl 表 示 删 除
其中:
在线社会网络用 G= (
V ,E)来 表 示,其 中,V 节点集或者边集k 后的网络结构.
和E 分别代表网络中所有节点和所有边的集合.信 目前信息传播阻断模型只以信息传播到的节点
息传播采用独立级联模型 [9],即接收到信息的 节 点 数量为目 标,阻 断 的 目 标 与 实 际 需 求 存 在 较 大 偏
通过连接边将信息传播给其邻居节点,节点接收该
差,阻断 有 效 性 较 差.具 体 如 图 2 所 示:节 点 用 圆
信息并传播的概率为 pe,每条边的传播过程相互独
点表示,圆点的大小代表节点影响力的大小,设 N5
立.在线社会网络中节点对同一条信息通常只转发
影响力为α>1,其他节点影响力为 1.假设信息 源
一次,采用递进式的 模 型 来 描 述 此 现 象,即 若 节 点
点传播的信息会被每一个节点接收并转发,若选择
已进入转发消息状态后将不会再回到等待接收消息
并删除 1 个最佳节点使得阻断效果最为有效,则发
状态,此条件保证节 点 的 状 态 不 会 回 退,而 且 即 使
现不同的有效性目标会选择不同的删除节点.如果
网络结构中存 在 环 路,传 播 路 径 也 不 会 出 现 环 路.
以阻断信息传 播 节 点 的 数 为 目 标,则 选 择 删 除 N1
赵   宇,等:  在线社会网络中面向节点影响力的信息传播阻断模型 1
 247

节点为最佳;如果以阻断信息传播节点影响力总和 播的节点影响力之和最小.在本模型中删除节点方
为目标,则选择 删 除 N4 节 点 为 最 佳;进 一 步 如 果 法更为灵 活,令 删 除 节 点 动 作 为 操 作 管 理 动 作 集
将节点的影响力大 小 都 设 置 为 1,则 信 息 传 播 阻 断 A= {
1,2,􀆺,L},其中单个操 作 动 作 的 对 象 根 据
中以节点数量最小化为目标,就是以节点影响力总 需求可以设定为单个节点或一组节点Vl,并要求各
和最小化为目标的特例. 操作管理动作面向对象无交集且相互独立,则网络
L

中所有节点集 V 可以表示为 V =V0 ∪ ( ∪Vl ) ,其


l=1

中 V0 是所有删除操作中没有包括的节点.
为了便于表示操作管理动作的执行情况,令向
图 2  信息阻断有效性示意图 量YL 为具体的 操 作 策 略,该 向 量 表 示 管 理 动 作 集
中删除动作 yl 的执行情况,yl 为 0~1 向量,yl 取
针对上述问题,本文引入单个节点的影响力权
1 时 代 表 执 行 了 对 应 的 删 除 动 作l,yl 取 0 时 代 表
值,建立了面向影响 力 的 信 息 传 播 阻 断 模 型,并 明
该删除动作l 没有 执 行.另 外,删 除 网 络 中 的 节 点
确了信息 传 播 的 有 效 性 以 影 响 力 总 和 为 目 标;然
对网络结构造成了破坏,为每一个操作设定一定代
后,设计了一种基于采样平均近似的方法对该模型
价,令cl 表示删除节点动 作l 的 代 价,操 作 动 作 的
进行求解,选择并删 除l 个 最 佳 节 点,使 信 息 传 播
总代价限制在一定阈值 C 以内.因此,基于节点影
阻断更为有效.
响力的信息阻断目标函数如下所示:
2  面向影响力的信息传播阻断模型 n σ(
mi G(YL )),
YL

2.
1  信息传播影响力定义 L (
4)
本文引入了单个节 点 的 影 响 力 权 值 βv ( t.  􀰐clyl ≤ C.
s.
G),该 l=1

值与节点特征、网 络 结 构 和 信 息 属 性 等 内 容 相 关, 其中:G(
YL )为执行了YL 策略的删除动作后的网络
影响力的权值可根据实际情况灵活定义.如考虑不 结构图;σ(G(YL ))表示在 G(
YL )结构下,最终感 染
健康信息对青少年的影响,则该权值应该依据不健 目标节点影响力之和,

􀰐X
康信息对青少年人群节点产生的危害定义;如考虑
σ(
G(YL ))= v (
G(YL ))
βv(
G(YL )). (
5)
谣言在异构网络中的传播范围,则该影响力权值应 v∈T

该以节点 在 网 络 中 的 连 接 性 和 中 心 性 等 条 件 为 依    在该模型中,求解目标函数得到的策略YL ,通
据;影响力权值βv ( 过执行策略YL 删 除l 个 最 佳 节 点,便 达 到 信 息 传
G)可 采 用 文[
10 13]等 的 研 究
成果,由于其取值对建立信息传播阻断模型并无本 播阻断效果最佳的目的.

质影响,故不针对影 响 力 权 值 展 开 研 究.基 于 单 个 2.
3  模型性质分析
节点的影响力权值和上述信息传播过程,定义网络 如何确定l 个最佳节点并删除使信息传播影响
rd 问题 4 ,通过对式(
力最小是 NPha 4)的分析发现
[]
中一组初始信息传播源点的最终影响力为
其不满足子模和超模特征,具体见性质1和性质2.
σ(
G)= 􀰐x (G)
β(
vG).v (
3)
v∈T
性质 1  传播影响力最小目 标 函 数 不 满 足 子 模
其中:目标节点集合 T 通常情况下可设置为所有节
特征.
点 V ,针对特殊应用场景也可能存在关注特 定 节 点
证明:如图 3 所 示,为 便 于 量 化,将 删 除 节 点
集合的情况,此时设置 T 是所有节点V 的子集.此
的代价设置为 1,则 删 除 节 点 的 总 代 价 直 接 对 应 着
外,本模型中初始信息传播集合 I 为固定值,并 未
删除节点的数量.
3)中体 现.该 信 息 传 播 影 响 力 的 定 义 具 有 一
在式(
一个函数具备子模型特征的定义如下:对于集
定的普适性,若 将 影 响 力 权 值 都 设 置 为 1,该 定 义
合 S⊆R⊂E,e∈E\R,若满足式(
6),则 目 标 函 数
就简化为信息传播的节点范围的定义.
具备子模特征.
2.
2  模型建立 f(
S∪ {
e})-f(
S)≥ f(
R∪ {
e})-f(
R).
建立面向节点影响力的信息传播阻断模型:在 (6)
网络中存在固定初始 传 播 源 点 集 I,通 过 选 择 并 删    子模特征的直观解释是集合 R 增加一个元素e
除l 个最佳节点的方式 改 变 网 络 结 构,使 得 信 息 传 的边界收益要 不 大 于 其 任 何 一 个 子 集 S 增 加 一 个

 248 清 华 大 学 学 报 (自 然 科 学 版) 2017,
57(
12)

元素e 的边界收益. 而
f(
R∪ {
e})-f(
R)=-1-α,

f(
S∪ {
e})-f(
S)> f(
R∪ {
e})-f(
R),
7),证毕.
不满足式(

图 3  目标函数不满足子模特征示意图

4)不满足子模型特征.
采用反证法举例说明式(
首先构造删除节点的集合并计算删除节点后信息传
播源点在整个网络中的影响力,假设删除节点的较
小节点集 S 为 单 点 N7 ,即 S= {
N7 },为 了 与 子 模
图 4  目标函数不满足子模和超模特征示意图
函数一致,用 f(
x)表 示 σ(
G),那 么 f(
S)=I-α,
其中I 是源点在整个网络中传播的最终影响力;接 性质 3  贪心算法不能保证 传 播 影 响 力 最 小 目
下来确定删除节点的较大集合 R= {N6 ,N7},则删 标函数的解近似最优.
除节点集合 R 后的影响力为f{
R}=I-α-1;选择 证明:采用贪心算法的依据是目标函数满足子
删除的增量节点为 N5 ,即e=N5 .此时, 模或者是超模特征,若 满 足,则 贪 心 算 法 就 能 够 达
f(
S∪ {
e})-f(
S)=-2, 到近似比为( 1-1/e-ε)近 似 最 优 解.性 质 1 和 性
而 质 2 证明了式 (
4)不 满 足 子 模 和 超 模 特 征,因 此 采
f(
R∪ {
e})-f(
R)=-1, 用贪心算法可能会 出 现 非 常 差 的 结 果.例 如 在 图 2
即 中,假设通过删除 2 个 节 点 使 影 响 力 最 小,若 采 用
f(
S∪ {
e})-f(
S)< f(
R∪ {
e})-f(
R), 贪心算法 则 采 用 每 一 轮 删 除 一 个 影 响 力 最 佳 的 节
6),证毕.
不满足式( 点,最终结果为 N2 、N42 个节点,删除节点后的影
性质 2  传播影响力最小目 标 函 数 不 满 足 超 模 响力为 I-4;而 全 局 最 优 解 是 删 除 节 点 N5 、N6 ,
特征. 删除节 点 后 的 影 响 力 为 I-2-α,此 时,α 的 值 越
证明:若该目标函 数 具 有 超 模 特 征,则 对 于 集 大,采用贪心算法的 结 果 就 越 差,无 法 使 用 贪 心 算
合 S⊆R⊂E,e∈E\R,满足下式即可: 法得到近似最优解,为此本文设计了一种基于采样
f(
S∪ {
e})-f(
S)≤ f(
R∪ {
e})-f(
R). 平均近似的方法对该模型进行求解.
(7) 3  基于采样平均近似的求解方法
   超模特征的直观解释是集合 R 增加元素e 的边
信息传播阻断模型中的影响力总和为随机变
界收益要大于等于其任何一个子集 S 增加元素e 的
量,模 型 为 随 机 优 化 问 题.因 此,本 文 基 于 采 样 平
边界收益.
均近似 [14]的方法解决该问题.
以图 4 为例,用 反 证 法 举 例 说 明 式 (
4)不 满 足
边界收益减少特征.首先构造删除节点的集合并计 3.
1  采样平均近似

算删除节点后源点传播信息后的影响力,假设删除 在复杂 的 网 络 结 构 中,即 使 消 息 发 布 源 点 已


的较小节点集 S 为单点 N2 ,即 S= {
N2 },用 f(
x) 知,推测信息在 整 个 网 络 的 传 播 过 程 也 是 困 难 的,
表示σ(
G),那么 f(
S)=I-2;然 后 选 择 删 除 节 点 但表示节点 感 染 概 率 的 随 机 变 量 Xv (
G)在 网 络 空
的较大集合为 R= {
N2 ,N5},则删除节点后的影响
间中的分布概率是确定的,该概率分布不依赖具体

力为 f{ 选择的删除节点策略.随机变量 Xv(
G)的具体采样
R}=I-3;选 择 删 除 的 增 量 节 点 为 N6 ,即
e=N6 .此时,
值可以通过一次信息传播过程来确定,信息传播路
′,为了能够快速地
径所组成的网络即为传播视图 G
f(
S∪ {
e})-f(
S)=-1,
赵   宇,等:  在线社会网络中面向节点影响力的信息传播阻断模型 1
 249

得到网络 视 图,可 采 用 文 [
9]提 出 的 翻 硬 币 方 法, L
σ(
G(^)
y )
s.t.􀰐clyl ≤B 是 OPT 的 上 界,上 界 的 估
l=1
该方 法 假 设 每 条 边 相 互 独 立 并 依 照 一 定 概 率 pe 传 L

播信息,传播信息的 边 连 接 而 成 传 播 路 径,最 终 由 计值在约束 􀰐clyl ≤B 条 件 下 为σ(


G(^)
y ),则 最 优
l=1

传播路径连接而成传播网络.该信息传播网络结构 解的上界与下界如下:
′,文[
即是快速生成的网 络 视 图 G 9]证 明 了 翻 硬 币 E[
Z]≤ OPT ≤ E[
Z(^)
y ]. (
10)
  E [Z(
^)
方法与级联传播模型得到的传播效果一致.
y -Z ] 是 最 优 解 之 差 OPT-Z 的 上 界,
生成网络视图的过程中有两类比较特殊的节
Z(
^)
y -Z 是最优解上界的无偏统计量.
点:一类是在翻硬币过程中信息几乎没有传播到的
节点,另一类是在信息传播中几乎每次都会传播到 3.
2  混合整数规划编码
的节点.这 两 类 节 点 不 仅 与 每 条 边 的 独 立 传 播 有 为求解确定性 最 优 化 问 题,将 式 (
8)编 码 为 混
关,而且主要取决于 网 络 的 结 构:几 乎 每 次 都 会 传 合整数规划问题.当对网络视图进行删除节点操作
播到的节点与源点间存在多条路径,信息传播到该 时,υkv(
y)会受到网络结构变化而产生变化,利用变
v(
量 xv 替换υk y),从而将传播接收情况扩展到原有
k
节点的可能性非常高;而几乎没有被传播到的节点
与源点的路径较远有关.那么可以对网络进行优化 概率空间.编 码 后 的 混 合 整 数 规 划 目 标 函 数 如 式
处理,剔除每次都传播不到的节点和压缩每次都会 (
11a)所示,其中对于单个节点v,从该节点到源点
传播到的节点集.优化后的网络结构减少了处理对 路径上的所有节点共计 MA 个,其 删 除 动 作 集 合 用
象,可降低处理时延.对网络 G 执行翻硬币方法 N A(
v)表示.
1, 2 ,􀆺,
N

次,得到 G G′ G′ 1
􀰐 􀰐βvxv ;
N 的网络视图集,该网络视
mi
nmax  k
(
11a)
图集作为训练视图集.在 训 练 视 图 集 中 考 虑 采 用 y Y X Nk=1 v∈T

′k(
y)中 节 点 v 的 影 响 力 用 确 定 值
L
策略后,视 图 G
t.  􀰐clyl ≤ C;
s. (
11b)
v(
υk y)表 示.那 么 式 (
4)通 过 SAA (
samp
leave
rage l=1

approx
imat
ion) 1
􀰐 yl ,∀v ∉V0,∀k;(
11c)
方法可得到:
v ≤r 1-
xk ( )
N MAl∈A(
v)

mi
n  􀰐 􀰐βvυv(y), 􀰐
k
y Nk v ≤
xk u , ∀v ∉S,∀k;
xk (
11d)
(
8)
=1 v∈T
(
u,v)∈Ek
L

t.  􀰐clyl ≤ C.
s. 0≤ xkv ≤1,yl ∈ {0,1}. (11e)
1, if xv ∈yl☉Vl;
l=1 k

   接下来分析采样结果与真实结果的差别.当训
练 视 图 数 量 N → ∞ 时,SAA 的 结 果 会 收 敛 于
其中,r=
{
0, if xk
v ∉yl☉Vl.

目 标 函 数 明 确 后 ,建 立 删 除 操 作 策 略 与 节 点
3),当 N 的采样规模较小时,SAA 的结果并不
式( 信 息 接 收 率 的 约 束 关 系 ,最 终 编 码 为 混 合 整 数 规
是最优解,文[ 15]对 随 机 路 由 问 题 进 行 了 分 析,该 划 问 题 .在 网 络 视 图 G
′k 中 没 有 直 接 删 除 节 点v
结论适用于本 算 法,对 基 于 SAA 的 阻 断 算 法 的 结 的 情 况 下 ,其 删 除 动 作 减 少 了 从 源 点 到 目 标 节 点
v 的 传 播 路 径 数 ,降 低 了 目 标 节 点 的 影 响 概 率 ,
果偏差进行分析如下.
对式(3)进行 M 次独立采样,每次采样的训练视 其影响关系如式( 11c)所 示 ,如 果 直 接 删 除 节 点
图为 N 个.采样后会产生 y ^1 ,^2 ,􀆺,
y ^m 个执行策
y v,则 该 节 点 的 信 息 接 收 率 值 为 0,该 动 作 由 r 控
3)的目标结果为 Z1,Z2,􀆺,
略备选方案,对应着式( 制 ;另 外 ,针 对 所 有 节 点 ,根 据 翻 硬 币 的 规 则 ,
Zm ,令 传播视图 中 感 染 的 目 标 节 点 必 须 与 源 点 存 在 通
路 ,即 信 息 接 收 节 点 有 已 经 接 收 并 转 发 了 信 息 的
M

Z=
Mm􀰐=1
Zm . (
9)
邻 居 节 点 ,如 式 (
11d)所 示 ,由 此 建 立 起 变 量 xk
v

其中,Z为 M 个 样 本 SAA 问 题 目 标 函 数 的 最 优 平 和 策 略 yl 的 线 性 关 系 .
均值.E[
Z]≤OPT,OPT 为式(
3)影响力最小化问 3.
3  量子遗传算法
题的最优解,那 么Z 成 为 式 (
3)最 优 解 下 界 的 统 计 为快速和准确地解决节 3.
2 中编码后的混合整
估计量. 数规划问题,可采用具有并行计算能力和全局最优
令y 3)的 一 个 可 行 解,通 常 是 一 组 规 模
^ 是式( 解特征的智能算法,其中遗传算法是一种应用比较
为 N′的 采 样 视 图 的 最 优 执 行 策 略,则 目 标 函 数 广泛的 智 能 优 化 算 法.Na
rayana16 为 了 提 高 遗 传
[ ]

 250 清 华 大 学 学 报 (自 然 科 学 版) 2017,
57(
12)

算法的寻优能力,首次将量子计算理论与遗传算法 适应度函数:
[
17] M L
1 -1

􀰐 􀰐xv ε( 􀰐yl -B ) .
进行结合,提出了量子遗传算法.江逸茗等 将量
F
it(
Y)= max
k

子遗传算 法 用 于 解 决 网 络 虚 拟 化 环 境 下 的 监 控 问
[ Mk=1 v∈T
] l=1

题,该量子遗传算法同样适用于求解节 3.
2 中描述 (14)
的混合整数 规 划 问 题,从 而 得 出 最 佳 的l 个 节 点, k
v 11b)等
其中:x 的取值由策略Y 的 具 体 取 值 和 式(
L
具体步骤如下.
约束条件决定;ε( 􀰐yl-B ) 为阶跃函数,适应度函
步骤 1:初始化. l=1

数为 0.
量子比特状 态 为 处 于|0›态、|1›态 以 及|0›和
步骤 3:量子旋转门.
|1›之间的任意 叠 加 态,对 应 目 标 节 点 的 状 态 为 被
为了对种群 进 行 更 新,采 用 量 子 旋 转 门 机 制.
删除,保留两者的叠加态可描述为
量子旋转门是一种具有酉性的矩阵,用于改变量子
|Ψ›=α|0›+β|1›. (
12)
叠加态的概率幅,其定义为
其中:α、β 是 复 数; α 和 β 分 别 表 示 量 子 比
2 2

特被观测为|0›和|1›态的概率,且两者各为 1. éco
s i
θ -snθù
U(
θ)= êê úú . (
15)
量子遗传算法的运算对象的可行解可以看作是 ësi
nθ c
osθû
个体的染色体,每 个 染 色 体 由 多 个 量 子 比 特 组 成,    在定义了量子旋转门以后,对某个染色体的第
一个量子 比 特 的 概 率 幅 可 以 定 义 为 [α β ] T ,而 一 αl,βl]
l 个量子位[ T
的更新过程为

个由 L 位量子比特组成的染色体的编码形式为 éêα′ éêc o


sθl -si
nθl ù éαl ù
(
16)
l ù
êë úúû = úú êê úú .
si
n co
s
êë
éα1 α2 􀆺 αL ù β′
l θl θl û ëβl û
q= ê
ê ú. (
13)
ëβ1 β2 􀆺 βL û ′ ′
ú 其中:αl 和βl 分别表示经 过 变 换 后 的 第l 个 量 子 比

   一 个 染 色 体 可 以 同 时 描 述 2L 个 状 态,即 覆 盖 特的概率幅;Δθl 表 示 该 量 子 比 特 所 对 应 的 旋 转 门
了删除操作策略的所有空间,在观测时染色体将坍 的旋转角,其定义如下:
缩为一个确定的状态,即确定了删除的l 个节点. θl =s(
αl,βl)
Δθl. (
17)
步骤 2:适应度计算. 其中:s(
αl,βl)决定量子旋转的方向,Δθl 决定量子
在确定了染色体的编码以后,对染色体进行测 旋转的角度.这 2 个变 量 的 取 值 如 表 1 所 示.由 于
量,方法是为每 一 个 量 子 比 特 都 生 成 一 个 随 机 数, 量子旋转的角度对算法的收敛速度影响较大,因此
若该随机数小于 α 2 ,则该量子比特位的测量值为 在算法运行的初期可以将 Δθl 的 取 值 适 当 加 大;在
0,否则为 1;然 后 计 算 其 适 应 度,个 体 执 行 策 略 算法运行后期,为了 精 确 求 得 最 优 解,可 以 适 当 减
Y= [
y1 ,y2 ,􀆺,yL ],可 将 式 (
11a)进 行 变 换 得 出 小 Δθl 的取值.

表 1  量子旋转门的调整策略

s(
αl,βl)
xl bl F
it(
x)≥F
it(
b) Δθl
αlβl>0 αlβl<0 αl=0 βl=0
0 0 否 0 0 0 0 0
0 0 是 0 0 0 0 0
0 1 否 0 0 0 0 0
0 1 是 δ -1 ±1 ±1 0
1 0 否 δ -1 ±1 ±1 0
1 0 是 δ 1 -1 0 ±1
1 1 否 δ 1 -1 0 ±1
1 1 是 δ 1 -1 0 ±1
   注:b 为当前最优解,bl为最优解的第l 位.

置传播参数来模拟传播过程,进而验证本文设计的
4  仿真分析
阻断方法.本文采用的网络数据集包括:1)Twi t
ter,
4.
1  数据集和参数选取 该社交网 络 是 一 种 有 向 连 接 的 网 络;2)S
lashdot,
实验数据集采用真实的网络数据集,利用这些 来自免费的开放网络社区,该数据集描述的是朋友
网络数据集构建网络结构,并基于这些网络结构设 之间的关系,而 且 个 人 的 朋 友 关 系 可 以 对 外 公 开;
赵   宇,等:  在线社会网络中面向节点影响力的信息传播阻断模型 1
 251

3)Epin
ions,该 数 据 集 描 述 一 种 在 线 社 会 网 络 中 考虑了全局视图,能够把潜在的影响力最大的节点
人 与 人 的 信 任 关 系 .网 络 数 据 集 如 表 2 所 示 . 考虑到后续的删除 节 点 的 范 围 内.3 种 算 法 对 比 结
表 2  采用的数据集 果为,以节点的度为 指 标 的 启 发 式 算 法 最 差,基 于
数据集 节点数 边数 目标增加量最多和目标增长率最高的贪心算法要优
Twi
tte
r 81306 1768149 于基于度的启发式算法.
S
lashdo
t 77360 905468
Ep
ini
ons 75879 508837

   每类数 据 集 具 有 不 同 的 特 点,Twi
tte
r的 节 点
关系更为紧密,网络的直径只有 7 跳,90% 的有效
直径为 4.
5 跳;S
lashdo
t的节 点 的 网 络 直 径 达 到 了
10 跳,90% 的有效直径为 4.
7 跳;Ep
ini
ons的节点
关系在3 个数据集中直径最大,达到了14 跳,90%
的有效直径为 5 跳.基 于 真 实 的 网 络 数 据 结 构,设
定传播模型的相关 参 数,在 所 有 网 络 中 随 机 选 择 5
个源点为信息发布的初始节点,并假设信息在网络
2.
中传播的感染率为 pe=0.
节点的影响力在本仿真中以节点所处的网络结
图 5 Twi
tte
r网络中阻断影响力对比示意图
构特征为依据,标识节点影响力通常有节点的度或
在S
lashdo
t网络中的阻断效果如图 6 所示.在
13]发现中尺度的网络结构指
者介数等指标,而文[
Ep
ini
ons网络中的阻断效果如图 7 所示.
标kG
cor
e更能准确地 反 映 节 点 对 信 息 传 播 的 作 用,
因此,使用的节 点 影 响 力 权 值 为 节 点 的 kG
cor
e 值.
另外,对于网络结构 来 说,删 除 节 点 的 直 接 代 价 是
改变该点与其邻居的连接关系,因此约束代价选择
以节点度为依据.

4.
2  传播有效性分析
选择 3 种算法进行对比,其中第 1 种算法是启
发式算法,依次删除度 deg
ree最大的节点;第 2 种
re Guc9 ,该 算 法 是 每 一 步 都 选 择
edy
[]
是贪心算 法 g
当前影响最大的节点;第 3 种是效率与代价最高比
reedy
Gcb18 ,该 算 法 考 虑 了 操 作 节 点
[ ]
的贪心算法 g
图 6 S
las
hdo
t网络中阻断影响力对比示意图
的代价,每一步选择节点时都选择影响力效果与代
价的最大比值.
在 3 种网络结构中利用翻硬币的方法模拟信息
传播,生成 M =50 规 模 N =15 的 采 样 对 象,分 别
生成验证网络视图和测试网络视图,规模都为750,
即 N _va
lid=750,N _t
est=750.基于 SAA 的阻断
算法在利用训练集中产生最佳执行策略,然后在各
验证样本 中 进 行 验 证.由 于 网 络 中 节 点 的 数 量 不
同,设置删除代价的最大值为总节点度的 10% .
如图 5 所示,整体阻断信息传播影响力的结果
中基于 SAA 的阻 断 算 法 是 最 优 的,尤 其 是 在 删 除
图 7 Ep
ini
ons网络中阻断影响力对比示意图
节点的中前期,主 要 原 因 是 基 于 SAA 的 阻 断 算 法

 252 清 华 大 学 学 报 (自 然 科 学 版) 2017,
57(
12)

通 过 对 比 以 上 各 图 可 以 发 现 ,贪 心 算 法 与 基 网 络 中 ,结 构 紧 密 度 相 对 较 差 ,网 络 中 存 在 结 构
于 SAA 的 阻 断 算 法 在 Twitter数 据 中 的 最 优 解 洞 和 较 短 的 信 息 扩 散 路 径 ,贪 心 算 法 容 易 造 成 局
比 较 相 近 ,而 在 其 他 网 络 中 基 于 SAA 的 阻 断 算 部 最 优 解 ,因 此 ,基 于 SAA 的 阻 断 算 法 要 优 于
法 要 明 显 优 于 其 他 贪 心 算 法 .说 明 基 于 SAA 的 其他两类贪心算法.
阻断 算 法 与 网 络 的 紧 密 程 度 和 结 构 相 关,在 对 SAA 的上界 和 下 界 分 析 如 图 8 所 示,设 置
Twi
tter网 络 中 由 于 结 构 相 对 紧 密 ,信 息 传 播 到 删除代价的最大值为总节点度的10% ,分别分析采
相 对 远 处 的 路 径 也 较 多 ,因 此 局 部 的 最 优 解 很 可 样规模对 3 种网络结构的感染节点影响力的上界和
能 就 是 全 局 的 最 优 解 .而 在 S
lashdo
t和 Ep
ini
ons 下界的影响.

图 8 3 种网络中不同采样数量的影响

   通过对 3 种结构的上界和下界的分析,可以发
现 3 种网络的采样次数对结果的影响基本一致,当
采样规模达到 15 的 时 候,上 下 界 差 与 上 界 的 比 值
9% ,因 此,每 次 采 样 的 网 络 视 图 规 模 为
最大为 3.
15 时便可以满足需求.
4.
3  预处理对算法时间的影响
预处理包括 2 种处理方式:一种是剔除不相关
的节点;另一种是将感染关系最为紧密的节点进行
压缩 处 理. 以 S
lashdo
t 数 据 为 例, 该 数 据 集 有
77360个节点和 905468 条边,经过预处理后,该数
据集减少至 18456 个节 点 和 452332 条 边.比 较 进
图 9  预处理与正常计算时运算时间对比图
行预处理和没有进 行 预 处 理 的 基 于 SAA 算 法 的 运
行时间,以 采 样 50 次 规 模 15 为 例.如 图 9 所 示, 征,导 致 贪 心 算 法 并 不 能 够 保 证 近 似 最 优 解.然
没有预处理的计算时间是进行预处理的计算时间的 后,使用采样平均近似方法以全局的角度考虑阻断
3~10 倍.运算 时 间 与 解 空 间 的 大 小 相 关,但 是 并 模型,将该问题转化 为 确 定 性 问 题,并 分 析 了 该 最
不是线性关系.在解 空 间 相 对 较 小 时,运 算 时 间 随 优解的界限.最后,进 一 步 将 采 样 结 果 编 码 为 混 合
着删除节点的代价增加而增加,而删除节点代价大 整数规划问题,采 用 一 种 量 子 遗 传 算 法 进 行 求 解.
于一定值时,其运算时间随着删除节点代价的增加 仿真结果表明,该方法阻断信息传播影响力的效果
几乎保持不变,并且能够在较大的解空间内保持较 优于贪心算法,并且网络结构上的优化方法可以有
小的运行时间. 效降低算法运行时间.

5  结   论
本文针对社会网络中阻断信息传播的问题,提 参考文献   (
Ref
ere
ncs)
e
出了一种面向节点影响力的信息传播阻断模型,该 [
1] 陈卫 . 社 交 网 络 影 响 力 传 播 研 究 [
J]. 大 数 据,2017,

模型的目标是使信息传播的影响力之和最小.本文 1(
3):201503.
CHEN Wei.Res
earchonin
fluenc
edif
fusi
oni
ns oc
ialne
twok
证明了该 模 型 的 目 标 函 数 不 满 足 子 模 量 和 超 模 特 [J].B
igData,2017,1(3):201503.(i
nChine
se)
赵   宇,等:  在线社会网络中面向节点影响力的信息传播阻断模型 1
 253

[
2] Nowz
ariC,Pr
ecadoV M,Pappa
i sGJ.Ana
lys
isandc
ont
rol [
10]L
iuY,TangM,ZhouT,e
tal.I
den
tif
yin
fluen
tia
lsp
reade
rs
o
fep
idemi
cs:A sur
vey o
fsp
read
ing p
roc
ess
esonc
omp
lex i
ncomp
lexne rks,t
two her
oleo
fne
i rhood [
ghbo J].Phys
ia

ne rks [
two J].IEEECon
tro
lSys
tems,2016,36(
1):26 46. A :S
tat
ist
ica
l Me
chan
icsandI
tsAppl
ica
ti s,2016,452:
on

[
3] Pr shB A,Chakr
aka aba
rtiD,Va
llrN C,e
e tal.Thr
esho
ld 289 298.
[
11]Xi
aY,Ren X,Peng Z,e
tal.Ef
fec
tive
l den
yi tif
yingt
he
c
ond
iti
onsf
ora
rbi
tra
r a
ycsc
ademode
lsona
rbi
tra
ryne
two
rks
[ i
nfl
uen
tia
l sp
reade
rsi
nla
rge
Gsc
ales
oci
al ne rks [
two J].
J].Knowl
edgeand Info
rma
tion Sys
tems,2012,33(
3):
Mu
ltimed
iaTo
olsandApp
lic
ati
ons,2016,75(
15):8
829 8
841.
549 575.
[
12]ZhangJX,Chen D B,Dong Q,e
tal.I
den
tif
yingas
eto
f
[
4] TongH,Pr sh B A,El
aka ias
siGRad T,e
tal.Ge
ll
ing,and
i
nfl
uen
tia
lsp
reade
rsi
ncomp
lex ne rks [
two J].S
cien
tifi
c
me
lt
ing,l
areg
g r
aph
sbye
dgema
nipu
lat
ion [
C]// Pr
oce
edi
ngs
Repo
rts,2016,6:27823.
o
fthe21s
tACMI
nte
rna
tiona
lCon
fer
enc
eonI
nfo
rma
tionand
[
13]Ki
tsak M,Ga
lls L H, Hav
o lin S,e
tal.I
den
tif
ica
tion o
f
Knowl
edgeManagemen
t.Hawa
ii,USA:ACM,2012:245
i
nfl
uen
tia
l sp
reade
rsi
ncomp
lex ne rks [
two J]. Na
tur
e
254.
Phys
ics,2010,6(
11):888 893.
[
5] Saha S, Ad
iga A, Pr sh B A,e
aka tal. App
rox
ima
tion [
14]Rub
ins
ten R Y, Kr
i oes
e D P.S
imu
lat
ion andt
he Mon
te
a
lgo
rit
hmsf
orr
educ
ingt
hespe
ctr
alr
adi
ust
ocon
tro
lep
idemi
c Ca
rlo Me
thod [M].New Yo
rk:J
ohn Wi
ley & Sons,2016.
sp
read [
C]// Pr
oce
edi
ngso
fthe2015 S
IAM I
nte
rna
tiona
l [
15]Ve
rwe
ijB, Ahmed S,Kl t A J,e
eyweg tal.Thes
amp
le
Con
fer
enc
eonDa
ta Mi
ni ouve,Canada:So
ng.Vanc cie
t o
yfr ave
rageapp
rox
ima
tion me
thodapp
liedt
ost
ocha
sti
crou
ting
I
ndus
tri
alandApp
lied Ma
thema
tis.2015:568 576.
c r
pob
lems: A c
ompu
tat
iona
lsudy [
t J]. C
ompu
tat
iona
l
[
6] ChenC,TongH,Pr shBA,e
aka tal.Nodeimmun
iza
tionon Opt
imi
zat
ionandAppl
ica
ti s,2003,24(
on 2 3):289 333.

l
aregr
a s:Th hms[
J].I [
16]Na
rayanan A. An i
ntr
oduc
tor
y t
uto
ria
l t
o quan
tum
g ph eor
yanda
lgo
rit EEETr
ans
act
ion
son
Kn
owl
edgeandDa
taEng
ine
erng,2016,28(
i 1):113 126. c
ompu
ting [
C]// Pr
oce
edi
ngs o
ftheIEEE Co
lloqu
ium on

[
7] Kha
llE B, Di
i lkna B,Song L.Sc
i alab
led
iff
usi
onG
awa
re
Quan
tum Compu
tingTheo
ry,App
lic
ati
onsandImp
lic
ati
ons.
London,Eng
land:IEEE,1997:1 3.
op
timi
zat
iono
fne
two
rkt
opo
logy [
C]// Pr
oce
edi
ngso
fthe
[
17] 江逸茗,兰巨龙,周慧琴 .网 络 虚 拟 化 环 境 下 的 资 源 监 控 策
20
thACM S
IGKDDI
nte
rna
tiona
lCon
fer
enc
eon Knowl
edge
略 [
J].电子与信息学报,2014,36(
3):708 714.
Di
scove
ryandDa
ta Mi
ni rk,NY,USA:ACM,
ng.New Yo
J ng,LAN JuLong,ZHOU Hu
IANG YiMi iqi
n.Re
sour
ce
2014:1226 1235.
mon
ito
ringpo
lic
yfo
rne
two
rkv
irt
ual
iza
tionenv
ir t[
onmen J].
[
8] ZhangY,Ad
iga A,SahaS,e
tal.Ne
arG
opt
ima
lal
gor
ithms
J
ourna
lof El
ect
ron
ics & Info
rma
ion Te
chno
logy,2014,
f
orc
ont
rol
lingp
ropaga
tiona
tgr
oups
cal
eonne rks [
two J].
36(
3):708 714.(
inCh
ine
se)
IEEE Tran
sac
tion
son Knowl
edgeand Da
ta Engi
nee
ring, [
18]Le cJ, Kr
skove e A, Gue
aus str
in C,e
tal.Co
stG
eff
ect
ive
2016,28(
12):3339 3352. ou
tbr
eakde
tec
tioni
nne rks[
two C]//Pr
oce
edi
ngso
fthe13
th
[
9] KempeD,Kl
einbe
rgJM,Ta
rdo
sÉ.Max
imi
zingt
hesp
read ACM S
IGKDD I
nte
rna
tiona
l Con
fer
enc
e on Knowl
edge
o
fin
flu
enc
eth
rough a s
oci
al n
etwo
rk [
J]. Th
eory of Di
scove
ryand Da
ta Mi
ning.SanJ
ose,CA,USA:ACM,
Compu
ting,2015,11(
4):105 147. 2007:420 429.

You might also like