Uploaded by qingsui.li2003

1-s2.0-S1570870522000051-main (中文(简体))

advertisement
Ad Hoc Networks 128 (2022) 102786
内容列表可在ScienceDirect上找到
广告网络
杂志主页: www.elsevier.com/locate/adhoc
社交媒体3.0的数据分析。融合社交媒体和物联网系统的隐私保护视角
整合社交媒体和物联网(SM-IoT)系统的隐私保护观点
萨拉-萨利姆 ∗, Benjamin Turnbull, Nour Moustafa
澳大利亚堪培拉,新南威尔士大学工程和信息技术学院
ARTICLEINF
OABSTRACT
关键词。
随着网络技术的快速发展,Web
社交媒体
3.0旨在扩展当前和新兴的社交媒体平台,如Facebook、Twitter和TikTok,并整合新兴的计算范式,包
物联网(ioT) 数据分析
括物联网(IoT),命名为社交媒体3.0。在Web
隐私保护
3.0中,这些平台的组合给消费者带来了更大的整合、互动,以及在物理空间之间更无缝的移动。然
而,确保跨越这些系统的数据隐私是这个空间的潜在挑战。在这项研究中,我们提出了一个新的保护
隐私的社会媒体3.0框架,说明了SM和IoT服务的互动,并估计这种互动会如何影响用户的行为。该框
架由三个主要部分组成。首先,一个新的关系数据集,名为SMIoT,被设计用来动态连接用户和他们的物联网服务,并协助处理数据的异质性。第二,采用数据预
处理模块来过滤异质性数据,并对数据提供一定程度的隐私保护。第三,采用不同的统计和机器/深
度学习方法进行数据分析,以检查数据的复杂性并识别用户的行为。结果显示,我们提出的框架可以
有效地从社交媒体3.0数据源中识别用户的行为。将我们的SMIoT数据集与其他两个著名的SM数据集,即Pokec和Renren,以及环境传感的活动识别(ARAS)物联
网数据集进行比较的结果显示,我们的数据集的保真度可用于未来对隐私保护和基于机器学习的决策
技术的评估。
1. 简介
网络服务的概念并不新鲜,因为它存在于许多现代网络属性中
。然而,在Web
网络2.0从根本上改变了互联网的使用方式,从一个关于世界
的数据来源变成主要用于交流、用户生成的内容、数据共享和社
会建设。网络
3.0承诺了SM平台的潜力,这些平台可以直接相互对话,为消费
者提供整合和易用性。网络3.0通过结合语义标记和旨在弥合人类
网络用户和计算机化应用之间的鸿沟的技术,以及网络服务和不
2.0平台一直处于这种变化的中心[1]。根据BernersLee[2]的说法,网络的第一次执行,代表着网络1.0,可以被视为
只读网络。换句话说,早期的网络只允许用户搜索和阅读信息。
早期的购物车应用,主要由电子商务网站使用,基本上属于Web
1.0的范畴,目的是将产品介绍给潜在的客户,客户和生产者之间
没有任何主动的沟通或信息流。由于缺乏用户对网络应用的主动
参与,Web
3.0的背景下,它成为压倒性的焦点[1]。Web
2.0出现了,标志着
"读-写-发布
"时代的开始[1]。Web2.0极大地改变了网络环境,使用户可以贡
献内容并与其他用户交流。在这个时代,博客、社会媒体(SM)
和视频流等新概念被介绍给网络服务用户。Facebook、YouTube、
Flickr、TikTok和Twitter是Web 2.0创新的几个例子。
∗ Corresponding author.
电子邮件地址:s.salim@student.adfa.edu.au(S. Salim)。
https://doi.org/10.1016/j.adhoc.2022.102786
2021年2月15日收到;2021年11月16日收到修订版;2022年1月14日接受
可于2022年1月31日上网
1570-8705/© 2022 Elsevier B.V.保留所有权利。
同系统之间的直接API集成来实现这一目标[1]。复杂的SM平台,
如Twitter和Facebook,其中的数据是用户之间关系的复杂模型的
基础,可以用组合的方式利用,以增加显示给最终用户的内容的
相关性。这对支撑这些平台的推荐算法有很大的好处,对广告也
是如此。
最近,SM平台作为大数据的主要生产者被推进,对其分析显
示出重大影响[3]。在[4]中,SM数据分析的一些做法和因素已被
应用于创新规划。同时,基于一个用户可以同时参与几个社交网
络的事实,一个综合的
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
社会网络中,用户可以表现出不同的行为,可能是结构化的,但
推荐系统是一个重要的问题,将在本研究中加以解决。
同时也揭示了一些共同的潜在的关注和偏好。Wong等人[5]利用
研究贡献--本研究提出了一个生成SM-
从各种社交网络中获得的知识规划了一个学习多视角用户表征的
IoT数据集的综合框架,这是一个模拟数据集,以保护隐私的方式
增强模型,以预测人类行为,这可以改善社交广告、预测偏好和
整合了SM和社会物联网(IoT)的数据。对于SM数据来说,普通
服务推荐。
SM平台上的个人用户信息被生成。这些数据包括姓名、性别、年
用户表示和建模已被广泛用于各种应用,如社区识别和推荐[3]
龄、偏好、SM使用模式和个性特征。社会物联网数据包括关于用
。所面临的关键挑战之一是,整合多个数据源,如用户资料和他
户的智能家居物联网设备的信息,以及生成的指示性偏好。这两
们由物联网设备收集的传感数据,导致在单一SM平台上管理大数
组数据在完整的SM-
据的困难。这通常只对平台所有者可用。在现实生活中,许多SM
IoT数据集中结合起来,并在一个综合框架中进行消毒处理,以实
用户同时是几个社交平台的成员。然而,受制于每个平台的功能
现隐私保护的原则,使整个数据集以及基于物联网的SM网络平台
,任何一个平台都只能根据收集的数据和SM平台的目的提供用户
具有一定的隐私。除了整合这些模拟的SM用户资料和物联网数据
的部分情况。因此,整合各种SM平台的数据对于加强用户建模和
外,这个框架还试图在基于ML的决策中保护数据隐私,防止基于
开发准确的决策系统至关重要[3]。与传统的网络嵌入数据集不同
物联网的SM网络中的任何潜在攻击。我们通过对生成的数据应用
,要么整个结构是一个单一的平台,要么其中涉及的每个平台是
隐私保护机制来做到这一点。在这方面,隐私保护是指通过将原
一个同质的网络,有必要关注多个社交平台。然而,在这种情况
始数据改变为不允许最终用户推断原始数据的不同数据分布,保
下很难充分结合知识,因为它不仅依赖于连接不同的数据源,还
护基于物联网的SM网络的原始数据不被未经授权的用户公布或泄
依赖于改善推荐引擎或评估其他模型的客观应用,如保护隐私的
露。在这里,在这个框架中应用隐私保护机制增强了它的隐私保
模型。
护能力,并为基于ML的应用提供了一个保留的和更多统计学考虑
对于保护用户的数据隐私,SM数据作为评估隐私模型的工具
的生成SM-
有很大潜力[6]。在[7]中,三个不同的Facebook数据集被经常用于
IoT数据集的数据版本。由于只有数据集的保存版本被使用,而原
研究隐私保护的挑战。第一个是SNAP数据集,它包括用户关系和一
始数据被隐私保护机制保存,基于物联网的SM数据隐私对任何潜
组节点特征,包括性别、生日、雇主和位置[8]。每个属性都是由
在的推理攻击都可以在这个框架中得到保证。作者认为,我们的
一个二进制值指定的,它表示没有或存在一个对应的特征。另外
框架对于想要进行基于ML的决策,但又要处理高度敏感的数据,
两个数据集,来自加州理工学院和麻省理工学院,包含加州理工
学院在2005年某个特定日期活跃的用户之间的关系或联系[7]。这
而且不准确的训练数据可能会产生重大影响的SM、社会物联网和
些数据集包含代表特定信息的节点特征,包括他们是否是学生/教
不被共享来协调此类数据的利用。此外,新生成的SM-
师的成员、性别、毕业年份和学术专业[9]。尽管这些数据集已被
IoT数据集将有几个不同的分析用例,包括评估ML和隐私保护模
广泛用于评估各种隐私模型,但它们是非常有限的、基于单一平
型的可信度,以及预测用户对推荐服务的偏好。
医疗数据消费者特别有用。拟议的框架将通过确保原始/私人信息
台的数据集[10]。
研究动机
本研究的主要贡献结构如下。
-
尽管SM数据集不断发展,现有的基准并不适合协作式机器学习的
1. 我们提出了一个新的保护隐私的社交媒体3.0框架,揭示了S
隐私保护算法和推荐系统[10]。这使得对不同的结构进行有意义
M和IoT服务的互动,并衡量这将如何塑造用户的行为。
2. 我们生成了一个新的现实的SM-
的比较和改进变得更加困难,这对于提高隐私框架和推荐系统的
效率至关重要。如[11]所述,这个问题说服了一些作者编写他们
IoT数据集,整合了社会媒体和物联网数据,包括用户资料
的程序并抓取社交网络以积累数据用于实验目的。构建一个基准
、物联网资料、属性和链接,以及连接的模拟物联网设备
套件来评估隐私模型的性能并增强推荐系统是研究人员关注的问
。
3. 我们采用相关系数矩阵来静态地分析数据集所提出的特征
题[10]。
的相关性。
对SM数据源进行基准测试比以往更具挑战性,因为社交网络
4. 我们评估了隐私保护方法的性能以及ML和深度学习的决策
仍处于起步阶段,而且不断在变化,因此并不完全了解。另外,
,使用所提出的数据集与三个基准数据进行比较。
与以前的系统相比,SM数据是相当复杂和异质的,例如,单节点
的处理阶段[12]。这些方法也有与伦理有关的问题。尽管一些研
本文的其余部分组织如下:第2节讨论了本研究的背景和相关
究人员已经开始为SM数据开发基准,但仍不清楚这些基准是否可
工作,第3节介绍了生成SM-
以用来精确评估机器学习(ML)的可信度。更重要的是,现有的
IoT数据集的框架,第4节解释了数据集的属性,以及与其他最先
数据集对于有效评估隐私保护和预测用户的偏好并不健全[10]。
进的数据集的比较,最后,第5节描述了本研究的结论和未来方向
更具体地说,开发一个新的数据集,可用于训练和验证基于隐私
。
保护的ML方法的新变化和
2. 背景和相关工作
本节讨论了SM的背景和以前的研究,其数据的可用性和其数
据收集技术。
2
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
2.1. 背景介绍
2.2. 相关工作
自1989年成立以来[2],万维网作为世界上最大的数据结构已经
用户产生的SM数据量正在爆炸性增长。在Twitter这个流行的
取得了长足的进步。万维网在其生命周期中经历了不同的成长阶
微博平台上,由个人资料、连接、短信息和图像组成,每天产生5
段,从Web
1.0到Web
1.0被定义为信息连接网,Web
亿条推文,2020年4月有3.3亿月度活跃用户[13]。Facebook,最大
的通用SM,在2020年5月有高达26亿的月活跃用户,每天产生PB
4.0。在文献[1]中,Web
2.0被描述为人与人之间的连接网,Web
级的数据[14]。此外,SM已经塑造了我们的互动,因为人们可以
3.0被描述为知识连接网,而Web
在这里与朋友、未来的雇主和受欢迎的人/名人直接沟通。
4.0被解释为智能连接网。根据不断演变的趋势,在Web
SM是一种基于互联网的技术,允许人们通过创建虚拟网络和
3.0的背景下,网络现在正缓慢而稳定地过渡到一个更加以数据为
社区来分享思想、情感和信息[15]。虽然SM在连接人与世界方面
中心的阶段。
有重要作用,但社会物联网将大量的异质物理设备与互联网连接
2006年[1],《纽约时报》的John Markoff提出了网络
起来[16]。根据设计,SM提供快速的数据传输,如个人信息、视
3.0作为网络的第三代。Web
频和照片。大规模的大数据,如SM产生的数据,对各种数据消费
3.0的核心概念是将数据结构化并连接起来,通过应用提高发现、
者有广泛的潜在应用,是支撑SM平台企业盈利的资产之一[17]。
自动化、集成和重用的能力[17]。Web
这样的数据可以实现广告的微观定位,也可以为大多数社交媒体
3.0旨在连接、整合和分析来自不同SM平台的数据,创造新的知
平台所依赖的推荐引擎提供信息。
识流。它可以改善数据管理,促进移动互联网的可用性,刺激创
造力和创新,促进全球化现象,提高客户满意度,并有助于组织S
第三方也有很大的好处,例如,许多电子商务应用也收集这些
M相关的大数据合作。
信息,并尽可能地链接到客户的SM档案,作为收集信息的手段,
早期与SM相关的大数据研究中,研究人员通过使用问卷调查
如地点、兴趣、生活方式和个性特征,以及社交平台上的物联网
数据。这使他们能够研究客户的行为,利用SM平台的病毒式传播
、访谈和调查从个人身上收集SM数据[23]。这有几个缺点;这些
来扩大他们的广告覆盖面,并了解他们客户群的长期趋势[18,19]
过程是劳动密集型的,难以大规模操作,而且通常是在小社区进
。公共政策制定者调查SM数据,以获得可用于影响战略决策的人
行,因此限制了其分析的范围。在线SM平台的进步为SM数据研
口信息。在政府层面使用SM既有优势也有劣势,与付费的民意调
究带来了巨大的转变[24],因为它大大改善了SM的可用性、量化
和可用数据。许多在线SM数据集已经通过程序或脚本自动收集[2
527],而一些SM平台,包括Facebook和Twitter,为数据收集提供了
查服务相比,SM被认为是不准确的,但在这些服务不存在的时候
可能会有,而且更及时,具有传统民意调查服务无法比拟的规模
优势。
API[28]。
虽然SM和社会物联网数据是开发和运营这些决策系统的公司
收集SM数据的主要挑战是有限的处理能力,存储容量和用户
的主要驱动力,但数据隐私仍然是这个领域的一个问题。具体来
的隐私问题[23]。由于SM平台在用户规模、用户产生的内容数量
说,需要保护这些数据不受隐私泄露的影响,例如通过推理攻击
和持续快速增长的更新速度方面通常是巨大的[3],抓取它们需要
实现去匿名化[19,20]。攻击者可能会利用复杂和有针对性的黑客
一个具有巨大存储容量和强大处理能力的强大系统。此外,它们
技术[21,22]来利用和滥用用户的数据。这包括有针对性地尝试网
通常对其数据访问率和可用信息进行限制。对收集的数据也有许
络钓鱼、诈骗、鱼叉式网络钓鱼、意见塑造以及去匿名化和私人
可证,这阻碍了开放和完整数据集的概念[28]。
数据泄漏的机制。使用这样的黑客技术,关于用户及其关系的敏
鉴于这些问题,收集完整的SM数据集往往是不可行的[11]。一
感信息可以在SM中非法发布,并侵犯用户的隐私;因此,这已成
为挑战[20]。在这方面,社交网络是独特的,因为它们占据了与
些研究,如[11,27],使用各种SM抓取方法从大型SM平台上收集
用户的资料数据用于分析,而其他研究,如[26],通过非速率限
世界的独特联系,私人数据的组合,以及严重的相互连接。
制的API获得用户的互动数据样本。然而,他们在数据质量方面
的成功仍然是一个挑战,所收集的数据与原始数据集中的数据的
SM数据集的可用性对涵盖社会用户的所有学科至关重要,如
隐私保护和预测兴趣的研究。除了分析之外,SM数据还在数据挖
代表程度仍然是模糊的[10]。这种对单一的独立SM平台所收集的
掘、网络科学、隐私保护和推荐系统等不同领域进行研究。在这
数据的质量和潜在的偏见缺乏考虑,降低了产生的结果的有效性
些领域进行的大部分研究都采取分析SM数据的形式,并将其作为
和真实性。这些方法也强调了在这种数据收集方法中所带来的伦
进一步调查的基础。因此,越来越多的SM数据集被用于文献中,
理考虑。
虽然许多研究[26,27,29-
更多的数据集定期公开。自从Facebook、Twitter和社会物联网等S
M平台被大众所熟知后,对它们的研究越来越多,对符合道德标
31]已经被用来生成SM数据集,但创建包括最新数据特征场景的
准的真实数据集的需求也越来越大。
现实SM数据集仍然是一个未探索的课题。更重要的是,一些数据
集没有包括物联网相关的数据,而其他数据集则忽略了包括任何
新功能。在某些情况下,生成环境并不现实,而在其他情况下,
隐私保护机制并不多样。本研究旨在通过开发新的SMIoT数据集并使用隐私保护机制对其进行评估,基于ML和深度学
习算法来解决这些缺陷。
由于物联网引起了人们对数据隐私和安全的关注,因此需要大
量的数据集来分析网络流量,区分
3
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
3. 生成SM-IoT数据集的框架
正常和异常流量之间的关系,以及检测恶意的连接。开发一个现
实的物联网数据集对于保护隐私的模型至关重要。多年来,涉及
模拟SM用户档案和物联网智能设备的数据整合框架如图1所示
物联网智能设备数据集的研究一般有三种类型。第一类是利用专
门开发的实验室的研究,这些实验室有现有的传感器和执行器,
。它包含三个主要步骤,即数据生成、数据预处理和数据分析,
跨越多个平台[32]。在许多情况下,这些研究是在考虑使用情况
如以下各小节所述。
的基础上开发的,以复制家庭、商业或工业系统。这一类的研究
通常集中在人与人之间的互动元素和理解智能环境时普遍存在的
3.1. 数据生成
研究问题上,并围绕着人们如何与这些相互连接的众多系统一起
工作。第二类物联网智能设备数据集的创建侧重于个人和个人区
在 这 个 阶 段 , SM-IoT 数 据 集 是 通 过 模 拟 SM 用 户 的 数 据 和
域网络。这对监测健康和福祉有适用性[33,34]。第三类研究是模
拟数据集;使用测试数据,有可能模拟大量的互联设备。这种方
Facebook和社会物联网这两个主要SM平台的物联网的基础事实而
法有优点也有缺点;规模和创建的难度都很大。然而,模拟有其
产生的。在这个数据集中,新生成的个人资料和网络数据由𝐸边缘
局限性,可能无法准确反映物理设备的实现。
、
在这方面,文献介绍了各种数据集,以协助研究人员模拟物联
𝑆
物
联
设
网
备
组
成
,
90%
与
的
𝑈用户数据相连。为此,开发了Python脚本来生成用户的数据,并
网设备和制作物联网数据集,包括[33-
使用Node-RED收集那些物联网数据,Node-
36]。虽然有几个数据集由于各种原因(包括隐私问题和缺乏隐私
RED是一个基于流程的开发工具,最初开发用于连接硬件设备、API
保护机制)仍然是私有的,但其他数据集已经可以公开访问。这
和在线服务,作为物联网的一部分。它使用JavaScript函数来完成
这一工作。
些研究和与之相关的数据集的既定目标是产生恶意行为的证据。
虽然这很重要,但我们选择集中精力使社会物联网数据足够智能
在这项工作中,Node-
,通过监测物联网设备,利用它来提供长期的分类和预测用户的
RED工具被用在Ubuntu虚拟机上,以模拟与公共物联网中心相连
偏好以及行为。因此,将物联网数据纳入SM数据集是提议的数据
的各种物联网传感器。在Node-
集的关键创新之处。具体来说,我们使用常见的中间件(Node-
RED程序中,我们开发了JavaScript代码,模拟与SM用户相关的几
RED)[37]来模拟SM数据中物联网的存在。同时,消息队列遥测
个物联网传感器,包括大气压力、空气质量、温度和湿度。SM用
传输(MQTT)协议[35],一个广泛用于物联网等轻量级网络通信
户和物联网设备之间的关联是根据算法2中产生的偏好用Python代
的发布-
码生成的,在总共90%的SM用户中,大约8%的物联网设备被链
订阅通信协议,被用来模拟物联网流量。与以前的研究[26,27]不
接到每个感兴趣的用户。这些链接设备的代码利用了MQTT协议
同,物联网数据是作为我们的SM-
的订阅和发布功能。MQTT协议是一个轻量级的通信协议,用于
物联网数据集的一部分产生的。
连接机器到机器(M2M),是物联网系统的一个流行选择。MQT
将SM的真实信息结合到物联网数据集中还有其他考虑,特别
T采用发布/订阅模式,每个设备向MQTT经纪人发布数据,经纪
是有可能推断出敏感信 息 。此外,如果为研究目的收集数据,第
人是一个基于服务器的系统,有一个主题和一个有效载荷。
三方有可能从数据源推断出任何个人的真实偏好。如果来自个人
该主题被操纵来管理发布的数据,并为其他系统提供了链接到
经纪人的机制,并从他们希望收集信息的主题中获得信息。如图2
的数据被掩盖,分析结果将是不准确的,这需要隐私保护技术来
解决。尽管许多研究[38-
的例子所示,我们在物联网数据集的模拟环境中应用了以下物联
40]已经在SM数据和社会物联网数据中预先发送了隐私保护机制
网场景。
,但从这些数据中提供准确和可信的数据效用水平,同时保持高
隐私水平仍然是一个重大挑战[39]。为了满足这一研究需求,本
1. 空
气
质
量
服
务
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐴𝑖𝑟_𝑄𝑢𝑎𝑙𝑖𝑡𝑦),衡量空气质量并根据衡量结果生
成健康影响声明(对敏感群体而言是健康还是不健康的)。
研究将Facebook用户的模拟SM数据与智能家居设备的社交物联网
进行生成、消毒和组合。它这样做是为了实现隐私保护的原则,
同时提高数据分析和监控应用的效率。这样的数据消毒极大地影
2. 洗
响了隐私保护,因为它与自己的机制相冲突--
碗
机
(
题
主
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑒∕𝐷𝑖𝑠ℎ𝑤𝑎𝑠ℎ𝑒𝑟),打开或关闭洗碗机,如果正在处理
各种隐私保护机制有不同的功能来保护原始数据中的敏感信息。
为了了解它的代表性,它与其他基准数据集的兼容性,以及它在
,则将剩余时间通知用户。
3. DoorBell
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚∕𝐷𝑜𝑜𝑟𝐵𝑒𝑙𝑙),当有人在家中按响任何铃声时,它就
会通知用户。
数据挖掘中的使用潜力,我们进行了探索性分析。此外,考虑到S
M平台和社会物联网系统背景下的大数据隐私保护,我们的框架
主要描述了从数据效用角度整合这些数据的方式,模拟SM的用户
4. 烘干机
和物联网设备之间基于他们的偏好的逻辑关联,并制定最佳的隐
(
题
主
:
私保护方案,使现有的SM以及社会物联网系统从他们的数据中获
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐷𝑟𝑦𝑒𝑟),告知用户烘干机的状态是开还是关
,甚至在闲置时显示错误信息。
得高效用水平,同时保持一定程度的数据隐私。在某种程度上,
这个框架弥补了从基于物联网的数据中提供准确和可信的数据效
5. 风
扇
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑒∕𝐹
𝑎𝑛),显示现有风扇的状态,在一定时间后关闭。
用水平的不足
6. 冰
SM网络,同时保持较高的隐私水平。
箱
传
感
器
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐹
𝑟𝑖𝑑𝑔𝑆𝑒𝑛𝑠𝑜𝑟),测量冰箱的温度,必要时使其低于阈值。
7. 车
库
门
(
主
题
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐺𝑎𝑟𝑔𝑒_𝑑𝑜𝑟),根据概率输入关闭或打开。
:
8. GPS_Tracker
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐺𝑃𝑆_𝑇𝑟𝑎𝑐𝑘𝑒𝑟),生成预定义实体的经度和纬度信
息。
9. 加
热
系
统
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐻𝑒𝑎𝑡𝑖𝑛𝑔_𝑆𝑦𝑡𝑒𝑚),它根据天气状态(冷/热)对
4
S.Salim et加热系统进行广告。
al.
10. Home_Weather
Ad Hoc Networks 128 (2022) 102786
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝐻𝑜𝑚𝑒_𝑊𝑎𝑡ℎ𝑒𝑟),它可以提供有关家庭湿度、气
压和温度的信息。
5
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
图1.生成SM-IoT数据集的框架。
图2.Node-RED中水系统模拟的流程图示例。
18. Smart_Vacuum
11. Motion_Light
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑀𝑜𝑡𝑖𝑜𝑛_𝐿𝑖𝑔ℎ𝑡),在一个伪随机生成的信号下关
闭或开启。
12. 安
全
系
统
(
题
主
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑒𝑐𝑢𝑟𝑖𝑡𝑦_𝑆𝑦𝑠𝑡𝑒𝑚),如果检测到任何未定义的人
员,它将警告用户他们的确切位置和时间。
13. 智
能
空
调
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜∕𝑒∕𝑆𝑚𝑎𝑟𝑡_𝐴𝐶),通过启动空调系统调整家庭的温度
。
14. 智
能
灯
泡
(
主
题
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑎𝑟𝑡_𝐵𝑢𝑙),根据时间间隔开启或关闭。
:
门
题
15. 智
能
(
主
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑎𝑟𝑡_𝑉𝑎𝑐𝑢𝑢𝑚),必要时可以打开或关闭甚至充电
,也会生成关于其当前位置的信息。
:∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑎𝑟𝑡_𝐷𝑜𝑟𝑠),根据产生的信号打开或关闭门甚
至警告用户。
16. 智能厨房产品
(主题:∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑎𝑟𝑡_𝑘𝑖𝑡𝑐ℎ𝑒𝑛_
𝐴𝑝𝑝𝑙𝑖𝑎𝑛𝑐𝑒𝑠),它根据预定的设置打开或关闭,并生成关
于设备状态的信息。
17. 智能插头(主题:∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑎𝑟𝑡_𝑃𝑙𝑢𝑔),它可以打开或
在投入的要求下关闭。
6
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
19. Smart_Window
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑎𝑟𝑡_𝑊𝑖𝑛𝑑𝑜𝑤),打开或关闭窗口,当打开
时间超过阈值时通知用户。
20. 烟
雾
警
报
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑚𝑜𝑘𝑒_𝐴𝑙𝑎𝑟𝑚),一旦检测到烟雾就会向用户
发出警告。
21. 声
音
系
统
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑜𝑢𝑛𝑑_𝑆𝑦𝑠𝑡𝑒𝑚),打开或关闭声音系统并控
制其音量。
22. 游
泳
池
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑆𝑤𝑖𝑚𝑚𝑖𝑛𝑃𝑜𝑙),它根据游泳池水位的读数调
节自动游泳池泵。
23. TV_Sensor
(
主
:∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑇𝑉_𝑆𝑒𝑛𝑠𝑜𝑟),可以打开或关闭电视。
题
24. 洗
衣
机
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑊
𝑎𝑠ℎ𝑒𝑟),可以打开或关闭,并生成关于当前洗涤周期
和剩余时间的信息。
25. 浇
水
系
统
(
主
题
:
∕𝑆𝑚𝑎𝑟𝑡ℎ𝑜𝑚𝑒∕𝑊
𝑎𝑡𝑒𝑟𝑖𝑛𝑔_𝑆𝑦𝑠𝑡𝑒𝑚),根据下雨的机会来调节花园的灌溉系统
。
在物联网模拟环境中,我们设计了一个标准的智能家居设备
配置。最初,25个物联网设备被模拟为
7
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
图3.Node-RED中的数据流流程图。
例如,运动兴趣是
本地操作。MQTT消息定期从所有用户广播到测试环境中的经纪
商。如图3所示,这些连接允许我们模仿正常的物联网流量,因为
MQTT经纪商作为调解人运作,将智能设备与智能手机应用程序
连接起来。
3.1.1. SM-IoT表的描述
拟议的SMIoT数据集的实体关系图(ERD)如图4所示,使用微软SQL服务
器设计。如图所示,在SMIoT数据集中有11个表,其中包含所有下列SM和IoT关系的实体。
• 𝑈𝑠𝑒𝑟𝑠_𝐷𝑎𝑡𝑎'-由生成的SM用户的传记数据组成,如姓名、出生日期、性别和
年龄。此外,其他个人信息,如关系状况、家庭信息、喜好以
及个性特征,也模仿了真实SM平台上的用户数据。该表是动态
设计的,用于存储用户和他们的朋友的数据,例如,一个用户
可能是其他人的朋友,反之亦然。对于数据集中的每个用户
𝑥,该用户的
𝑎𝑔𝑒是在预定的上限和下限内随机产生的。
边界。这个用户的𝑎𝑔𝑒将用于定义相应的出生日期,并与随
机
生
成
的
𝑔𝑒𝑛𝑑𝑟类型一起帮助为用户建议一个合适的名字。而十二生
肖将根据生成的出生日期和个性特征来确定,以及用户的使
用模式将根据预定的传播概率和其他用户的数据来分配深思
熟虑的价值。生成用户数据的伪代码显示在算法1中。
• '𝑈
𝑠𝑒𝑟𝑠_𝑅𝑒𝑙𝑎𝑡𝑖𝑜𝑛𝑠'
在SM平台上存储用户与其朋友和家人的链接和关系。每个用户
与其他用户的关系都有很好的生成值,根据其他用户的数据,
如雕像、家庭成员、亲密朋友和孩子以及用户的性格特征,这
些关系可能是零(即没有)、单一或多个。从这个表格中,可
以估计出用户和他们的朋友分享他们的喜好的程度,也许有相
同的喜好。
• '𝑈𝑠𝑒𝑟𝑠_𝑃𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠'
显示用户及其朋友的喜好,反映现实生活。如对自然、艺术和体
育的兴趣,再加上两个子分类,每个用户共有两个分类级别。
8
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
再分类为冬季、赛车、团队运动等。同时,每个子类别又被进
一步具体分类,例如,足球、篮球、曲棍球、排球等团队运动
。由于个体的性别、年龄和个性特征的影响与他/她的差异有关
,它们已经被用作各种经验调查的主题[41,42],这些调查强调
了这些个体特征在塑造他/她的差异中的控制作用。在我们的框
架中,受这些研究的启发,用户𝑥𝑖的偏好将根据他/她的𝑔𝑒𝑛𝑑𝑟、
𝑎𝑔𝑒和个性特征进行分配,如算法2所解释的,对有任何附属智
能设备支持的偏好/或任何关注的页面或群体给予更大的权重。
• '𝑃 𝑟𝑒𝑓 𝐿𝑜𝑜𝑘𝑢𝑝_𝑇 𝑎𝑏𝑙𝑒'(偏好)--包括记录在𝑈 𝑠𝑒𝑟𝑠_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠 表
中的偏好名称,作为一个查询表,包含'𝑝𝑟𝑒𝑓 _𝑖𝑑'和其相应的'𝑝𝑟𝑒𝑓
_𝑛𝑎𝑚𝑒'。
• '𝑆𝑢𝑏𝑝𝑟𝑒𝑓 𝐿𝑜𝑜𝑘𝑢𝑝_𝑇 𝑎𝑏𝑙𝑒' ( 子 偏 好 ) -- 包 括 在 𝑈
𝑠𝑒𝑠中记录的主要偏好的子分类。
𝑝𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠 表 , 并 且 是 一 个 包 含 '𝑆𝑢𝑏𝑝𝑟𝑒𝑓 _𝑖𝑑' 和 其 对 应 的
'𝑆𝑢𝑏𝑝𝑟𝑒𝑓 _𝑛𝑎𝑚𝑒'的查询表。
• 𝑃
𝑎𝑔𝑒𝑠_𝑎𝑛𝑑_𝐺𝑟𝑜𝑢𝑝𝑠'
提出关于SM用户可能关注的小组和页面的通用信息。它包括页面
类别,表明页面/群组的主要兴趣,页面的电子邮件和网站,注册
日期,用整数(公共)表明它是一个公共或私人团体,以及它的
追随者数量。
• '𝑈
𝑠𝑒𝑟𝑠_𝐹
𝑜𝑙𝑙𝑜𝑤𝑝𝑎𝑔𝑒𝑠'
说明SM网络中用户与以下页面的链接。每个用户都生成了与
以下页面/群组的链接值,可能是零(即没有)、单个或多个。
这些链接70%是基于用户的偏好,30%是随机生成的。从这个
表格中,可以估计出用户和他们的朋友对特定喜好的兴趣程度
。
• '𝑈𝑠𝑒𝑟𝑠_𝑆𝑚𝑎𝑟𝑡𝐷𝑒𝑣𝑖𝑐𝑒𝑠'
显示SM用户与智能物联网设备之间的联系。每个用户在家里安
装的智能物联网设备都有随机生成的数值,这些设备可能是零
(即没有)、单个或多个。从这个表格,可以确定更多关于用
户对智能物联网设备的新技术的兴趣。
• '𝑆𝐷𝑒𝑣𝑖𝑐𝑒_𝐿𝑜𝑜𝑘𝑢𝑝_𝑇 𝑎𝑏𝑙𝑒' - 包括智能设备的名称,作为一个查询表
,包含'𝑆𝐷𝑒𝑣𝑖𝑐𝑒_𝑖𝑑'及其对应的'𝑆𝐷𝑒𝑣𝑖𝑐𝑒_𝑛𝑎𝑚𝑒' 。
9
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
图4.SM-IoT数据集中建议的实体关系图。
在SMIoT数据集中,用户资料的数据是树状结构的,因为特征是通过继
• '𝑆𝐷𝑒𝑣𝑖𝑐𝑒_𝑆𝑡𝑎𝑢𝑠'
显示与特定用户相关的智能物联网设备的详细信息,包括发
承新的路径来构建的。
送有关设备通知的时间、当时设备的状态以及设备为更新用
户的状态发出的消息/短信。此外,还提供了与特定智能物联
网设备相关的其他信息,例如持有从/空气质量传感器获得的
数值的空气质量指数属性。
3.1.2. SM-IoT表的关系
如图4所示,拟议的SMIoT数据集的所有表之间有两种特定的关系,即一对一和一对多,
其中每个表在任何时候都只参与一个。
• 一对多的关系 - 存在于𝑈 𝑠 𝑒 𝑟 𝑠 _ 𝐷𝑎𝑡𝑎和𝑈𝑠𝑒𝑟𝑠_之间。
𝑅𝑒𝑙𝑎𝑡𝑖𝑜𝑛𝑠,因为用户可能有零(即没有)、一个或许多关系,
其类型表现在𝑈𝑠𝑒𝑟𝑠_ 𝐷𝑎和𝑈𝑠𝑒𝑟𝑠_
𝑃 𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠, 𝑈 𝑠𝑒𝑟𝑠_𝐷𝑎𝑡 and 𝑈 𝑠𝑒𝑟𝑠_𝐹 𝑜𝑙𝑙𝑜𝑤𝑝𝑎𝑔𝑒𝑠, and 𝑈
𝑠𝑒𝑟𝑠__1D437↩𝑎𝑡
和𝑈 𝑠𝑒𝑟𝑠_𝑆𝑚𝑎𝑟𝑡_𝐷𝑒𝑣𝑖𝑐𝑒𝑠.另外,𝑈 𝑠 𝑒 𝑟 𝑠 _ 𝑆 𝑚 𝑎𝑟𝑡_𝐷𝑒𝑣𝑖𝑐𝑒𝑠和
𝑆𝐷𝑒𝑣𝑖𝑐𝑒_𝑆𝑡𝑎𝑡𝑢𝑠以一对多的关系相互关联,因为对于每个用
户,可能有零个或多个智能设备,每个设备在不同时间捕获
多个数据和信息。
• 一对一的关系--存在于𝑈𝑠𝑒𝑟 𝑠_ 𝑃𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠 和
𝑃 𝑟𝑒𝑓 𝐿𝑜𝑜𝑘𝑢𝑝_𝑇 𝑎𝑏𝑙𝑒 和𝑈 𝑠𝑒𝑟𝑠_𝑃 𝑟𝑒𝑓 𝑒 𝑟 𝑒 𝑛 𝑐 𝑒 𝑠 和 𝑆𝑢𝑏𝑝𝑟𝑒𝑓 _
𝐿𝑜𝑜𝑘𝑢𝑝𝑇𝑎𝑏𝑙𝑒 , 因 为 同 一 个 偏 好 或 子 偏 好 没 有 多 个 名 称 。 𝑈
𝑠𝑒𝑟𝑠_𝐹 𝑜𝑙𝑙𝑜𝑤𝑝𝑎𝑔𝑒𝑠 和𝑃 𝑎𝑔𝑒𝑠_𝑎𝑛𝑑_𝐺𝑟𝑜𝑢𝑝𝑠 之间也有这种关系,因为
同一页面没有多个名字,而𝑈 𝑠𝑒𝑟𝑠_𝑆𝑚𝑎𝑟𝑡_
𝐷𝑒𝑣𝑖𝑐𝑒𝑠
和
𝑆𝐷𝑒𝑣𝑖𝑐𝑒𝑠_𝐿𝑜𝑜𝑘𝑢𝑝_𝑇𝑎𝑏𝑙𝑒之间是一对一的关系,因为对于同一智
能设备,只有一个名称。
3.1.3. 功能规格
10
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
这些树,如子章节4.1所解释的。对于另一个物联网数据集,从N
odeRED获得了25个智能家居物联网设备的数据,每个设备在一定时
期内有几个观测值,并根据用户和智能设备之间的关系将其附加
到相应的用户。表1显示了SM-IoT数据集特征的详细规格。
3.2. 数据预处理
由于一些现实世界的数据集包含缺失或不完整的数据,它们应
该被清理和过滤以提高ML模型分类的准确性[43]。通常情况下,
SM数据集通常不会为其所有有用的特征分配数值,例如,用户
的偏好可能被故意留空。这在SMIoT数据集中表现出来,因为为了模仿现实,产生了大量的用户
没有分配特征值的数据。虽然有隐私意识的用户可以选择将他们
的档案数据保密,只有列出的朋友可以访问,但表2显示,我们
的用户有近49%的数据被保持为 "公开"。
通常情况下,传统的监督式ML模型要使用大量的标记(训练
数据)进行训练,以达到升高的准确性。因此,ML算法的性能
只能通过过滤数据集来处理缺失值和去除不相关的特征来提高[43
]。为了处理SMIoT数据集中不完整的数据值,使用了与[43]中所述一致的归因技
术,其中缺失值被替换为统计量,如特征向量平均值和中位数,
或静态值,如零。缺失值被替换为零,以确保数据不向中心数据
点倾斜。此外,由于这个数据集有不同类型的特征,包括分类和
数字值,因此在进行数据分析阶段之前,有必要对这些数据进行
预处理,同时也是为了保护用户的数据隐私,这一点将在下文说
明。
• 特征映射。由于SMIoT数据集不仅仅是由数字数据组成,因此需要一个映射功
能来
11
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
算法1:生成Users_Data
算法2:生成用户偏好
1:输入。𝑃 𝑆(种群大小),𝐹(特征数量),待生成的特征的上下限值
2:输出。数据集文件有𝑃𝑆行和𝐹列。
3:初始化:𝐹 _ 𝑇𝑦𝑝𝑒=[𝑢𝑠𝑒𝑟_𝑖𝑑, 𝑎𝑐𝑐𝑜𝑢𝑛𝑡_𝑛𝑎𝑚𝑒, 𝑛𝑎𝑚𝑒_𝑔𝑖𝑣𝑛, 𝑓 𝑎𝑚𝑖𝑙𝑦_𝑛𝑎𝑚𝑒
1:输入。𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠, 𝑎𝑔𝑒, 𝑔𝑒𝑛𝑑𝑒𝑟, 𝑈 𝑠𝑒𝑟_𝑆𝑚𝑎𝑟𝑡𝐷𝑒𝑣𝑖𝑐𝑒𝑠。
𝑈 𝑠𝑒𝑟𝑠_𝐹 𝑜𝑙𝑙𝑜𝑤𝑝𝑎𝑔𝑒𝑠
2:输出。用户的偏好和次级偏好
, 𝑛𝑎𝑚𝑒_𝑚𝑖𝑑𝑑𝑙𝑒, 𝑔𝑒𝑛𝑑𝑒𝑟, 𝑑𝑜𝑏_𝑦𝑒𝑎𝑟, 𝑑𝑜𝑏_𝑚𝑜𝑛𝑡ℎ, 𝑑𝑜𝑏_𝑑𝑎𝑦, 𝑎𝑔𝑒, 𝑠𝑖𝑔𝑛__𝑖𝑛_𝑧𝑜𝑑𝑖𝑎𝑐
,. .., 𝑠𝑡𝑎𝑡𝑢𝑠], 𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠=[𝐻𝑜𝑛𝑒𝑠𝑡𝑦 - 𝐻𝑢𝑚𝑖𝑙𝑖𝑡𝑦, 𝐸𝑚𝑜𝑡𝑖𝑜𝑛𝑎𝑙𝑖𝑡𝑦, . ., 𝑖𝑛 𝑓 𝑙𝑢𝑒𝑛𝑐𝑒_𝑣𝑖𝑒𝑤𝑒𝑟],
𝑆𝑀_𝑢𝑠𝑎𝑔𝑒_𝑝𝑎𝑡𝑡𝑒𝑟𝑛=[ 𝑢𝑠𝑎𝑔𝑒, 𝑎𝑣𝑒𝑟𝑎𝑔𝑒_𝑝𝑒𝑟_𝑑𝑎𝑦_𝑐𝑜𝑛𝑣𝑒𝑟𝑠𝑎𝑡𝑖𝑜𝑛_𝑠𝑡𝑎𝑟𝑡_𝑤𝑖𝑡ℎ_𝑓 𝑎𝑚𝑖𝑙𝑦, . .,
𝑐ℎ𝑎𝑛𝑐𝑒_𝑜𝑓 _𝑙𝑖𝑘𝑖𝑛𝑔_𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙_𝑓 𝑎𝑚 𝑖 𝑙 𝑦 _ 𝑝𝑜𝑠𝑡]
4: 对于𝑖 = 1到𝑃 𝑆做
5:
为𝑗=1至𝐹 做
6:
𝑎𝑔𝑒𝑖𝑗 ← 𝑟𝑎𝑛𝑑𝑜[𝑚𝑎𝑥_𝑎𝑔𝑒 - 𝑚𝑖𝑛_𝑎𝑔𝑒]
7:
𝑑𝑜𝑏_𝑦𝑒𝑎𝑟𝑖𝑗 ← 𝑐𝑢𝑟𝑟𝑒𝑛𝑡_𝑦𝑒𝑎𝑟 - 𝑎𝑔𝑒𝑖𝑗
8:
𝑑𝑜𝑏_𝑚𝑜𝑛𝑡ℎ𝑖𝑗 ←𝑟𝑎𝑛𝑑𝑜𝑚月内 𝑑𝑜𝑏_𝑦𝑒𝑎𝑟𝑖𝑗
9:
𝑑𝑜𝑏_𝑑𝑎𝑦𝑖𝑗 ←𝑟𝑎𝑛𝑑𝑜𝑚日内 𝑑𝑜𝑏_𝑚𝑜𝑛𝑡ℎ𝑖𝑗
10:
𝑔𝑒𝑛𝑑𝑒𝑟𝑖𝑗 ← 随机产生,概率相等。
𝑠𝑡𝑡𝑢𝑠𝑖𝑗 ←根据𝑔𝑒𝑛𝑑𝑒𝑟𝑖𝑗 和 𝑎 𝑔𝑒𝑖 𝑗 随机生成。
12:
𝑓 𝑎𝑚𝑖𝑙𝑦_𝑛𝑎𝑚𝑒𝑖𝑗 ←根据𝑠𝑡𝑎𝑡𝑢𝑠𝑖𝑗 和 𝑑𝑜𝑏𝑦 𝑒𝑎𝑟𝑖𝑗随机生成
13:
𝑛𝑎𝑚𝑒_𝑔𝑖𝑣𝑒𝑛𝑖𝑗 ← 基于𝑔𝑒𝑛𝑑𝑒𝑟𝑖𝑗 产生,𝑎𝑔𝑒𝑖𝑗, 𝑑𝑜𝑏_𝑦𝑒𝑎𝑟𝑖𝑗
14:
中间名的机会(𝑐ℎ𝑎𝑛𝑐𝑒)←设置一个随机概率为20%非,70%为
1个中间名,5%为2个中间名,5 %为3个中间名
𝑐ℎ𝑎𝑛𝑐𝑒 ← 𝑟 𝑎 𝑛 𝑑𝑜𝑚[0%-100%]
16:
如果𝑐 ℎ𝑎 𝑛 𝑐𝑒 ≤20%,则
17:
𝑛𝑎𝑚𝑒_𝑚𝑖𝑑𝑑𝑙𝑖𝑗 ← 𝑛𝑜𝑛
18:
否则如果𝑐 ℎ 𝑎 𝑛 𝑐𝑒>20%且≤90%,则
19:
𝑛𝑎𝑚𝑒_𝑚𝑖𝑑𝑑𝑙𝑒𝑖𝑗 ← 随机生成1个基于𝑔𝑒𝑛𝑑𝑒𝑟𝑖𝑗 的中间名, 𝑎𝑔𝑒𝑖𝑗
和𝑛 𝑎 𝑚 𝑒 _ 𝑔 𝑖 𝑣𝑒𝑛 𝑖 𝑗
20:
否则如果𝑐 ℎ 𝑎 𝑛 𝑐𝑒>90%且≤95%,则
21:
𝑛𝑎𝑚𝑒_𝑚𝑖𝑑𝑑𝑙𝑒𝑖𝑗 ←随机生成2个中名,根据
𝑔𝑒𝑛𝑑𝑒𝑟𝑖𝑗 , 𝑎𝑔𝑒𝑖𝑗 , 𝑛𝑎𝑚𝑒 _𝑔𝑖𝑣𝑒𝑛𝑖𝑗
22:
否则如果𝑐ℎ𝑎𝑛𝑐𝑒>95%,则
23:
𝑛𝑎𝑚𝑒_𝑚𝑖𝑑𝑑𝑙𝑒𝑖𝑗 ←随机生成3个中间名,根据
𝑔𝑒𝑛𝑑𝑒𝑟𝑖𝑗 , 𝑎𝑔𝑒𝑖𝑗 , 𝑛𝑎𝑚𝑒 _𝑔𝑖𝑣𝑒𝑛𝑖𝑗
24:
最后,如果
25:
如果𝐹 _𝑇 𝑦𝑝𝑒𝑖𝑗 == 𝑎𝑐𝑐𝑜𝑢𝑛𝑡_𝑛𝑎𝑚𝑒 或 𝑔𝑒𝑛𝑑𝑒𝑟 则
𝑥𝑖𝑗←基于𝐹 _ 𝑇𝑦𝑝𝑒[𝑛𝑎𝑚𝑒_𝑔𝑖𝑣𝑛和𝑓 𝑎 𝑚 𝑖 𝑙 𝑦 _𝑛𝑎𝑚𝑒] 产生的值。
27:
else if 𝐹 _𝑇 𝑦𝑝𝑒𝑗 == 𝑎𝑒或 𝑠 𝑖 𝑔 𝑛_ 𝑖 𝑛 _ 𝑧 𝑜 𝑑 𝑖 𝑎 𝑐 then
𝑥𝑖𝑗←基于𝐹_𝑇𝑦𝑝𝑒[𝑑𝑜𝑏_𝑦𝑒𝑎𝑟, 𝑑𝑜𝑏_𝑚𝑜𝑛𝑡ℎ, 𝑑𝑜𝑏_𝑑𝑎𝑦] 产生的值。
29:
else if 𝑗∈𝑃𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠 then
30:
𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑠𝑝𝑟𝑒𝑎𝑑𝑖𝑗 ← 为𝑃𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠𝑖𝑗设置一个随机概率
31:
𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑣𝑎𝑙𝑢𝑒𝑖𝑗 ←产生一个随机人格值,基于
𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑠𝑝𝑟𝑒𝑎𝑑𝑖𝑗
32:
𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠𝑖𝑗 ← 𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑣𝑎𝑙𝑢𝑖𝑗
33:
else if 𝑗∈𝑆𝑀_𝑢𝑠𝑎𝑔𝑒_𝑝𝑎𝑡𝑒𝑟𝑛then
34:
𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒𝑖𝑗 ← 𝑟 𝑎 𝑛 𝑑 𝑜 𝑚 【0.01-7.00】。
35:
𝑆𝑀_𝑢𝑠𝑎𝑔𝑒𝑖𝑗 ← 𝑟𝑎𝑛𝑑𝑜𝑚 [1-10] %1表示低使用率,5为中度,10为高度使用率
36:
𝑆𝑀_𝑢𝑠𝑎𝑔𝑒_𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑖𝑗 ← 𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒𝑗 × 𝑆𝑀_𝑢𝑠𝑎𝑔𝑒𝑖𝑗
37:
其他
38:
𝑥𝑖𝑗 ← 根据𝐾 _ 𝑇 𝑦𝑝𝑒𝑖𝑗随机生成的值。
39:
结束,如果
40:
结束
41: 结束
3: 𝑎 𝑔𝑒_ 𝑖 𝑛 𝑡 𝑒 𝑟 𝑣 𝑎 𝑙 𝑠 ← A [<21], B [21-35], C [36-45], D [46-55], E [56-70] ,
F
[71-80], G [>81]
4:根据心理学研究中对𝑎𝑔𝑒_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠,𝑔𝑒𝑛𝑑𝑟_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠,
𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠,通过分配一组偏好,对𝑎𝑔𝑒之间的关系。𝑔𝑒𝑛𝑑𝑒𝑟,
𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠,以及𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑡𝑠。
5: 对于𝑖 = 1到𝑢𝑠𝑒𝑟𝑠做
6:
𝑢_𝑎𝑔𝑒𝑖 ← 读取用户的年龄
% 基于年龄区间的偏好 7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
20:
21:
如果𝑢_𝑎𝑔𝑒𝑖≤20,那么
𝑢_𝑎𝑔𝑒_𝑝𝑒𝑓𝑖 ← 𝑎 𝑔𝑒_ 𝑝 𝑟 𝑒 𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐴。
否则,如果𝑢 _ 𝑎 𝑔 𝑒 𝑖>20和𝑢_𝑎𝑔𝑒𝑖 ≤35,则
𝑢_𝑎𝑔𝑒_𝑝𝑟𝑒𝑓𝑖 ← 𝑎𝑔𝑒_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐵 。
否则如果𝑢 _ 𝑎 𝑔 𝑒 𝑖>35和𝑢_𝑎𝑔𝑒𝑖≤45则
𝑢_𝑎𝑔𝑒_𝑝𝑟𝑒𝑓𝑖 ← 𝑎𝑔𝑒_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐶 。
否则,如果𝑢 _ 𝑎 𝑔 𝑒 𝑖 > 45和𝑢_𝑎𝑔 𝑒𝑖 ≤ 55,则
𝑢_𝑎𝑔𝑒_𝑝𝑒𝑓𝑖 ← 𝑎 𝑔𝑒_ 𝑝 𝑟 𝑒 𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐷。
否则如果𝑢 _ 𝑎 𝑔 𝑒 𝑖>55和𝑢_𝑎𝑔𝑒𝑖≤70则
𝑢_𝑎𝑔𝑒_𝑝𝑟𝑒𝑓𝑖 ← 𝑎𝑔𝑒_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐸 。
否则如果𝑢 _ 𝑎 𝑔 𝑒 𝑖>70和𝑢_𝑎𝑔𝑒𝑖≤80则
𝑢_𝑎𝑔𝑒_𝑝𝑒𝑓𝑖 ←𝑎𝑔𝑒_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐹 ; 19:
else if 𝑢 _ 𝑎𝑔 𝑒 𝑖 > 80 then
𝑢_𝑎𝑔𝑒_𝑝𝑒𝑓𝑖 ← 𝑎𝑔𝑒_𝑝𝑟𝑒𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐺;
结束时
%基于性别的偏好 22:
𝑢_𝑔𝑒𝑛𝑑𝑒𝑟𝑖 ←读取用户的性别 23:
24:
25:
如果𝑢_𝑔𝑒𝑛𝑑𝑒𝑖为男性,则
𝑢_𝑔𝑒𝑛𝑑𝑒𝑟_𝑝𝑟𝑒𝑓𝑖 ← 𝑔𝑒𝑛𝑑𝑒𝑟_𝑝𝑟𝑒 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝑀
否则
26:
27:
𝑢_𝑔𝑒𝑛𝑑𝑒𝑟_𝑝𝑟𝑒𝑓𝑖 ← 𝑔𝑒𝑛𝑑𝑒𝑟_𝑝𝑟𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠𝐹
结束,如果
% 基于个性特征的偏好
28:
𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠𝑖 ←读取用户的个性特征
% 找到影响用户行为的最大个性分数
29:
30:
𝑢_𝑝𝑒𝑟𝑜𝑛𝑎𝑙𝑖𝑡𝑦𝑖 ← 𝑚𝑎𝑥𝑖𝑚𝑢𝑚(𝑃 𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑡𝑟𝑎𝑖𝑡𝑠𝑖 )
𝑢_𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑝𝑟𝑒𝑓𝑖 ← 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑝𝑟𝑓 𝑒𝑟𝑒𝑛𝑐𝑒𝑠 基于选定的人格特征
% 找到共同的偏好
31:
𝑐𝑜𝑚𝑚𝑜𝑛𝑝𝑟𝑒𝑓𝑖 ← 𝐼𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑡(𝑢_𝑎𝑔𝑒_𝑝𝑟𝑒𝑓𝑖,𝑢_𝑔𝑒𝑛𝑑𝑟_𝑝𝑟𝑒𝑓𝑖, 𝑢_𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑙𝑖𝑡𝑦_𝑝𝑟𝑒𝑓𝑖)
用户使用智能设备的权重百分比
32:
𝑢_𝑆𝐷𝑒𝑣𝑖𝑐𝑒𝑖 ←读取附属于用户𝑖的智能设备,从
𝑈 𝑠𝑒𝑟 𝑠_𝑆𝑚𝑎𝑟𝑡𝐷𝑒𝑣𝑖𝑐𝑒𝑠
用户所关注的页面和群组的权重百分比
𝑂(𝑁),其中𝑁是每个分类特征的实例数。
33:
• 隐私保护机制(数据规范化):由于SM-
𝑢_𝑃 𝑎𝑔𝑒𝑖 ← 读取页面和组后,用户𝑖从
𝑈 𝑠𝑒𝑟𝑠_𝐹 𝑜𝑙𝑙𝑜𝑤𝑝𝑎𝑔𝑒𝑠
34:
将分类的特征转化为数字的特征。例如,偏好和次级参考特
征被转换为有序的数字(如1,2等)。这种映射的复杂性是
物联网数据集产生了大量的数据,因此需要有效地实现隐私
𝑠𝑢𝑝𝑜𝑟𝑡𝑒𝑑_𝑐𝑜𝑚𝑚𝑜𝑛_𝑝𝑟𝑒𝑓𝑖 ← 把更多的权重放在
𝑐𝑜𝑚𝑚𝑜𝑛_𝑝𝑟𝑒𝑓𝑖,这是/是由一个智能设备和被关注的页面或组支持。
35: 结束
保护原则,以保持私人数据的安全,同时提高数据的效用水
平,从而提高数据应用的性能,如数据分析。应用数据规范
化步骤可以显著
归一化方法能够对原始数据特征的范围进行线性转换,同时
保留它们之间的统计关系[44] , 将 𝑣 的 数 值 ( 𝑥𝑘 ) 映 射 为 𝑥′
,在
𝑘
影响隐私保护过程,因为它们的功能是使用新的转换/缩放形
如公式(1)所示,每个特征的范围为[0,1]。
状来保护原始数据的敏感信息。这个阶段有助于ML模型
𝑥 𝑘 - 𝑚𝑖𝑛(𝑣 )
𝑥′ =
一个简单的最小-最大(MM)。
在收敛和实现他们的目标,因为在一个特定的范围内对数据
进行缩放,可以消除其中的偏差,而不会修改数据的统计属
性或大幅降低效用水平。此外,它将特征映射步骤的数值转
化为一个特定的尺度,而不改变原始特征的方差,从而保证
了一定程度的隐私,并保持了相当程度的效用。在我们的案
例中,我们是在0和1之间对数据进行缩放。
12
(1)
𝑘 𝑚
S.Salim et al.
𝑎𝑥 (𝑣) - 𝑚𝑖𝑛(𝑣)
Ad Hoc Networks 128 (2022) 102786
其
中
𝑚𝑖𝑛(𝑣)
和
𝑚𝑎𝑥(𝑣)分别指一个特征的最小值和最大值。在这一步骤中
,归一化被用来对SMIoT数据执行一定程度的数据隐私。它还将数据集之前的映
射函数的值转化为特定的尺度,而不改变原始特征的方差
。
13
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
表1
数据集的特征规格。
特征
特征描述
User_id
字符串,用户的昵称被映射为哈希数字
帐户名称
字符串,用户的显示名称
姓名_given
字符串,用户的名字
姓名_中间名_1
字符串,用户的中间名
姓名_中间名_2
字符串,用户的中间名
姓名_中间名_3
字符串,用户的中间名
姓名_家庭
字符串,用户的姓氏
注册日期
日期,用户在网站注册的时间。
最后登录
日期,用户最后一次登录的时间
公开
Bool, 1 - 所有的朋友关系都是公开的
性别
Bool, 0 - 男性, 1 - 女性
Dob_year
整数,用户的出生年份
Dob_month
整数,用户的出生月份
身份证号码:Dob_day
整数,用户的出生日期
年龄
整数,用户的年龄
十二星座
字符串,用户基于出生日期的十二生肖
状态/0
字符串,用户的关系(已婚、未婚、离异
状态/1
字符串,用户的关系(未婚、离异)。
心情
字符串,用户的情绪表示
配偶_id
字符串,用户的配偶的ID。
性格/诚实-谦逊
整数,用户的诚实-谦逊程度
性格/情感
整数,用户的诚实-谦逊程度
性格/外向性
整数,用户的情绪化程度
性格/认同度
整数,用户的外向性程度
性格/自觉性
整数,用户的同意度
个性/对经验的开放程度
整数,用户的自觉性程度
性格/影响_副业
整数,用户的经验开放程度
性格/影响力_放大器
整数,用户的影响力_东风度
个性/影响力_curator
整数,用户的影响力_curator程度
个性/影响力_评论员
整数,用户的影响力_评论者程度
个性/影响力_查看者
整数,用户的影响力_浏览者程度
首选项
字符串,用户的偏好
子偏好
字符串,用户的次级偏好
社交_媒体_模式/使用情况
整数,用户的社交媒体使用率
平均每一天与家人的对话开始时间
整数,用户的对话率
平均每天与朋友的对话次数
整数,用户的对话率
平均每天与亲密朋友的对话开始时间
整数,用户的对话率
喜欢个人亲密朋友的帖子的几率
整数,用户的喜欢率
喜欢个人的家庭帖子的几率
整数,用户的喜欢率
父母/0
字符串,用户的父母的ID
父母/1
字符串,用户的父母的ID
父亲
字符串,用户的父亲的ID
母亲
字符串,用户的母亲的ID
朋友_id
字符串,用户的朋友的ID
好友_关闭_id
字符串,用户的亲密朋友的ID
孩子_id
字符串,用户的孩子的ID
页面_类别
字符串,这个页面/组的主要兴趣(教育、社区
、公众人物、艺术家,等等。)
页面_id
整数,用户的下一个页面的ID。
智能设备名称
字符串,用户的智能设备的名称
传感器编号
整数,智能设备的传感器的编号。
时间戳
日期,智能设备观察到的时间
智能设备状态
字符串,智能设备的状态(开启、关闭或理想状态)。
SDevice_message
字符串,从智能设备到链接用户的信息,包括
其状态的详细更新。
表2
表3
用户的隐私表述的数字和百分比。
SM-IoT数据集的统计。
财产
统计数据
公共特征
用户数(%)
用户数量(𝑈)
1,000,000
隐私意识
51
30,000,000
无隐私意识的
49
边缘的数量(𝐸)。
最大的WCC/SCC中的节点
最大的WCC/SCC中的边缘
网页/群组的类别数量
页数/组数
14
1,000,000
30,000,000
1.000,000
60
S.Salim
et al.
3.3.数据分析
属性/功能的数量
优惠的数量
次选择的数量
智能设备的数量(𝑆)。
传感器的数量
表1
对生成的SM-IoT数据集进行了分析。表3
Ad Hoc53
Networks 128 (2022) 102786
7
55
25
1250
显示其基本属性,如用户数量𝑈、边𝐸、特征表示、偏好分类、可
能
与
SM
用
户
相
连
的
智
能
物
联
网
设
另外,在表4和图5中,根据年龄分布对SMIoT用户的性别进行了细分,50岁以上的主流群体约占SM用户的5
2%。
备
𝑆,以及用户可能关注的页面和群组的表示。
15
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
表4
基于年龄分布的用户性别。
性别/年龄段
≤20
21-30
31-40
41-50
>50
共计
所有用户(%)
男性(%)
7.73%
3.87%
3.87%
16.63%
8.32%
8.32%
16.10%
8.05%
8.05%
7.30%
3.65%
3.66%
52.26%
26.11%
26.12%
100.00%
49.99%
50.01%
女性(%)
图5.基于年龄分布的用户性别细分。
图6.用户关注/不关注网页和群组的百分比。
4. SM-IoT和其他数据集的比较
图6中描述的用户关注和不关注公共网页和团体的百分比,可
能表明他们的兴趣,显示每个用户的参与率约为2%。
能设备和没有智能设备的用户的百分比表明,在对这些设备感兴
SMIoT数据集具有多种属性,共同将其与其他现有数据集区分开
趣的总共90%的用户中,大约有8%与每个用户相关。
来,其中有三个特别重要。(1)数据是使用一个良好的模拟框架
另外,物联网设备在数据集中的参与情况在图7中表示,有智
生成的,在Python脚本和Node-
由于SMIoT数据集包含模拟重要的SM日期,如每个用户产生的数据的最
RED的帮助下,产生SM用户的精确代表模型;(2)SM的用户中心
后登录和注册的,这些数据可以被权衡,以获得对用户参与SM的
属性包括所有可能与这些用户有关的数据,如物联网数据,提
完整理解。其他资料数据表现为51个特征,如个性特征、年龄、
供了所有用户的兴趣和活动的完整代表;(3),它结合了用户的
性别、姓名、社会偏好、生活习惯、数据以及物联网设备和信息
人口统计学、关系学和高度指示性的特征,不会使数据集的不相
的状态。基于这些信息,对用户的喜好和建议进行详细分析,例
关/多余的特征过多。
这些特性被强调,它们的特质和限制在下一个小节中讨论。虽
如,按年龄、性别和个性特征进行细分。
然每个特征的效用当然取决于数据集的目的,但强调这个数据集
对未来未开发地区的研究是如何有用的,并且
10
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
在这个数据集中,用户的资料是树状结构的,因为特征是通过
继承树中的新路径构建的,如图8所示。虽然这一特性给数据集的
生成增加了超负荷的工作量,因为在将每个特征添加到数据集之
前必须确定其权重,但它使一个高度考虑特征的数据集能够在没
有任何额外处理能力或存储容量的情况下产生。
4.2. 数据比较
在表5中,对SMIoT、Pokec[26]、人人网[27]和ARAS[34]数据集进行了比较分析。
它包括十个参数,即节点(用户)的数量、边的数量、特征的数
量、所填充的配置文件的平均值、数据生成的类型及其输出格式
图7.使用/不使用智能物联网设备的用户比例。
,以及每个数据集的智能设备和传感器的数量占物联网数据表示
的百分比。可以看出,SMIoT数据集对物联网数据表示有不同的收集技术,最终反映了用户
考虑到它的特性,与[26,27]中两个研究良好的进行了比较。
表示的完整模型。
4.1. 数据属性
总的来说,所进行的比较表明,在SM和社会物联网数据中,
我们的SM-IoT数据集具有很高的特征--
4.1.1. 代的财产
被认为是用户的代表属性,因为SM-
通过直接生成数据,避免了采访者及其问题的影响,以及完成
IoT中的用户数据是树状结构的。在我们的数据集中,与之前提到
调查的劳动密集型超负荷工作[23],这可以消除对高处理能力、
的其他数据集不同,特征是通过继承树中以前的加权路径(特征
存储容量和访问速率的需求,并减少可能与抽样/抓取研究有关的
)来添加的,以避免任何与数据目的无关的极端特征。另外,由
其他加权误差来源[28]。同时,Python脚本提供了一个标准化的用
户数据模板,便于数据预处理、分析和比较。虽然数据生成经常
于这个数据集是以用户为中心的,物联网设备与90%的SM用户相
提供上述优势,但它的主要权衡是它很难获得个人和关系数据,
连,使他们在一段时间内被监测。这导致了一个完整的用户代表
例如,偏好不是用户输入值的产物,而是从他们其他相对重要的
模型,并开发了一个数据集,可以作为电子商务应用程序的基准
数据和活动中解释出来的,这些数据的百分比在23.05%和94.73%
,向用户发送适当的广告。例如,偏好,这不是用户入口价值的
之间。另外,SM上的友谊对不同的用户来说当然意味着不同的东
产品,可以从他们的其他相对重要的特征和活动中解释SM-
西。在生成SM数据时应考虑到这类问题。
IoT数据,比例高达94.73%。
4.1.2. 以用户为中心的财产
4.3. 统计学和机器学习方法
由于这个数据集是以用户为中心的,它包括所有与用户有关的
数据,作为物联网数据,产生用户信息的动态表示,用于实时预
测他们的行为,并且只能使用收集到的有关智能物联网设备和相
本节描述了对SMIoT数据的一致性的评估,同时使用统计措施和ma-
关社交网络之间的关联的数据来应用。这就产生了一个完整的用
户代表模型,用于开发一个数据集,可以作为电子商务应用的基
chine/深度学习模型训练分类器。
准,向个人/用户发送适当的广告。如图7所示,由于物联网设备
4.3.1. 统计分析技术
与90%的SM用户相关联,并且可以随着时间的推移进行追踪,并
皮尔逊相关系数[45]被用来确定SMIoT数据集的特征之间的线性关系。它的产生范围是[1,1],其大小表示两个特征之间的关联程度,其符号表示关联是正
还是负。
为了测量我们的数据集的特征之间的相关系数,我们在R中开
发了一个代码,将数据集的特征的强度排在一个[-1,
1]的范围内。在计算了相关共高效矩阵后,我们计算了每个特征
的相关平均值,以确定可用于提高ML模型性能的最相关的特征。
在图9中,我们的SM-IoT数据集的特征的相关系数平均值在1和1的范围内变化,符号为正,总平均值为0.50358。基于最高的
相关性,有代表性的特征只被用来预测用户的偏好,而其他不相
关的特征被忽略,这提高了数据分析的质量和处理时间。
与其他数据进行比较,我们的数据集可以用来从物联网的角度对S
M生命周期的这个时期提供额外的洞察力。包括许多物联网数据
的缺点是,它们不能代表所有的SM用户,因为其中10%的人不使
用物联网设备,而其他90%的人使用25个可用设备的不同组合,
每个设备都有与其状态相关的明显特征。
4.1.3. 特征构造属性
SM平台,从本质上讲,具有非常丰富的特征和数据[3]。对于
某些分析目的,可以确定许多相关的特征,甚至一些被怀疑是特
别多余的特征[4]。任何与它的目的无关的极端特征都可能导致高
维度的过载数据集,从而影响分析结果。因此,在SMIoT数据集中,一个特征构建程序,将数据集转化为包含通过推断
4.3.2. 机器和深度学习分析模型
或创建相关特征获得的重要特征的缩小的数据集,用来加强理解
为了评估提议的数据集在用于训练分类器时的准确性/质量,
和提高数据分析的性能。
我们在实验中采用了四种标准的分类模型。这些模型包括梯度提
升(GB)、随机森林(RF)、Naive
Bayes(NB)[46]和前馈(FF)学习模型[47],它们简要介绍如下
。
11
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
图8.构建SM-IoT数据集的特征。
表5
SM-IoT、Pokec、人人网和ARAS的比较。
参数
博克
人人网
ARAS
SM-IoT
节点的数量
边缘的数量
特征的数量
页数/组数
剖面图填充的平均值
数据生成技术
收集数据的格式
物联网代表
智能设备的数量
传感器的数量
1,637,068
30,622,564
58
ǞǞǞ
40.33%
爬行
Txt文件
没有
ǞǞǞ
ǞǞǞ
19,567
4,500,410
15
2778
46%
爬行
Csv文件
没有
ǞǞǞ
ǞǞǞ
4
ǞǞǞ
27
ǞǞǞ
ǞǞǞ
监测
ǞǞǞ
100%
13
40
1,000,000
30,000,000
53
1,000,000
84%
模拟
Csv文件
90%
25
1250
NG:不给。
• GB-结合独特的和弱的假设。它是一种迭代算法,通过结合结果
• NB是一个基于贝叶斯定理和数据点独立性假设的简单概率分类
不佳的参数化函数,创建一个高度准确的预测规则。这个G
器系列。它具有高度的可扩展性,因为最大概率训练可以通
B分类器有以下参数:学习率为0.01,4倍交叉验证,最大深
过在线性时间内评估一个封闭式表达式来完成,而不是像许
度为5。对于比较的数据集,我们选择了类似的设置。上述
多其他分类器那样使用昂贵的迭代近似法。由于KNN的实时
设置被实际调整以确定GB模型的最佳结果。GB分类器最初
执行,它比KNN快得多。在它里面,拉普拉斯的NB分类器
是使用默认参数进行训练的,然而,后来发现增加树的参数
被训练了相同数量的折线和3个数字。
• FF-也被称为多层感知器。这种分类器大多用于有监督的ML任
,特别是对于偏好预测任务,会增加训练时间。关于褶皱的
数量,我们发现更多的褶皱数量会导致准确性的损失。
• RF-是一种产生多个决策树(DT)的集合算法。它是一种稳健的
务,在这些任务中,我们已经知道了目标函数,对于实践M
算法,具有很高的分类能力,因为它将训练集分成几个子集
语言处理等领域因这种分类器的出现而受到很大影响。前馈
,然后为每个子集建立一棵树,而不是建立一棵树并结合它
网络的主要目标是对一些函数进行近似。参数是通过实验选
们的决定。它不容易过度拟合,并提供了一个比DT更普遍
择的,就像上述分类器一样。较高的历时值会影响模型的性
的解决方案。与上述分类器一样,RF的参数是通过实验选择
能,因此我们用较低的参数值进行了实验。因此,该模型在
的。因此,RF模型是通过4倍交叉验证和3个停止轮来训练的
10个历时中被训练,其二元分类网络由15个神经元的输入层
。另外,当树的数量增加到15棵时,该模型的特异性也得到
和一个输出神经元组成。
L极为重要,并构成了许多商业应用的基础,计算机视觉和
了改善。
为了便于比较,我们进行了两项分类任务。第一个任务是对SM用
户的𝑔𝑒𝑛𝑑𝑒𝑟,第二个任务是预测𝑝𝑟𝑒𝑓 _𝑛𝑎𝑚𝑒和ℎ𝑜𝑏𝑏𝑦 在Pokec和
12
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
图9.SM-IoT数据集的相关图。
表6
在 Pokec 和 人 人 网 的 数 据 集 中 , 我 们 的 数 据 集 特 征 对 于 分 类
学习模型评价指标。指标 方程
准确度
𝑇𝑃+𝑇
精度
𝑇𝑃
召回率
𝑇𝑃
𝑔𝑒𝑛𝑑𝑟属性更为相对。
𝑁
𝑇 𝑃 +𝐹 𝑃 +𝑇 𝑁+𝐹 𝑁
此 外 , 这 些 模 型 在 预 测 SM 用 户 的 偏 好 (
(2)
𝑇 𝑃 +𝐹 𝑃
(3)
𝑝𝑟𝑒𝑓_𝑛𝑎𝑚𝑒)方面的表现如表8所示。以同样的方式,我们比较了四个
(4)
模型在上述数据集上的表现。从表8中可以看出,GB模型实现了
最好的
𝑇 𝑃 +𝐹 𝑁
在SM物联网数据集上训练时,准确率为98.77%,精确度为98.98%,而
NB使用SMIot数据集取得的最佳召回率为100%。在偏好预测任务中,与在Po
人人网数据集。在这方面,四个模型只在SMIoT、Pokec和人人网的数据集上进行训练。ARAS数据集主要用于
kec数据集上的训练相比,在人人网数据集上的训练可以取得更好
预测智能家居中发生的、被环境传感器观察到的活动。它包括与
的性能,四个模型的准确率和精确度指标都更高。而在召回率方
日常生活中的活动有关的特征,这些活动是希望在这个数据集中为
面,GB和FF模型在Pokec数据集上的召回率要比在人人网数据集
上的召回率高。
四个志愿者捕捉的。因此,我们不能将ARAS数据集纳入这一比较
中。为了衡量训练好的模型的性能,我们采用了文献中的以下标准
指标:准确率、精确度和召回率。另外,真阳性(TP)、假阳性
表7和表8的结果证实,我们的数据集产生的性能改进是不明显
(FP)、真阴性(TN)和假阴性(FN)这四个术语被用来描述这
的 。 在 训练好 的 模 型 中 , 使 用 SM-IoT 数 据 集 的 GB模 型 在 预测
些指标,如表6所示。所有的实验都是在一台装有i7处理器和
16GB内存,我们的代码是用R实现的。
𝑔𝑒𝑛𝑑𝑒𝑟
表7
给
出
了
模
对
型
SM
用
户
,
以
及
SM
用
户
的
偏
好
(
𝑝𝑟𝑒_𝑛𝑎𝑚𝑒)方面表现明显优于其他模型。
的
与Pokec和Renren的数据集相比,结果显示我们的数据集可以
𝑔𝑒𝑛𝑑𝑒𝑟分类的性能。这些结果表明,我们的数据集在 准确性 、精 确
用来精确识别用户在智能环境中的行为,并加强对SM用户偏好的
性和召回率方面都明显优于其他数据集。具体来说,在SM-IoT数据
预测,以获得一个强大的推荐。此外,像任何真实世界的用户数
据集一样,在开发新的ML方面具有重要意义[34],我们的数据集
集中,使用GB对用户的𝑔𝑒𝑛𝑑𝑟属性进行分类的准确率最高(83.20%
显示了评估ML的可信度和隐私保护模型的影响的能力。虽然这一
)。另外,以同样的方式,在SM-IoT数据集上进行训练时,GB可以
优势给数据的生成增加了超负荷的工作量,但它使一个具有高度
达到80.24%的最佳精度,而RF模型对同一数据集的最佳召回值为
用户代表性的数据集能够在没有极强的处理能力或存储能力的情
99.67%。然而,总体性能因训练的模型和使用的数据集而异。在
况下被生成。
Pokec
数
据
集
上
的
RF
分
类
器
在
对
5. 总结
𝑔𝑒𝑛 𝑑 𝑟 属性进行分类时表现得比其他模型更好。使用人人网数据集
这项工作提出了一个新的SM-
的最高精度是由GB模型实现的。在精确度和召回率方面,使用Pokec
IoT数据集,基于两个流行的SM平台,Facebook和一个社会物联
和人人网数据集的NB和FF模型的性能几乎相同。这表明,与
网平台。这是第一个公开提供的此类数据集,旨在吸引具有不同
13
兴趣的研究人员,包括那些热衷于调查物联网和真正空间之间关
S.Salim et al.
Ad Hoc Networks 128 (2022) 102786
系的研究人员。这项工作激发并产生了这些数据。这项工作概述
了
14
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
表7
对用户的性别进行分类的准确度、精确度和召回率的比较。
公制
准确率(%)
模型/数据集
SM-IoT
博克
人人
网
精度(%)
SM-IoT
博克
人人
网
召回率(%)
SM-IoT
博克
人人网
GB
射频
NB
FF
83.20
76.34
58.82
61.68
69.21
72.77
50.04
51.15
78.68
59.68
49.87
49.94
80.24
70.62
53.51
54.47
63.12
67.87
49.76
50.28
74.82
55.85
49.65
49.70
87.71
85.86
99.67
98.23
82.19
82.33
89.42
94.65
86.13
80.10
87.64
93.35
表8
预测用户偏好的准确率、精确度和召回率的比较。
公制
准确率(%)
模型/数据集
SM-IoT
博克
人人
网
精度(%)
SM-IoT
博克
人人
网
SM-IoT
博克
人人网
GB
射频
NB
FF
98.77
91.74
74.14
77.88
28.77
52.47
18.21
39.64
43.00
41.85
30.56
39.60
98.98
93.71
74.14
78.97
32.92
47.53
21.28
30.56
43.04
44.50
34.17
34.98
99.36
95.29
100
95.72
88.53
66.70
32.65
76.81
77.95
57.10
65.65
67.24
解释了所使用的数据收集方法和数据描述。然后,讨论了该数据
召回率(%)
[7] Z.Cai, Z. He, X. Guan, Y. Li, Collective data-sanitization for preventing sensitive
information inference attacks in social networks, IEEE Trans.Dependable
Secur.Comput.15 (4) (2016) 577-590.
集的重点特征,并强调了其与其他类型的SM数据相比的可能性和
局限性。这些特点说明了可以用这样的数据集来处理的研究种类
[8] J.Leskovec, A. Krevl, SNAP datasets, SNAP Datasets:Stanf.Large Netw.数据集
,并为即将进行的研究提供了一个出发点。最后,三个指标被用
收集。(2014) http://snap.stanford.edu/data。
[9] Z.He, Z. Cai, J. Yu, Latent-data privacy preserving with custom data utility for
social network data, IEEE Trans.Veh.Technol.67 (1) (2017) 665-673.
来比较数据集的有效性:准确性、精确性和召回率。统计比较表
明,所提出的数据集可以显著提高训练后的模型的性能。在模型
[10] D.Mouris,
N.G.
Tsoutsos,
M.
Maniatakos,
Terminator
suite:保护隐私架构的基准测试,IEEE Comput.Archit.Lett.17 (2) (2018)
的水平上,在SMIoT数据集上训练的GB模型具有最高的准确性和精确度,而SM-
122-125.
[11] M.Siddula, L. Li, Y. Li, An empirical study on privacy preservation of online social
networks, IEEE Access 6(2018)19912-19922.
IoT数据集的NB模型具有最高的召回率。我们相信,通过进一步
优化这些模型,可以获得更好的结果。
在未来,这个数据集将被用于验证各种机
基于学习的网络安全问题,如入侵检测、隐私保护、假新闻检测
[12] S.Stieglitz, M. Mirbabaie, B. Ross, C. Neuberger, Social media analytics- challenge
in topic discovery, data collection, and data preparation, Int.J. Inf.Manage.39
(2018) 156-168.
[13] 2020年,6月24日,网址https://www.wordstream.com/blog/ws/2020/04/14/
twitter-statistics, 2020.
和社交媒体及其物联网系统的推荐系统。
[14] 2020年,6月24日,网址https://www.oberlo.com/blog/facebookstatistics,2020年。
6. 数据集访问
[15] J.Peng, A. Agarwal, K. Hosanagar, R. Iyengar, Network Overlap and content
sharing on social media platforms, J. Market.Res. 55 (4) (2018) 571-585.
我们的数据集由新南威尔士大学维护,可以在网址http://han
[16] M.Roopa, S. Pattar, R. Buyya, K.R. Venugopal, S. Iyengar, L. Patnaik,
社会物联网(SIoT)。基础、重点领域、系统回顾和未来
dle.unsw.edu.au/1959.4/resource/collection/resdatac_ 1112/1。
方向,Comput.Commun.(2019).
[17] P.Geetha, C. Naikodi, S.L.N. Setty, Design of big data privacy framework-A
balancing act, in:Advances in Data Sciences, Security and Applications, Springer,
2020, pp.253-265.
竞争性利益的声明
作者声明,他们没有已知的竞争性财务利益或个人关系,可能
会影响本文的工作。
[18] C.Ju, J. Wang, C. Xu, A novel application recommendation method combining
social relationship and trust relationship for future internet of things,
Multimed.Tools Appl. 78 (21) (2019) 29867-29880.
参考文献
[19] M.Seliem, K. Elgazzar, K. Khalil, Towards privacy preserving iot environments:A
survey, Wirel.通信。Mobile Comput.2018 (2018).
[20] J.Zhang, J. Sun, R. Zhang, Y. Zhang, X. Hu, Privacy-preserving social media data
outsourcing, in:IEEE INFOCOM 2018-IEEE Conference On Computer
Communications, IEEE, pp.1106-1114.
[1] N.Choudhury, World wide web and its journey from web 1.0 to web 4.0, Int.
J.Comput.Sci. Inf.Technol.5 (6) (2014) 8096-8100.
[2] T.J. Berners-Lee, The world-wide web, Comput.Netw.ISDN Syst.25 (4-5) (1992)
454-459.
[3] A.Gupta, A. Deokar, L. Iyer, R. Sharda, D. Schrader, Big data & analytics for
societal impact:最近的研究和趋势,Inf.Syst.Front.20 (2) (2018) 185-194.
[21] D.Yang, B. Qu, P. Cudré-Mauroux, Privacy-preserving social media data publishing for personalized ranking-based recommendation, IEEE Trans.Knowl.Data
Eng.31 (3) (2018) 507-520.
[22] K.K.
Mohbey,
S.
Kumar,
使用大数据框架在社交媒体环境中进行广告预测,
[4] A.A. Alalwan, Investigating the impact of social media advertising features on
customer purchase intention.J. Inf.Manage.42 (2018) 65-77.
[5] W.Wang, H. Yin, X. Du, W. Hua, Y. Li, Q.V.H. Nguyen, Online user representation learning across heterogeneous social networks, in:第42届国际ACM
V.
in:Multimedia
Koolwal,
Big Data
Computing For IoT Applications, Springer, 2020, pp.323-341.
[23] Y.Wang, 社会网络挖掘和分析的数据准备, 2014.
[24] M.Lytras,
SIGIR会议关于 信息检索的研究和发展的论文集,第545-554页。
Visvizi,
大数据研究促进社会科学和社会影响,
Sustainability
12
(2020).
[6] M.A. Ferrag, L. Maglaras, A. Ahmim, ad hoc社会网络的隐私保护方案。A
[25] S.Gella, M. Lewis, M. Rohrbach, A dataset for telling the stories of social media
videos, in:The 2018 Conference On Empirical Methods in Natural Language
Processing, pp. 968-974.
survey, IEEE Commun.Surv.Tutor.19 (4) (2017) 3015-3045.
[26] Y.Ding, S. Yan, Y. Zhang, W. Dai, L. Dong, Predicting the attributes of social
network users using a graph-based machine learning method, Comput.Commun.73
(2016) 3-11.
15
[27]
M. Zabovsky, 公共社交网络中的数据分析, in:Interna- tional Scientific
S.SalimL.Takac,
et al.
Conference and International Workshop Present Day Trends of Innovations, Vol.
1.
Ad Hoc Networks 128 (2022) 102786
16
Ad Hoc Networks 128 (2022) 102786
S.Salim et al.
[28] K.Areekijseree,
R.
Laishram,
S.
在线网络爬行的准则。数据收集方法和网络特性的研究,
Soundarajan,
萨拉萨利姆是位于堪培拉的新南威尔士大学工程与信息技术学
in:第十届ACM网络科学会议论文集,第57-66页。
院(SEIT)的博士生。她于2012年在埃及扎加济格大学
[29] W.Xiong, J. Wu, H. Wang, V. Kulkarni, M. Yu, S. Chang, X. Guo, W.Y. Wang,
TWEETQA:A social media focused question answering dataset, 2019, arXiv
preprint arXiv:1907.06292.
[30] S.Salim, B. Turnbull, N. Moustafa, A Blockchain-Enabled Explainable Federated
Learning for Securing Internet of Things-Based Social Media 3.0 Networks, IEEE
Trans.Comput.Soc.
Syst.(2021)
1-17,
http://dx.doi.org/10.1109/TCSS.2021.3134463.
[31] D.Van Bruwaene, Q. Huang, D. Inkpen, A multi-platform dataset for detecting
cyberbullying in social media, Lang.Resour.评估。54 (4) (2020) 851-874.
计算机和信息学院获得计算机科学学士学位,2016年在埃
[32] S.S. Intille, K. Larson, J. Beaudin, J. Nawyn, E.M. Tapia, P. Kaushik,
泛 在计算技术设计和评估的活实验室, in:CHI'05 Extended Abstracts On Human
本杰明-
Factors in Computing Systems, pp. 1941-1944.
[33] M.K. O'Brien, N. Shawen, C.K. Mummidisetty, S. Kaur, X. Bo, C. Poellabauer,
K.Kording, A. Jayaraman, Activity recognition for persons with stroke using
mobile phone technology: toward improved performance in a home setting, J.
Med.Internet Res. 19 (5) (2017) e184.
[34] H.Alemdar,
H.
Ertan,
O.D.
Incel,
C.
Ersoy,
ARAS人类活动数据集在多个居民家中的应用,
授。他是新南威尔士大学在线硕士(网络)的项目主任,
及梅努菲亚大学计算机和信息学院获得优化和运筹学应用
硕士学位。她进入新南威尔士大学堪培拉分校,开始了她
在隐私保护领域的博士研究,对社交网络和物联网特别感
兴趣。她的研究兴趣包括网络安全、隐私保护和人工智能
技术。
特恩布尔是堪培拉澳大利亚国防军新南威尔士大学的副教
以及荣誉协调员(网络)。他的研究重点是网络安全、模
拟、基于场景的学习,以及异构设备和未来网络的安全。
他也是信息系统安全认证专家(CISSP)。本已经在数字
取证、网 络 安 全 和模拟方面工作了17年。他以前作为
国防研究科学家,为全球多个客户开发和部署了新技术。
in:2013年第七届国际医疗卫生普适计算技术会议和研讨会, IEEE, pp. 232-235.
[35] N.Koroniotis, N. Moustafa, E. Sitnikova, B. Turnbull, Towards the development of
realistic botnet dataset in the internet of things for network forensic analytics:Botiot数据集, Future Gener.Comput.Syst.100 (2019) 779-796.
Nour
Moustafa是澳大利亚新南威尔士大学(UNSW)堪培拉分
校工程与信息技术学院(SEIT)研究生网络学科的协调
[36] Y.Al-Hadhrami, F.K. Hussain, 物联网中入侵检测系统的实时数据集生成框架,
员和智能安全的领导者。2017年6月至2018年12月,他在
Future Gener.Comput.Syst.108 (2020) 414-423.
新南威尔士大学堪培拉分校担任博士后研究员。他于2017
[37] 2021年1月27日,网址https://nodered.org/。
[38] C.C. Aggarwal, S.Y. Philip, Privacy-Preserving Data Mining:Model and
Algorithms, Springer Science & Business Media, 2008.
[39] R.Mendes, J.P. Vilela, Privacy-preserving data mining: methods, metrics, and
applications, IEEE Access 5 (2017) 10562-10582.
[40] L.Zhang, X. Zhu, X. Han, J. Ma, Differentially privacy-preserving social IoT,
年在新南威尔士大学堪培拉分校获得网络安全领域的博士
学位。他分别于2009年和2014年在埃及赫勒万大学计算机
和信息学院获得计算机科学学士和硕士学位。他的兴趣领
域包括网络安全,特别是网络安全、物联网安全、入侵检
测系统、统计、深度学习和机器学习技术。他拥有多项研
in:2019年第11届国际无线通信与信号 ,IEEE,第1-6页。
究基金,总额超过澳元。
[41] A.Ion, C.D. Nye, D. Iliescu, Age and gender differences in the variability of
vocational interests, J. Career Assess.27 (1) (2019) 97-113.
1.2百万。他曾被授予2020年著名的澳大利亚喷火战机纪
[42] P.Adamopoulos, A. Ghose, V. Todri, 用户个性特征对口碑的影响。Text-mining
念国防研究员奖。他也是IEEE高级会员,ACM杰出演讲
social media platforms, Inf.Syst.Res. 29 (3) (2018) 612-640.
[43] A.Aleryani,
W.
Wang,
B.
De
La
Iglesia,
在数据挖掘的背景下处理缺失数据和不确定性, in:International Conference On
者,以及CSCRC和Spitfire研究员。他为学术界服务,担
Hybrid Artificial Intelligence Systems, Springer, pp.289-301.
[44] C.Saranya, G. Manikandan, A study on normalization techniques for privacy
preserving data mining, Int. J. Eng.J. Eng.Technol.(ijet) 5 (3) (2013) 2701-2704.
[45] H.Akoglu,相关系数的用户指南,Turk.J. Emerg.Med.18 (3) (2018) 91-93.
Access、Future
任IEEE交易期刊的客座副编辑,包括IEEE Transactions on
Industrial
Informatics、IEEE
IoT
Journal,以及IEEE
Internet和Information
Journal的期刊。A
Security
Global
Perspective。他还担任过七个会议的领导职务,包括副主
席、会议主席、技术程序委员会(TPC)成员和论文集主
[46] S.Salim, N. Moustafa, B. Turnbull, Privacy-encoding models for preserving utility
of
machine
learning
algorithms
in
social
media,
席,包括2020-2021年IEEE
TrustCom和2020年第33届澳大利亚人工智能联合会议。
in:2020年IEEE第19届计算和通信领域信任、安全和隐私国际会议
(TrustCom),IEEE,2020年,第856-863页。
[47] T.T. Truong, D. Dinh-Cong, J. Lee, T. Nguyen-Thoi, An effective deep
feedforward neural networks (DFN) method for damage identification of truss
structures using noisy incomplete modal data, J. Build.Eng.30 (2020) 101244.
17
Download