为什么我们Twitter了解微博的用途和社区.docx
- 文档编号:17907324
- 上传时间:2023-08-04
- 格式:DOCX
- 页数:17
- 大小:1.26MB
为什么我们Twitter了解微博的用途和社区.docx
《为什么我们Twitter了解微博的用途和社区.docx》由会员分享,可在线阅读,更多相关《为什么我们Twitter了解微博的用途和社区.docx(17页珍藏版)》请在冰点文库上搜索。
为什么我们Twitter了解微博的用途和社区
为什么我们Twitter:
了解微博的用途和社区
AkshayJava,TimFinin
UniversityofMarylandBaltimoreCounty
1000HilltopCircle
Baltimore,MD21250,USA
XiaodanSong,BelleTseng
NECLaboratoriesAmerica
10080N.WolfeRoad,SW3-350
Cupertino,CA95014,USA
摘要
微博是一种新形式的通信,用户可以在其中描述他们目前的状态,即时消息,移动电话,电子邮件或Web分发的短期职位。
一个流行的微博工具在2006年10月推出的Twitter,已经看到了很大的增长。
在本文中,我们提出我们的微博现象的观察研究Twitter的社交网络拓扑和地理属性。
我们发现,人们使用微博谈论他们的日常活动,并寻求或共享信息。
对他们的活动进行推广和宣传。
最后我们分析社区层面中的相关联用户的意图,并显示具有类似的意图的用户是如何与每个其他进行连接的。
关键词:
社会网络分析,用户的意图,微博,社交媒体
1.简介
微博是一个相对较新的现象定义为“一种新形式的博客,可以让你写简短的文字更新(通常少于200个字符),在旅途中记录你的生活,并给他们的朋友和感兴趣的观察员通过短信,即时消息(IM),电子邮件或网络。
它提供的几种服务,包括Twitter,Jaiku和更近期的Pownce。
这些工具提供了重量轻,易于沟通的形式,使用户能够播放和分享他们的活动,意见和状态信息。
一个流行的微博平台是Twitter。
根据Comscore的调查,其推出的八个月内,Twitter上有大约94,000个用户,为2007年4月[9]。
图1所示为第一作者的Twitter主页页面快照。
是由140个字符的限制内简洁地描述一个人的当前状态更新或职位。
话题从日常生活到时事,新闻和其他利益。
有别Gtalk,雅虎和MSN等IM工具,功能包括允许用户与他们的好友名单上的朋友分享自己的当前状态。
微博工具,便于轻松共享状态信息公开或传播到社会网络内。
图1:
如Twitter主页页面上日期谈论日常经验和个人生活。
与普通博客相比,微博满足需要以更快的通信模式。
通过鼓励较短的文章,它降低了用户要求的时间和内容生成的时间。
这也是和一般的博客主要区别因素之一。
第二个重要的区别是更新的频率。
平均而言,一个多产的博客更新基本需要隔几天,而一个微博则可能单日发表数次更新。
最近流行的Twitter和类似微博系统,重要的是要明白,为什么人们如何使用这些工具。
了解这些将有助于我们发展微博理念和完善微博客户端和基础设施软件。
我们解决这个问题,通过研究微博的现象,在这样的系统中对不同类型的用户意图进行分析。
大部分用户意图检测研究一直专注于理解搜索查询的意图。
据布罗德的三个主要类别的搜索查询导航,信息和交易。
了解搜索查询意图,从内容创作的用户意图是非常不同的。
在博客的调查,纳迪等[26]描述了不同的动机:
“为什么是我们的博客?
”他们的研究结果表明,博客作为一种工具来分享日常的经验,意见和评论。
基于对他们的采访中,他们还描述了博客如何形成网上社区,可支持不同的社会群体。
在现实世界中,研究社会关系的重要性,在确定如果用户将继续活跃在一个博客工具,称为重击。
收到的意见,在博客用户的保留和利息可以预测,并继续与其他社区的活跃会员。
谁邀请的用户与他们分享发出前的社会关系的人往往停留更长的时间,参与社区网络中的活动。
此外,一些社区被发现有较大的保留率,由于这种关系的存在。
已经发现在社交网络中的相互了解,有效地发现社区。
在计算语言学家的研究人员已经研究了这个问题认识的交际对话系统和口语接口的话语背后的意图。
这项工作的基础有联系到了奥斯汀,Stawson,格莱斯,格罗茨和艾伦开展经典的研究,分析了人与人之间和人与计算机之间的协同任务导向环境对话。
最近,松原应用意图识别的汽车为基础的通用对话系统以提高性能。
虽然他们的工作主要论点集中在一个相当不错的定义域的两个代理之间正在进行的对话分析,基于Web的系统研究用户的意图,需要看的内容和链接结构。
在本文中,我们描述了用户如何通过一个特定的微博平台—微博。
微博是相对新生的,但是据我们所知,还没有大规模的研究已经完成,这种形式的沟通和信息共享。
我们研究Twitter的社交网络的拓扑结构和地域结构,并在微博上试图理解用户的意图和群落结构。
从我们的分析,我们发现用户意图的主要类型是:
每天喋喋不休,对话,分享信息和报告新闻。
此外,用户的信息源,朋友或信息搜索者扮演不同的角色,在不同的社区。
该架构组织图如下所示:
在第2节中,我们描述的数据集和底层的社交网络的Twitter用户中的一些属性。
第3节提供了一个分析Twitter的的社交网络的,和它的跨地域的的中的蔓延。
接下来,在第4节中,我们描述了总用户的行为和社区级用户的意图。
第5条规定用户意图的分类法。
最后,我们总结我们的研究结果和结论与第6节。
2.数据集描述
Twitter是目前最流行的微博平台形式之一。
这个系统与用户交互,通过使用一个Web界面,即时通讯代理或发送短信更新。
大家可以选择作出公开更新或只提供给朋友。
如果用户的个人资料被公之于众,她的更新显示在“公共时间轴”最近的更新。
在这项研究中使用的数据集创建一个为期两个月,从2007年4月1日开始至2007年5月30日通过监测本次公开的时间表。
最近更新的一组取每30秒一次。
共有1348543篇从截然不同的76177名用户在此集合。
Twitter允许用户,A,“按照”更新增加一条,作为“朋友”的其他成员。
个人是用户A,但没有一个朋友“跟随”她的更新,被称为一个“跟随者”。
因此,友谊可以交换或者单向的。
通过使用Twitter的开发人员API5,我们获取的所有用户的社交网络。
我们构造一个有向图G(V,E),其中V代表一组用户和E代表的“朋友”关系。
存在有向边e,u和v两个用户之间,如果用户u宣布v作为一个朋友。
总共有87897829053朋友它们之间的关系的不同节点。
有更多的节点,在该图形中,由于一些用户的链接结构虽然发现一个事实,即没有任何职位的持续时间期间,其中的数据被收集。
对于每个用户,我们也获得了自己的个人资料,并映射他们的位置,地理坐标,提供有关详情在下一节。
3.在Twitter上的微博
本节介绍了一些Twitter的社交网络特性,包括它的网络拓扑结构和地域分布。
3.1Twitter的增长
由于Twitter提供一个的顺序用户和后标识符,我们可以估算出Twitter的增长率。
图2显示了用户的增长率和图3显示在此集合职位的增长率。
由于我们没有历史数据的访问,我们只能观察两个月时间内其增长。
在增长的每一天中,我们确定Twitter的API提供的用户标识符和后标识符的最大值。
通过观察这些数值的变化,我们可以大致估算出Twitter的增长。
注意有趣的是Twitter推出于2006年,但它走红后不久便赢得了(SXSW)会议网站奖在2007年3月6日。
图2示出用户的兴趣和宣传的结果,Twitter的生成在这次会议的初始生长。
这个周期后,新用户加入该网络的速度已经放缓。
尽管放缓,但新职位的数量正不断增长,每月约一倍,表明一个稳定的基础,用户生成内容。
继科拉里等[18],将我们使用用户活动和保留的定义如下:
定义一个用户在一个星期被认为是积极的,如果他或她已经张贴在那一周至少有一个职位。
定义一个活动的用户保留被认为对于给定的周如果他或她发布信息,至少有一次在下面的X周。
由于短时间内数据和微博的性质,我们决定使用X作为一个为期一周。
图4示出的用户活动和保留的数据的持续时间。
大约有一半的用户是活跃,这其中一半转贴在接下来的一周。
有最后一周期间的一个事实,即从公共时间轴的更新不两天,在此期间,由于数据记录,活性较低。
3.2网络属性
网页,博客圈,在线社交网络与人接触网络都属于一类的“无尺度网络工程”,并呈现出“小世界现象”。
它已被证明的许多特性,包括在Web上的度分布遵循幂律分布。
最近的研究已经证实,这些发布者的博客还成立。
表1描述了一些Twitter的社交网络的属性。
我们也比较微博的生态系统研讨会(WWE)集合等报道的相应值这些属性与他们的研究显示,网络具有高度相关性(如图6所示)和高互惠。
这意味着有大量的在图中共同的熟人。
新的Twitter用户最初经常邀请朋友加入网络。
此外,新的朋友都加入到网络中,通过用户配置文件和浏览添加其他已知的熟人。
高互惠链接也被观察到其他在线的LiveJournal等社交网络。
个人的沟通和联系网络,如手机通话图也有高度相关性。
图5显示了Twitter的网络的累积度分布。
有趣的是,注意,斜坡γ和γ出来的都是约-2.4。
此值的幂指数为网站和博客圈发现类似。
3.3地理分布
Twitter提供有限的个人资料信息,如姓名,生物,私人空间和位置。
对于我们收集关于39K76K用户指定的位置,可以正确解析,解析它们各自的纬度和经度坐标(使用雅虎地理编码API7)。
图7和表2显示Twitter用户和用户的数量在每个大陆的地理分布。
Twitter是最流行的是在美国,欧洲和亚洲(主要是日本)。
东京,纽约和旧金山是主要城市的用户通过Twitter的高[16]。
Twitter的流行是全球性的,它的用户的社交网络跨越大陆的边界。
通过映射每个用户的经度和纬度的大陆位置,我们可以提取每边的起源和目标位置。
表3显示了各主要大洲的代表在数据集中分布的友好关系。
Oceana的是用来代表澳大利亚,新西兰等其他岛国。
Â重大部分(约45%),社交网络仍然是在北美地区。
此外,有更多的大陆内部链接比各大洲。
两个用户之间的友谊的概率成反比其地理上的接近,这与观测一致[22]。
在表4中,我们比较了一些在这些大多数用户:
北美,欧洲和亚洲三大洲的网络属性。
对于每一个大陆的社交网络中提取只考虑子图,源和目标的友谊关系,属于同一大陆。
亚洲和欧洲的社区有一个更高的程度比北美同行的相关性和互惠。
语言起着重要的作用是这样的社会网络。
从日本和讲西班牙语的世界许多用户连接与其他人讲同一种语言。
在一般情况下,在欧洲和亚洲的用户往往具有更高的互惠和聚类系数的值在其相应的子图。
4.用户意图
在本文中,我们提出了一个两级架构为用户意图检测。
首先,我们使用HITS算法[17]发现在网络集线器和当局。
集线器和当局有相辅相成的财产和计算方法如下:
H(P)指的枢页p的值(P)表示一个页面p的权威价值。
表5显示了一个上市的十大枢纽和当局。
从这份名单中,我们可以看到,一些用户有很高的权威性得分,枢纽得分也很高。
例如,位于此类别中Scobleizer,JA-sonCalacanis,bloggersblog,谁拥有众多的追随者和朋友在TwitterWebtickle就具有极高的权威性分数。
有些用户有枢纽得分较低,如Twitterrific,EV,springnet。
他们在Twitter上的朋友少。
因而有众多的追随者,而位于此类别中。
其他一些用户具有很高的枢纽分数但权威分数较低,如dan7,startupmeme,AIDG。
他们遵循许多其他用户,同时有少的朋友。
基于这个粗略的分类,我们可以看到,用户意向,可以大致分为以下3种类型:
信息共享,寻求信息和明智的友谊关系。
经过集线器/权威机构检测,确定哪些社区内友谊明智关系,只考虑两个用户的双向链接,视对方为朋友。
在一个网络中的一个社区,隐约可以定义更密集比组之外的节点相互连接作为一组节点。
社区通常是局部或共同利益的基础上。
要构建网络社区,片状等。
Flakeet.al.[12]提出了一种方法,使用HITS和流量最大化/最小化切割检测社区。
在社交网络领域,纽曼和格文[13]提出了一种社区的结构强度来衡量指标,称为模块化。
直觉就是网络进社区,是一个很好的分工不仅使一些小社区之间的边缘运行,而是群体之间的边数小于预期。
只有当组之间的边缘明显低于所预期纯属偶然的,我们可以理直气壮地声称已经找到了显著的社会结构。
基于网络的模块化措施,提出了优化算法找到好的网络部门进社区通过优化的可能性部门的模块化。
此外,这种优化过程可以进行相关矩阵的特征向量。
然而,在上述算法中,每个节点都有属于一个社区,而在实际网络中,社区往往重叠。
一个人可以成为一个完全不同的功能,在不同的社区。
在极端的情况下,作为一个用户可以在一个社区,在一个社区的信息搜索者的信息源。
在友谊社区的人们往往知道对方。
提示这种直觉,我们应用桂系渗漉法(CPM)[28,10]发现重叠的网络社区。
CPM是基于观察,一个典型在一个社区的成员被链接到许多其他成员,但不一定在同一个社区的所有其他节点。
CPM寻找工会所有的k-拉帮结派,可以通过相互达成了一系列相邻的K-拉帮结派,被说成是两个K-拉帮结派相邻的k小集团社区被确定,如果他们分享k-1个节点。
该算法是适合用于检测网络中的密集的社区。
在这里,我们列出了几个具体的例子在Twitter社区如何形成,以及为什么用户包括这些社区和什么样的用户意图是在每个社区。
图8示出代表性的社区有58个用户,密切与对方沟通,通过Twitter服务。
他们谈论的主要条款包括工作,微软Xbox,游戏,玩。
它看起来像一些用户一起讨论某些新产品的信息在这个主题或共享的游戏体验与游戏权益。
当我们去给特定用户的网站,我们还发现这种类型的谈话:
“日本鬼子,PS3B和Dazzler。
”我认为他们有区域编码,所以“只能够打日本鬼子游戏”。
欧元有没有PS2芯片或BobbyBlackwolf播放与PS3坚定的固件更新,可以'吨WMP11共享MP4的PS3赢得'T播放WMV或AVI的辉升。
我们还注意到,用户在这个社区还与对方分享自己的个人感觉和日常生活经验,除了“游戏”的评论。
根据我们的研究在Twitter数据集的社区,我们观察到这是一个代表性的社区在Twitter网络:
在一个社会中的人有一定的共同利益,他们也彼此分享他们的个人感觉和日常经验。
使用CPM我们能找到社区如何相互连接的重叠组件。
图9显示了两个社区播客权益,其中GSPN和pcamarata的是连接这两个社区的。
GSPN的生物,他提到他是生产者一般来说播客Network8。
而在pcamarata的生物群里,他提到他是有家室的人,神经外科医生和AA播客。
通过看这两个社区的最关键的条款,我们可以看到,在绿色社区的重点是一个小更多样化:
人偶尔说说播客,而红色社会是一个小更集中的话题。
从某种意义上说,红色的社区像一个专业的社区,播客,而绿色是一个非正式的社区。
图10显示了五个社区Scobleizer,谁是科技怪胎博客连接。
人们按照他的职位,获得科技新闻。
人们在不同的社区有着不同的利益与Scobleizer。
具体来说,AndruEd病房Scobleizer知晓。
Davidgeller的扎堆分享视频相关新闻。
语义Web上有一些利益,如工程师及有利益与编码相关的问题。
研究在社区层面的意图,我们观察到用户参与社区志趣相投。
加入这些社区的人可能有不同的意图。
虽然一些作为信息提供者,其他人只是在寻找新的和有趣的信息。
接下来,我们分析分布在许多社区,跨用户的总体趋势,我们可以找出若干主题鲜明。
经常有字用法的循环模式。
可以观察到这样的模式,在一天或一周。
例如图11所示的“朋友”和“学校”在整个语料库的趋势。
虽然学校是在平日的兴趣,朋友在周末接管。
使用对数似然比来确定的术语是对于一个给定的星期几的显着的重要性。
由雷松和加塞德的描述的技术可知[30],我们创建了一个应急表的长期频率对于一个给定的一天和休息一周。
图12示出了描述性的词语的一周的每一天。
一些提取的条款对应的周期性事件和活动为特定的星期几,例如“学校”或“党”具有重要意义。
其他条款都涉及到当前的事件,如“复活节”和“EMI”。
5.讨论
继部分介绍了简要分类,用户在Twitter上的意图。
一个Twitter后手动确定由第一作者的明显意图。
每篇文章阅读和分类。
文章高度含糊不清或为此笔者无法作出判断,被放置在类未知。
基于这种分析,我们发现有以下一些Twitter上的主要用户意图:
•每日成交ç制帽大多数的帖子在Twitter上谈论日常或什么人正在做。
这是最大和最常见的Twitter用户。
•在Twitter上的对话,因为没有直接的方法,供人们评论或回复他们的朋友的帖子,喜欢尝鲜的开始使用@符号,然后通过回复的用户名。
约八分之一的所有职位集合中包含的谈话和集合中近21%的用户使用这种形式的交流。
•共享信息/网址关于集合中的所有职位的13%,在其中包含一些URL。
由于小字符限制的URL缩短像小URL9服务是经常被用来使此功能是可行的。
•报道许多用户报告关于当前事件在Twitter上的最新消息或评论。
有些自动化的用户或代理商发布更新,如天气报告和新的故事从RSS提要。
这是一个有趣的Twitter应用已经进化由于容易获得的开发API
使用的链接结构,用户在Twitter上的主要类别:
•信息源信息源也是一个枢纽,拥有大量的追随者。
此用户可以定期或很少发布更新。
尽管罕见的更新,某些用户拥有大量的追随者由于其更新性质的宝贵。
一些信息来源也被发现张贴在Twitter上的新闻和其他有用信息的自动化工具。
•朋友的关系属于这一大类。
有很多子类Twitter上的友谊。
例如,一个用户可能有他们的朋友或追随者列表上的朋友,家人和同事。
有时不熟悉的用户也可以添加某人为好友。
•信息导引头和信息搜索者可能很少发布信息,但经常跟随其他用户。
我们的研究揭示了不同的动机和公用事业的微博平台。
一个用户可能有多个意图,甚至可能为不同的角色,在不同的社区。
例如,有可能意味着更新您的个人网络的假期计划或与同事分享一个有趣的环节后的帖子。
多个用户的意图已导致一些用户感觉,此番微博服务[20]。
基于用户意图的分析,我们认为能力分类成组(如家人,同事)的朋友通过微博平台将大大受益。
除了功能,有助于促进对话和分享新闻将是有益的。
6.结论
在这项研究中,我们分析了大量的社交网络,以新的形式被称为微博的社会化媒体。
这种网络工程被发现有高度的相关性和互惠,表示用户之间紧密的相互熟人。
虽然确定单个用户使用此类应用程序的意图是具有挑战性的,,总跨社区的用户行为分析,我们可以形容社区意向。
了解这些意图和学习为什么人们在使用这些工具可以帮助改进和增加新的功能,留住更多的用户。
在这项工作中,我们已经确定了不同类型的用户意图,并研究社会结构。
目前,我们正在工作的自动化方法检测用户的意图相关的社区结构。
7.致谢
感谢Twitter公司为我们提供了一个API研究,同时通过研究为他们提供更好的建议,感谢他们对我们的服务和Pranam科拉里逍施和AmitKarandikar的帮助。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 为什么 我们 Twitter 了解 用途 社区