互联网新闻-新浪科技
互联网新闻
从LinkedIn看大数据挖掘应重视的四个变量
http://go.rss.sina.com.cn/redirect.php?url=http://tech.sina.com.cn/i/csj/2013-04-29/12598293468.shtml
Apr 29th 2013, 04:59
LinkedIn商业分析高级经理李玥
编者按:LinkedIn作为一家职业社交网站,通过人才招聘、广告投放、付费订阅等服务实现了盈利,这三项创造盈利的服务背后实际上都有着大数据挖掘技术的重要贡献。LinkedIn商业分析高级经理李玥(Michael Li)日前在Teradata天睿公司举办的"2013 Teradata大数据峰会"上接受新浪科技《创事记》专访,介绍了一些LinkedIn进行数据挖掘的方法论。以下是对话摘要:
创事记:能否简要介绍一下LinkedIn?
李玥:LinkedIn是一家面向商业客户的社交服务网站,2003年正式开通启动,距今已经10年的历史。2011年5月份,LinkedIn在美国纳斯达克上市。目前市值接近170亿美元。
LinkedIn基本上有三个比较主流的商业模式:第一个渠道是人才招聘解决方案,最主要是解决公司招聘和人员求职的供需关系,这部分业务贡献了超过50%的收入;第二是,广告业务,企业可以在LinkedIn网站上瞄准不同人进行广告的精准投放;第三是,高级付费订阅服务,LinkedIn会提供更高级的产品,用户在付费订阅之后,可以利用高级数据提高工作效率。
创事记:LinkedIn中国现状是怎样的?
李玥:关于中国的策略,我能说的非常非常有限,因为LinkedIn还没有正式进入中国市场。现在我们在中国有超过300万注册用户。LinkedIn非常了解,中国是一个非常非常有潜力的市场。我们在探索到底应该是以怎样的方式进入中国,但是现在没有定论。我们最终的目的是让中国的职业人员能够在职场上更成功,这一点准则不会有任何变化。
创事记:LinkedIn的数据分析团队的工作是什么?
李玥:这个团队在LinkedIn上市前一年(2010年)开始创建,两年之内团队已经达到50人。这是在LinkedIn里面成长最最快速度的团队,现在我们还在不断的成长当中。我们的责任范围最大的一部分就是支持所有与LinkedIn运营盈利相关的服务。现在LinkedIn有近4000名员工,70%的人是通过我们来提供服务的。
我们的团队组成是:一个数据采集的专门团队,一个专门做数据挖掘的团队,在这之上我们还有分析的团队和每个商业渠道挂钩起来,这样会更接近他们的业务。
我们跟LinkedIn所有相关的职能部门一起合作,包括销售部门、市场营销部门、产品部门、工程部门,还有运营部门。我们所有的数据挖掘全部是通过一个技术平台做出来的,但是在这之上,会对不同的商业应用、商业需求单独去做处理。
创事记:每次商业分析需要处理多大的数据?
李玥:一般的数据处理起来,至少要到TB(1TB=1024GB)的水平。比如说,我们做一个预测的模型,基本上要准备的数据达到几个TB,然后再做数据挖掘,最后做出最后的预测。最后的预测可能看起来很简单,比如说是Yes或者是No,但是后台数据采集、数据处理,创建模型是要花费很多很多时间。
创事记:LinkedIn如何获取这么多的数据,这些数据都是免费的吗?
李玥:很多的数据实际上是LinkedIn本身的数据。我们有自己的用户,他们每天会在上面发布不同的信息,会更改自己的数据。我们也会花钱获取其他数据。根据商业需求不同,我们会跟业界比较知名的数据服务商来合作,比如Gartner。
创事记:LinkedIn大数据解决方案采用哪种基础架构?
李玥:LinkedIn整个数据分析解决方案里主要有三个非常重要的组成部分,一个是Teradata数据仓库解决方案,它支持很多报表系统,可靠性高;第二个是Teradata Aster,Aster有很多已经设置好的函数,可以让分析更简单、更快速,而且让我们做大量分析时,变得更有效率;第三部分就是Hadoop,应用于真正特别巨大的数据处理和存储。我们将这三种产品和平台作为一个整体,在此基础上做出集中的数据结构架构。Teradata为客户提供是企业级解决方案,有专门为大公司设计定制功能,而且在这个系统里起着非常重要的作用。
创事记:能否举一个简单的大数据挖掘案例?
李玥:在做分析和预测的时候,怎么样的一个过程才能做出对将来最好的预测?我举一个例子。比如说,市场营销过程中你想去给特定的人群发一些消息,说我给可以给你们你一些优惠,让你们去购买某些产品。但你怎么知道有哪些人会更倾向于去接受你的信息,或者说接受你的介绍?那我们就会看,以前发生的事情。
了解以前发生的事情,了解为什么这些事情会发生,以及它背后的原因,然后再用这些去解释将来会发生的事情。总体上就是这样一个大的方法。
创事记:LinkedIn在做大数据挖掘时会重点参考的变量是什么?
李玥:一般性我们看三大块。一块是,所有用户相关的属性。比如说你是男性还是女性,年龄是多少,或者说工作方式是什么,在哪家公司,在哪个行业,在哪个地点。这些数据就是相关信息。这些信息基本上属于一种比较静态的东西,也是所有行业到现在为止,可能最成型的一种数据变量。这一块我们看得最多。
然后是用户的行为数据。很多公司逐渐看到这部分数据,但以前并没有太重视。比如说,我决定去买一个投影仪,我可能之前会做很多很多的事情,最后才会决定买它。如果只是看我买它的一条记录,那么它只是一条数据记录,但是之前为什么决定买这个东西,可能会有几千条、几万条不同的信息记录下来。
这里边就有很多不同的东西,包括你是不是某一种一系列的行为,才导致最后的购买决定。这一块数据量上要大很多,从分析量上来讲,难度也高很多。但根据我们的经验,这个对你的预测的准确性贡献,其实也增加了很多很多,所以这一块是非常非常重要的。
第三块是,与社交网络相关的信息。它对你的预测也会造成非常非常大的影响。举个例子,你在LinkedIn上或者Facebook、微博上,跟你相似的人往往会做出与你接近的决定。一个最原始的理论,物以类聚,人以群分。跟你相连接的这些人,往往他们喜欢的东西,或者他们做过的事情,是你以后可能会去做的。
根据以往的经验,你连接的人当中,已经做过这些事情,如果我告诉你他们做过这些事情的话,你会更加的可能也会做这些事情。
创事记:还有其他变量么?
李玥:这三大变量基本组成了我们看的最多的数据。当然每一个分类里面,又会有很多很多的数据。其实我们会花很多的精力去采集这些数据,然后不断地扩充我们的变量仓库。因为随着数据的增加,预测的准确度也会越来越高。
此外,时间序列也是非常重要的。很多时候你做的这件事情离现在有多久,会对你的预测产生很大影响。比如说,我在网站上看了一个投影仪相关的描述。如果你第二天就跟我说,我会给你50%的折扣,那我买下的可能性是很大的,因为我有很大的兴趣。如果一个月之后,您再来问我,我可能就没有很大的兴趣了。这只是一个方面,但在整个时间序列里面,多久之前发生这件事情很重要。
另外,在整个时间序列当中,行为的变化也很重要。比如说,我看这个投影仪的介绍,如果我以前是一个月看一次,但我最近变成一个礼拜看一次,或者说变成一天看一次,整个时间序列就能告诉你,我的关注点是不断增加的。所以时间序列里的这种模式也非常重要。
This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers. Five Filters recommends: Thatcher's Tyrants - The Tanks, The Guns, The Christmas Cards.
You are receiving this email because you subscribed to this feed at http://blogtrottr.com
If you no longer wish to receive these emails, you can unsubscribe here:
http://blogtrottr.com/unsubscribe/cz0/FKWDlq
订阅:
博文评论 (Atom)
博客归档
-
▼
2013
(16909)
-
▼
四月
(1442)
- 焦点新闻-新浪科技: 苹果三星专利权诉讼11月将确定最终赔偿金额
- 焦点新闻-新浪科技: 传苹果公司将整合地图、Siri及车载系统
- 焦点新闻-新浪科技: 雅虎CEO梅耶尔去年总薪酬3660万美元
- 科技要闻-新浪科技: 雅虎CEO梅耶尔去年总薪酬3660万美元
- 科技要闻-新浪科技: 传夏普年度亏损坏于预期
- 互联网新闻-新浪科技: 雅虎CEO梅耶尔去年总薪酬3660万美元
- 网易科技频道IT业界新闻: 苹果新专利表明未来iOS设备可用游戏手柄操作
- 网易科技频道IT业界新闻: 苹果CEO蒂姆·库克下月将在D11会议上露面
- 网易科技频道IT业界新闻: 苹果发行170亿美元债券 返还股东1000亿美元现金
- 焦点新闻-新浪科技: 任天堂Wii U遭破解 可通过USB设备玩游戏
- 焦点新闻-新浪科技: 加拿大研究人员开发杂技手机:来电就弯曲
- 焦点新闻-新浪科技: 苹果公司CEO库克将出席D11大会
- 科技要闻-新浪科技: 苹果公司CEO库克将出席D11大会
- 互联网新闻-新浪科技: 微博遇上阿里:最好的时候最适合的你
- 焦点新闻-新浪科技: 微博遇上阿里:最好的时候最适合的你
- 互联网新闻-新浪科技: 高盛维持搜狐股票中性评级 目标股价57美元
- 焦点新闻-新浪科技: 百思买7.75亿美元出售欧洲资产
- 焦点新闻-新浪科技: 软银CEO称不提高收购Sprint报价 比Dish优越
- 焦点新闻-新浪科技: 万维网开放20周年 全球第一个网站重新上线
- 互联网新闻-新浪科技: 万维网开放20周年 全球第一个网站重新上线
- 焦点新闻-新浪科技: 男子暴雨时戴耳塞上网遭雷击身亡(图)
- 科技要闻-新浪科技: 男子暴雨时戴耳塞上网遭雷击身亡(图)
- Solidot: 5月3日:国际反DRM日
- 焦点新闻-新浪科技: 什么职业最有前途?做计算机做不了的事
- 科技要闻-新浪科技: 什么职业最有前途?做计算机做不了的事
- 互联网新闻-新浪科技: 什么职业最有前途?做计算机做不了的事
- 焦点新闻-新浪科技: 微软Azure营收首破十亿美元:与亚马逊竞争加剧
- 手机资讯-新浪科技: 传iOS 7采用扁平化设计:颠覆拟物理念
- 科技要闻-新浪科技: 传iOS 7采用扁平化设计:颠覆拟物理念
- 焦点新闻-新浪科技: 李开复:台湾创业者的安逸抵消了先天优势
- Solidot: 阿里巴巴以6亿美元收购新浪微博18%股份
- Solidot: 红会的汶川百名艺术家8472万捐款去向
- 互联网新闻-新浪科技: 可穿戴设备的缺陷:大数据引发隐私担忧
- 互联网新闻-新浪科技: 李开复:台湾创业者的安逸抵消了先天优势
- 手机资讯-新浪科技: Intel双核金属机身 联想K900评测
- 焦点新闻-新浪科技: 中国电信明日下调国际漫游费 平均降幅超50%
- 焦点新闻-新浪科技: 私密社交网站Path称用户数突破1000万
- 焦点新闻-新浪科技: 可穿戴设备的缺陷:大数据引发隐私担忧
- 科技要闻-新浪科技: 5寸时尚双核 三星I9128/I9128V评测
- 科技要闻-新浪科技: 高通四核5寸1080P 联通版索尼L35h图赏
- 科技要闻-新浪科技: Intel双核金属机身 联想K900评测
- 互联网新闻-新浪科技: 私密社交网站Path称用户数突破1000万
- 手机资讯-新浪科技: 1080P将成为主流 热门四核大屏手机推荐
- 手机资讯-新浪科技: 高通四核5寸1080P 联通版索尼L35h图赏
- 手机资讯-新浪科技: 5寸时尚双核 三星I9128/I9128V评测
- 网易科技频道IT业界新闻: 业界预计2015年上网本将退出市场
- 网易科技频道IT业界新闻: 苹果启动首次债券发行准备工作
- 焦点新闻-新浪科技: 中国工程院院士称北斗系统预计2020年服务全球
- 焦点新闻-新浪科技: Google Play商店新规:禁止应用自动升级
- 科技要闻-新浪科技: 三星Galaxy S3领衔 2000元左右热门机一览
- 科技要闻-新浪科技: 平民贵族都能满足 各价位WP8智能机推荐
- 科技要闻-新浪科技: 1080P将成为主流 热门四核大屏手机推荐
- 互联网新闻-新浪科技: Google Play商店禁止应用自动升级
- 手机资讯-新浪科技: 测试显示Galaxy S4损坏风险高于iPhone 5
- 手机资讯-新浪科技: 新老机皇并驾齐驱 各品牌主力机型盘点
- 手机资讯-新浪科技: HTC One领衔 1.5GHz起高主频智能机盘点
- ScienceDaily: Latest Science News: Smoking prevent...
- ScienceDaily: Latest Science News: No benefit of e...
- ScienceDaily: Latest Science News: Targeting presc...
- 焦点新闻-新浪科技: 60家企业躁动虚拟运营市场:核心定价权成难题
- 焦点新闻-新浪科技: 梅耶尔挖掘雅虎广告业务:推两项新广告功能
- 焦点新闻-新浪科技: 黑莓CEO预计Q10销量可达数千万部:股价创新高
- 科技要闻-新浪科技: 测试显示Galaxy S4损坏风险高于iPhone 5
- 科技要闻-新浪科技: 黑色风格 谷歌Play商店"换肤"技巧
- 科技要闻-新浪科技: 联发科新四核MT8135将至:双核A15+双核A7
- 互联网新闻-新浪科技: 凤凰新媒体CFO刘千里辞职 COO李亚出任临时CFO
- Confirm your unsubscription from 'ScienceDaily: La...
- 焦点新闻-新浪科技: 搜狐第一季净利2300万美元 同比增长14%
- 焦点新闻-新浪科技: 研究称2012年移动IM信息发送量首超短信
- 焦点新闻-新浪科技: Android智能手机第一季度全球市场份额达64%
- 互联网新闻-新浪科技: 搜狐第一季净利2300万美元 同比增长14%
- 互联网新闻-新浪科技: 谷歌回应谷歌眼镜遭越狱:我们故意的
- 科技要闻-新浪科技: iMessage成垃圾短信“重灾区”
- 焦点新闻-新浪科技: iMessage成垃圾短信“重灾区”
- 焦点新闻-新浪科技: 谷歌回应谷歌眼镜遭越狱:我们故意的
- 焦点新闻-新浪科技: 谷歌收购摩托得不偿失:专利价值远低预期
- 互联网新闻-新浪科技: 小米MIUI应用商店下架360安全卫士
- 网易科技频道IT业界新闻: 科技投资者谈谷歌眼镜:潜力巨大的应用平台
- 焦点新闻-新浪科技: 每日卫星看地球:英国塞特福德森林(图)
- 焦点新闻-新浪科技: 小米MIUI应用商店下架360安全卫士
- 互联网新闻-新浪科技: 施密特:50亿互联网潜在用户将加速创新
- 科技要闻-新浪科技: 施密特:50亿互联网潜在用户将加速创新
- 焦点新闻-新浪科技: 苹果公司WWDC大会或推重磅软件产品
- 焦点新闻-新浪科技: 施密特:50亿互联网潜在用户将加速创新
- 焦点新闻-新浪科技: 微软高管称将调整必应和Xbox等品牌标志
- 焦点新闻-新浪科技: 从LinkedIn看大数据挖掘应重视的四个变量
- 焦点新闻-新浪科技: 视网膜版iPad mini 2或推迟到10月后量产
- 科技要闻-新浪科技: 从LinkedIn看大数据挖掘应重视的四个变量
- Solidot: 转基因植物能产生自然光
- 互联网新闻-新浪科技: 从LinkedIn看大数据挖掘应重视的四个变量
- 网易科技频道IT业界新闻: 苹果下一个重大新产品不是硬件而是一款软件
- 焦点新闻-新浪科技: 美警方钓鱼执法打击iPhone盗窃引激烈争议
- 互联网新闻-新浪科技: 谷歌6月6日关闭Meebo Bar:专注Google+
- 网易科技频道IT业界新闻: 调查称美国有意购买三星智能机消费者显著增长
- 网易科技频道IT业界新闻: 评论:谷歌为何收购摩托罗拉?
- ScienceDaily: Latest Science News: Residents conce...
- ScienceDaily: Latest Science News: Clarifying the ...
- ScienceDaily: Latest Science News: How does pregna...
- 网易科技频道要闻: 新闻回顾:国内最大盗版门户被封 谷歌眼镜一览
- 科技要闻-新浪科技: 上海整治出租车视频广告 拆除数千屏幕
-
▼
四月
(1442)
没有评论:
发表评论