大型互联网企业的大数据现状和未来策略

大型互联网企业的大数据现状和未来策略

百度、阿里巴巴、腾讯的数据资产

从数据类型来看,腾讯的数据是最全面的,这与其互联网业务完全相关。 最突出的是社交数据和游戏数据。 其中:社交数据的核心是关系链数据、用户之间的交互数据以及用户产生的文本。 、图片和视频内容; 游戏数据主要包括大型网络游戏数据、页游数据和移动游戏数据。 游戏数据的核心是游戏的活跃行为数据和支付行为数据。 腾讯数据最大的特点是各种基于社交的用户行为和娱乐数据。 阿里巴巴最突出的特点是电商数据,特别是用户在淘宝、天猫上的商品浏览、搜索、点击、收藏、购买等数据。 其数据最大的特点是从浏览到支付的用户漏斗转化数据。 百度的数据主要基于用户搜索的关键词、爬虫抓取的网页、图片和视频数据。 百度数据的特点是通过搜索关键词更直接地反映用户的兴趣和需求。 百度的数据更多的是非结构化数据。 。

游戏开发巨头完美匹配_游戏开发巨头森罗万象匹配表_游戏开发巨头 匹配表

百度、阿里、腾讯数据应用场景

百度、阿里巴巴、腾讯的数据应用场景都有一个共同的系统。 系统分为七层,代表企业不同层面的数据价值应用场景,形成企业运营的数据价值金字塔:

游戏开发巨头 匹配表_游戏开发巨头完美匹配_游戏开发巨头森罗万象匹配表

(1)数据库平台层。 金字塔的最底层也是整个金字塔的基础层。 如果基础层建设不好,上面的应用层就很难在企业运营中发挥作用。 该层的技术目标是实现数据的有效存储、计算和质量管理; 业务目标是将企业的所有用户(客户)数据以唯一的ID串起来,包括用户(客户)画像(如性别、年龄等)、行为、兴趣爱好等,为了达到全面了解用户(客户)的目的;

(2)业务运行监控层。 该层的首要任务是构建业务运营的关键数据系统。 在此基础上,通过智能模型开发的数据产品可以监控关键数据的变化。 通过各种分析模型,可以快速定位数据变化的原因,辅助运营。 决策;

(3)用户/客户体验优化层。 该层主要使用数据来监控和优化用户/客户体验问题。 这既使用结构化数据来监控,又使用非结构化数据(例如文本)来监控体验问题。 前者更多的是通过各种用户(客户)体验监控模型或工具的应用来实现,而后者更多的是通过监控微博、论坛以及公司内部客户反馈系统的文字来发现负面口碑,并及时优化产品或服务;

(四)精细化运营营销层。 该层主要通过数据驱动精细化的业务运营和营销。 主要分为四个方面:一是构建基于用户的数据提取和运营工具,方便运营和营销人员通过人群定向来提取客户,从而为客户开展营销或运营活动; 第二,通过数据挖掘来提高客户对活动的响应; 三是通过数据挖掘进行客户生命周期管理; 第四,主要利用个性化推荐算法,根据用户的不同兴趣和需求推荐不同的商品或产品,以达到促销资源效率和效果最大化,例如淘宝商品的个性化推荐;

(五)数据对外服务和市场沟通水平。 数据外部服务一般服务于互联网公司的客户或用户。 例如,百度通过提供百度舆情、百度代言人、百度指数等来服务其广告主客户; 淘宝通过数据立方、淘宝智能、云产品服务客户; 腾讯通过腾讯分析和腾讯云分析为其开发者客户提供服务。 在市场传播层面,主要通过有趣的数据信息图和数据可视化产品(如淘宝指数、百度指数、百度春节迁徙图)来实现。

(6)运营分析层面。 分析师主要对大数据进行统计,形成体验分析周报、月报、季报等,分析用户运营情况和收入完成情况游戏开发巨头 匹配表,发现问题,优化业务策略。

(7)战略分析层面。 对此,既要结合内部大数据,形成决策者的数据视图,也要结合外部数据,特别是各种竞争情报监测数据和国外趋势研究数据,辅助决策者进行战略分析。

尽管百度、阿里巴巴和腾讯在企业运营的数据价值应用体系上具有共同特征,但由于企业业务模式和数据资产的不同,其整体大数据发展战略也存在显着差异。

百度大数据战略

百度大数据最重要的来源是通过爬虫收集了100多个国家近万亿的网页数据,数据量达到EB级别。 百度的数据非常多样化。 它收集的数据既包括非结构化或半结构化数据,包括网页数据、视频和图片,也包括结构化数据,如用户的点击行为数据、广告商的支付行为数据等。

百度大数据主要服务三类人群:一是网民,利用大数据和自然语言处理技术,让网民的搜索更加精准; 第二类是广告主,利用大数据让广告主的广告和搜索关键词更加精准。 匹配度较高,或者与网民正在查看的网页内容匹配度较高; 第三类是百度大数据引擎,也正在推广材质材料,重点服务于有一定数据规模的传统行业企业。

百度大数据引擎代表了互联网企业数据服务能力开放合作的趋势。 百度大数据引擎由以下三个方面组成:

游戏开发巨头森罗万象匹配表_游戏开发巨头完美匹配_游戏开发巨头 匹配表

开放云:百度大规模分布式计算和超大规模存储云。 开放云大数据开放基础设施和硬件能力。 过去游戏开发巨头 匹配表,百度云主要针对开发者,而大数据引擎开放云则针对有大数据存储和处理需求的“大开发者”。 据百度相关人员介绍,百度开放云还具有CPU利用率高、弹性大、成本低的特点。 百度是全球第一家大规模商用ARM服务器的公司。 ARM架构的特点是能耗低、存储密度高。 百度也是第一家将GPU(图形处理器)应用在机器学习领域的公司,实现了能力节约的目的。

数据工厂:数据工厂是百度组织海量数据的软件能力。 它具有与数据库软件类似的功能。 不同之处在于数据工厂用于处理 TB 甚至更大的数据。 百度数据工厂支持超大规模异构数据查询,支持类SQL及更复杂的查询语句,支持各种查询业务场景。 同时,百度数据工厂还将承载TB级大表的并发查询和扫描,对于大查询和低并发来说可以达到每秒数百GB。

百度大脑:百度大脑开放了百度之前在人工智能方面的能力,主要是大规模机器学习能力和深度学习能力。 它们此前已应用于语音、图像、文本识别以及自然语言和语义理解,并通过百度Inside等平台向智能硬件开放。 现在,这些能力将用于智能分析、学习、处理、利用大数据,并将其提供给外界。

百度将基础设施能力、软件系统能力、智能算法技术封装在一起。 通过大数据引擎开放后,有大数据的行业可以将数据接入该引擎进行处理。 从架构的角度来看,企业或组织也可以选择仅使用三套中的一套。 例如,数据必须存储在自己的云端,但必须使用百度大脑的一些智能算法,或者数据必须存储在百度云中并且自己编写的算法。

百度大数据引擎的作用

我们可以从两个方面详细来看一下百度大数据引擎的作用:

(1)对于政府机构:比如交通部门有车联网、物联网、路网监控、船舶互联网、终端站监控等大数据,如果将这些数据与百度的搜索记录结合起来,网络-宽数据、LBS数据,利用百度大数据引擎的大数据能力,可以实现智能路径规划和容量管理; 卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原监测数据。 如果与百度的搜索记录和全球网络数据相结合,可以进行流感预测和疫苗接种指导。

(2)对于企业而言:很多企业也拥有海量的大数据,但很多企业的大数据处理和挖掘能力相对较弱。 如果应用百度大数据引擎,就能可靠、低成本地存储海量数据,并进行智能处理。 价值挖掘由浅入深。 例如,在2014年4月的百度技术开放日上,平安介绍了如何利用百度的大数据能力来增强消费者的理解和预测,并细分客户群体制定个性化产品和营销方案。

阿里巴巴大数据战略

阿里巴巴大数据的总体发展方向是以激活生产力为目的的DT(data technology,数据技术驱动)数据时代的发展。 阿里巴巴未来的大数据将由“基于云计算的数据开放+大数据工具应用”组成:

(1)基于云计算的数据开放。 云计算可以让中小企业在阿里云上获得数据存储和数据处理服务,也可以构建自己的数据应用。 云计算是数据开放的基础。 云计算可以为全球数据开发人员提供数据工作平台。 阿里巴巴的分布式存储平台以及该平台上的算法工具可以让数据开发者更好的使用; 同时,阿里巴巴也需要对数据进行脱敏,让数据的业务定义和每个标签足够清晰,让全世界的数据开发者开始思考阿里巴巴平台上的数据,让数据能够被利用。政府、消费者和行业。 用过的。 阿里巴巴大数据打通后,线上线下数据可以串联起来。 每个人都是数据的提供者,也是数据的使用者。

(2)在大数据应用方面,马云针对整个数据应用确定了两条政策:

第一个政策:从IT到DT(数据技术),DT是点燃和激发整个数据的力量。 它被管理、社会、销售、制造和消费者信贷所使用。 正如之前分析的,阿里巴巴的数据资产主要是电商。 其中音乐,淘宝、天猫每天都会产生丰富多样的数据。 阿里巴巴积累了包括交易、金融、生活服务等在内的各类数据,这些数据可以帮助阿里巴巴进行数字化运营(如下图)。

游戏开发巨头 匹配表_游戏开发巨头完美匹配_游戏开发巨头森罗万象匹配表

文章来源:https://cloud.tencent.com/developer/article/1104942