量化金融就是通过发现一些过去数据中的模式来找到一些可以盈利的交易策略。
1、量化金融学主要是涉及量化投资的一门新兴金融学科。量化投资是以金融衍生品和工具为基础的,对于数据和信息要求很高,是一个智慧型、智力型、智商型为主导的产业。
2、金融一般指与货币流通和银行信用有关的一切活动。如货币发行、流通、回笼,信用活动的存款、取款、发放贷款和收回贷款,国内外汇兑往来等,都属于金融范围。金融也是对现有资源进行重新整合之后,实现价值和利润的等效流通。
3、拓展资料:量化投资是指通过数量化方式及计算机程序化发出买卖指令,以获取稳定收益为目的的交易方式。其投资业绩稳定,市场规模和份额不断扩大、得到了越来越多投资者认可。
来源:俊俊讲金融
大数据金融是指集合海量非结构化数据,通过对其进行实时分析,可以为互联网金融机构提供客户全方位信息,通过分析和挖掘客户的交易和消费信息掌握客户的消费习惯,并准确预测客户行为,使金融机构和金融服务平台在营销和风控方面有的放矢。
基于大数据的金融服务平台主要指拥有海量数据的电子商务企业开展的金融服务。大数据的关键是从大量数据中快速获取有用信息的能力,或者是从大数据资产中快速变现的能力,因此,大数据的信息处理往往以云计算为基础。目前,大数据服务平台的运营模式可以分为以阿里小额信贷为代表的平台模式和京东、苏宁为代表的供应链金融模式。大数据的4V特点: Volume (大量)、 Velocity (高速)、 Variety (多样)、 Veracity (精确)。
大数据金融模式广泛应用于电商平台,以对平台用户和供应商进行贷款融资,从中获得贷款利息以及流畅的供应链所带来的企业收益。随着大数据金融的完善,企业将更加注重用户个人的体验,进行个性化金融产品的设计。未来,大数据金融企业之间的竞争将存在于对数据的采集范围、数据真伪性的鉴别以及数据分析和个性化服务等方面。
量化投资,很多朋友甚至都不知道什么是量化投资,量化投资其实简单来讲就两个要素,量化投资就是有别于主观,投资这种事,他阶投或是短线的这种投机情绪博弈,算主观型的这种交易的交易风格,那量化投资是完全没有主观的完全客观的,依靠计算机和依靠这个数学模型,去构建一套投资策略,这叫量化投资。
量化投资在国内也发展的也有很多年了,最近是最火的,首先今年他的整个量化投资的规模突破一个亿,其次现在量化投资在每天的交易占比基本能达到接近20%。
但有的人说是50%,这个是不靠谱的数据,基本上是在16%-20%之间,这是量化投资,量化投资的特点就是他没有个人的任何情绪的因素,完全依靠客观的这种计算机的出来的数据进行交易策略,而且他可以实现自动化交易,这也是很可怕的一个事情。
来源:高度看财商
随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。
从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里,我们会讨论哪些与大数据存储基础设施相关的属性,看看它们如何迎接大数据的挑战。
容量问题
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外,内部还具备数据处理能力以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-out架构可以实现无缝平滑的扩展,避免存储孤岛。
“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。
延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。
有很多“大数据”应用环境需要较高的IOPS性能(IOPS (Input/Output Operations Per Second),即每秒进行读写(I/O)操作的次数,多用于数据库等场合,衡量随机访问的性能),比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。
并发访问一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。
安全问题
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
成本问题
“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。
很多大数据存储系统都包括归档组件,尤其对那些需要分析历史数据或需要长期保存数据的机构来说,归档设备必不可少。从单位容量存储成本的角度看,磁带仍然是最经济的存储介质,事实上,在许多企业中,使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。
对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。
数据的积累
许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
应用感知
最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。
小用户怎么办?
依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。
近两年,A股市场结构性行情突出,且风格轮动加快。在此背景下,选股范围更为广泛的量化策略受到市场追捧。与此同时,去年A股跌宕起伏,市场波动较大,在贝塔收益有限的市场环境里,以绝对收益为目标的“固收+”产品也成为投资者重点关注的对象。
近日,东方基金量化投资部副总经理盛泽为投资者详解了量化手段与“固收+”产品相结合后形成的优势。他表示,“固收+”产品尤其适合与量化策略相结合。
“量化‘固收+’的核心,在于通过自上而下的‘量化大类资产配置’和自下而上的‘量化选股增强’的双轨制投资框架,力争达到目标收益率。同时,配合风险预算模型和底层股票风险模型的双控机制来控制组合的整体波动率,力争达到控制最大回撤的目的。”盛泽认为,两层风险控制是量化策略最为核心的内容,量化投资都以控制风险为前提,努力为投资者带来长期收益。
双重风险控制
“‘固收+’产品尤其适合普通个人投资者长期持有。”盛泽表示,“固收+”产品的股债配比由基金经理在基金合同的约定范围内,根据自身专业能力进行平衡,投资者无需为择时或挑选资产耗费心力。如何配置、如何配比,都可以交给专业基金经理来选择。这其中,基金经理可以通过风险预算模型,结合债券资产和股票资产的历史波动率,以及波动率背后隐含的风险进行大类资产配置,给予不同的产品一定的风险预算额度,力争达到目标收益率。
至于“固收+”的“+”这一端,基金经理通过量化多因子模型优选个股,同时借助风险模型,严控组合风险暴露,最大限度控制“固收+”策略中底仓部分的风险敞口。
盛泽表示,采用量化手段能有效排除基金经理情绪因素对资产配置的影响,基金经理不是仅做主观的选择,而是把资产配置交给风险预算模型来执行。
另外,根据量化选股策略具有科学性、纪律性的特点,持股一般相对比较分散,从而降低了个股事件性风险,同时在行业分布上也相对比较均衡,不会过于集中于某个行业,防止风格过于极端带来的巨大回撤。“风格化比较极致的产品,越有可能出现较大的波动。高收益往往伴随着高风险,从长期理财角度来看,必须兼顾收益与风险。”盛泽说。
“风险端的双重控制也是量化‘固收+’的特色之一。在顶层资产配置上可以借助风险预算模型,灵活调整股债投资比例,起到稳定组合整体波动性的目的。在‘+’这一端,也有针对权益资产的风险模型来控制底层股票组合的风格暴露。”盛泽认为,两层风险控制是量化策略最为核心的内容,量化投资手段都以控制风险为前提,目的在于为投资者带来长线收益。
震荡市优选“固收+”产品
“采用量化手段的‘固收+’产品在牛市中显然无法跑赢风险偏好更高的基金,但在震荡市中,风险偏好的提升较难带来更高的预期收益。因此,量化策略相对来说偏均衡中性,体现在净值曲线上也相对平稳。恰恰因为具有这样的特征,采用量化手段的‘固收+’产品能使投资者获得更好的长期持有体验。”盛泽称。
在盛泽看来,“固收+”的风险等级大致介于股票型基金与纯债型基金之间。
盛泽认为:“未来A股市场出现单边行情的可能性较小,而震荡的概率相对较大。在此背景下,能平衡收益与风险的‘固收+’产品会受到投资者的更多关注。”
盛泽最后建议投资者保持长期投资的习惯,对目前的理财组合按风险等级进行分类,弹性较大、波动率较高的产品可以适当配置一些,但不要把所有的鸡蛋都放在一个篮子里,做好风险分散与防范。
来源:同花顺财经
大数据的常见误解主要体现在两个方面,第一个是数据不等于信息,第二个是信息不等于智慧。如何理解这两点呢?
一、数据不等于信息
经常有人把数据和信息当作同义词来用。其实不然,数据指的是一个原始的数据点(无论是通过数字,文字,图片还是视频等等),信息则直接与内容挂钩,需要有资讯性(informative)。数据越多,不一定就能代表信息越多,更不能代表信息就会成比例增多。有两个简单的例子:
备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好多解释的,每次备份都会创造出一组新的数据,但信息并没有增多。
多个社交网站上的信息。我们当中的很多人在多个社交网站上活跃,随着我们上的社交网站越多,我们获得的数据就会成比例的增多,我们获得的信息虽然也会增多,但却不会成比例的增多。不单单因为我们会互相转发好友的微博(或者其他社交网站上的内容),更因为很多内容会十分类似,有些微博虽然具体文字不同,但表达的内容十分相似。
二、信息不等于智慧(Insight)
现在我们去除了数据中所有重复的部分,也整合了内容类似的数据,现在我们剩下的全是信息了,这对我们就一定有用吗?不一定,信息要能转化成智慧,至少要满足一下三个标准:
可破译性。这可能是个大数据时代特有的问题,越来越多的企业每天都会生产出大量的数据,却还没想好怎么用,因此,他们就将这些数据暂时非结构化(unstructured)的存储起来。这些非结构化的数据却不一定可破译。比如说,你记录了某客户在你网站上三次翻页的时间间隔:3秒,2秒,17秒,却忘记标注这三个时间到底代表了什么,这些数据是信息(非重复性),却不可破译,因此不可能成为智慧。
关联性。无关的信息,至多只是噪音。
新颖性。这里的新颖性很多时候无法仅仅根据我们手上的数据和信息进行判断。举个例子,某电子商务公司通过一组数据/信息,分析出了客户愿意为当天送货的产品多支付10块钱,然后又通过另一组完全独立的数据/信息得到了同样的内容,这样的情况下,后者就不具备新颖性。不幸的是,很多时候,我们只有在处理了大量的数据和信息以后,才能判断它们的新颖性。
大数据的处理分为采集、导入或者预处理、统计或者分析、挖掘四个方面的处理。
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4. 大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。
上文就是对大数据的处理的简单说明,对这类文章感兴趣的朋友可以关注小编。
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
刚刚过去的2021年一年,在A股市场的结构化行情中,量化私募以优异的业绩表现获得市场关注。私募排排网数据显示,百亿量化私募在2021年的收益全部为正,平均收益达19.32%。
然而,2022年A股市场遭遇“开门黑”,市场剧烈震荡,部分公募、私募基金产品的业绩遭遇大幅回调,其中不乏一些百亿级量化私募。
投资者们关注的神秘面纱下的量化投资究竟是怎样的?量化策略的超额收益从何而来?2022年结构化行情下,量化策略将如何表现?量化投资是否会成为主流趋势?公私募量化投资又有哪些异同?
就上述问题采访嘉实基金的基金经理刘斌,从公募量化基金经理的视角做出解答。博士毕业后,刘斌就扎根到量化投资中,是行业内最早一批的量化分析师之一。2009年,刘斌正式成为基金经理,先后管理过多只量化基金,现为嘉实增强风格投资总监,以及嘉实沪深300指数研究增强、嘉实量化精选股票等四只基金的基金经理。
在刘斌看来,随着A股市场机构化占比的不断提高,想要靠一套量化固有方法从市场上赚永恒钱的做法已经走不通了,必须充分地与基本面做结合,回到投资的本源思考问题。同时,与主动权益类基金经理不同,量化基金经理的出发点是追求胜率。在当前阶段下,量化基金经理可能会面对超额收益与绝对收益的博弈。从公私募量化的角度来看,两者境遇相似,但存在方法及框架的差异,双方正在不同的道路上进行探索。
对话:
量化投资在中国市场经历了怎样的变化?当前的市场环境如何?
刘斌:2016年以前的中国市场为“散户主导的市场”,重在做交易。因为其本质是不断以中国散户占比高的制度优势或市场特征来获取收益。事实上,很多股票收益并非由公司基本面所贡献,而是来自交易行为的博弈。
然而,2016年后,中国市场发生了几个重要变化,最主要的变化就是机构化。
2016年至2020年,机构化占比迅速上升,市场由70%-80%的散户占比发展至不到50%的散户占比。在这个变化过程中,各路资金都有了大规模的扩张:其一是海外资金通过陆股通的方式流入整个市场;其二,公募基金的大发展;其三,私募量化基金的大发展。这三个代表性机构的力量大发展,使得散户占比下降,同时,在机构化过程中,白马股等优质股票通过不断持续的资金流入实现上涨。
2021年往后为机构博弈时代,进一步来看,当机构投资占比提升到一定幅度时,整个市场的有效性会变得很高,这使得简单的套利型收益或短期趋势型的方式很难实现赚钱收益。尤其是在公私募基金量化交易规模如此大的体量以及海外资金涌入的情况下,上述收益模式可能会被抹平,未来将不复存在。
赚钱收益模式被抹平的原因是什么?
刘斌:这恰恰是因为参与者的结构发生了变化,不同参与者有不同的偏好及定价逻辑,因此,想要靠一套量化固有方法从市场上赚永恒钱的做法是已经走不通了。因此要充分地与基本面做结合,回到投资的本源思考问题,而非依靠历史回溯来预测未来。更多的还是要穿透底层,看其运行逻辑。
同时,长期来看,伴随着部分股票的估值回归、价值回归,其价格将会向基本面靠近。所以本身要对市场波动就有着密切的观察和深刻的认识,这样的经验和积累有助于我们在基金合同允许的范围之内,采取积极的办法来控制组合的回撤,提高产品的绝对收益特征。
当前的市场环境下,量化投资会面临怎样的挑战?
刘斌:与主动权益类基金经理不同,量化基金经理的出发点是追求胜率。因此,现阶段量化基金经理可能会面对超额收益与绝对收益的博弈。
其一,量化基金经理希望获得长期的超额收益,能够长期稳定地战胜某个基准。但事实上,每年能够战胜沪深300指数的基金比较少。在此情况下,短期的超额收益可能容易做,而长期稳定的超额收益很难做。
其二,绝对收益难做。只要量化基金经理拥有正确的估值方法,且能够客观地看待它,长期来看,做绝对收益的难度并不大,然而难度在于短期的绝对收益。
公、私募量化面临的问题一致么?
刘斌:其实,公募量化与私募量化之间的方法及框架存在差异。尽管双方的目的和境遇相同,都在不同的领域下做量化,但各方对于股票的理解不同。目前,私募量化会选择走高频交易、系统量化的道路,可能会忽视个股的基本面。公募量化所走的路线则是将量化策略与基本面做深度融合,每家公司都在做自己的探索。
来源:经济观察网
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘(data mining)则是在探讨用以解析大数据的方法。
大数据的作用主要有下面几点:
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
您还未绑定手机号
请绑定手机号码,进行实名认证。
请输入手机号码,您的个人信息严格保密,请放心
请输入右侧图形验证码
请输入接收的短信验证码
互联网跟帖评论服务管理规定
第一条 为规范互联网跟帖评论服务,维护国家安全和公共利益,保护公民、法人和其他组织的合法权益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。
第二条 在中华人民共和国境内提供跟帖评论服务,应当遵守本规定。
本规定所称跟帖评论服务,是指互联网站、应用程序、互动传播平台以及其他具有新闻舆论属性和社会动员功能的传播平台,以发帖、回复、留言、“弹幕”等方式,为用户提供发表文字、符号、表情、图片、音视频等信息的服务。
第三条 国家互联网信息办公室负责全国跟帖评论服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域的跟帖评论服务的监督管理执法工作。
各级互联网信息办公室应当建立健全日常检查和定期检查相结合的监督管理制度,依法规范各类传播平台的跟帖评论服务行为。
第四条 跟帖评论服务提供者提供互联网新闻信息服务相关的跟帖评论新产品、新应用、新功能的,应当报国家或者省、自治区、直辖市互联网信息办公室进行安全评估。
第五条 跟帖评论服务提供者应当严格落实主体责任,依法履行以下义务:
(一)按照“后台实名、前台自愿”原则,对注册用户进行真实身份信息认证,不得向未认证真实身份信息的用户提供跟帖评论服务。
(二)建立健全用户信息保护制度,收集、使用用户个人信息应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。
(三)对新闻信息提供跟帖评论服务的,应当建立先审后发制度。
(四)提供“弹幕”方式跟帖评论服务的,应当在同一平台和页面同时提供与之对应的静态版信息内容。
(五)建立健全跟帖评论审核管理、实时巡查、应急处置等信息安全管理制度,及时发现和处置违法信息,并向有关主管部门报告。
(六)开发跟帖评论信息安全保护和管理技术,创新跟帖评论管理方式,研发使用反垃圾信息管理系统,提升垃圾信息处置能力;及时发现跟帖评论服务存在的安全缺陷、漏洞等风险,采取补救措施,并向有关主管部门报告。
(七)配备与服务规模相适应的审核编辑队伍,提高审核编辑人员专业素养。
(八)配合有关主管部门依法开展监督检查工作,提供必要的技术、资料和数据支持。
第六条 跟帖评论服务提供者应当与注册用户签订服务协议,明确跟帖评论的服务与管理细则,履行互联网相关法律法规告知义务,有针对性地开展文明上网教育。跟帖评论服务使用者应当严格自律,承诺遵守法律法规、尊重公序良俗,不得发布法律法规和国家有关规定禁止的信息内容。
第七条 跟帖评论服务提供者及其从业人员不得为谋取不正当利益或基于错误价值取向,采取有选择地删除、推荐跟帖评论等方式干预舆论。跟帖评论服务提供者和用户不得利用软件、雇佣商业机构及人员等方式散布信息,干扰跟帖评论正常秩序,误导公众舆论
第八条 跟帖评论服务提供者对发布违反法律法规和国家有关规定的信息内容的,应当及时采取警示、拒绝发布、删除信息、限制功能、暂停更新直至关闭账号等措施,并保存相关记录。
第九条 跟帖评论服务提供者应当建立用户分级管理制度,对用户的跟帖评论行为开展信用评估,根据信用等级确定服务范围及功能,对严重失信的用户应列入黑名单,停止对列入黑名单的用户提供服务,并禁止其通过重新注册等方式使用跟帖评论服务。国家和省、自治区、直辖市互联网信息办公室应当建立跟帖评论服务提供者的信用档案和失信黑名单管理制度,并定期对跟帖评论服务提供者进行信用评估。
第十条 跟帖评论服务提供者应当建立健全违法信息公众投诉举报制度,设置便捷投诉举报入口,及时受理和处置公众投诉举报。国家和地方互联网信息办公室依据职责,对举报受理落实情况进行监督检查。
第十一条 跟帖评论服务提供者信息安全管理责任落实不到位,存在较大安全风险或者发生安全事件的,国家和省、自治区、直辖市互联网信息办公室应当及时约谈;跟帖管理服务提供者应当按照要求采取措施,进行整改,消除隐患。
第十二条 互联网跟帖评论服务提供者违反本规定的,由有关部门依照相关法律法规处理。
第十三条 本规定自2017年10月1日起施行。
请前往个人中心进行实名认证
立即前往