201804-11 常用的几种大数据架构剖析 数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:可以看到在BI系统里... 继续阅读 >
201801-23 CAP 理论与分布式系统设计 CAP和分布式系统的讨论和研究很多,但我认为这一篇肯定给大家带来不一样的收获,欢迎留言讨论。AuthorTaosheng ShiWeChat Contactdata-lakeMailContacttshshi@126.comOrganizationNOKIADocument categoryDistributed System... 继续阅读 >
201801-02 分布式事务的总结与思考 思来想去,个人觉得要理解「分布式事务」,必须先知道什么是“事务(Transaction)”。当然,这里提到的“事务”是在事务型数据库(TransactionalDatabase)知识领域内的。一个事务包含了若干个数据库操作,这些操作通常都会对数据库产生变化。值得一提的是,多个事务之间是互不影响,独立运行的,事务里的各个操作最终都得以持久化。事务一个很重要的特性是:"all-or-nothing"。通俗来讲,事务是对数据的... 继续阅读 >
201712-25 如何做到单机毫秒完成上亿规模大数据常规统计 虽然现在最火的是AI,但是大数据和计算能力仍然是机器学习/AI算法的重要支撑,我们的业务场景大部分是通过手机终端、服务器日志不断产生日志数据,通过消息通道发送到大数据平台进行存储、加工和统计,然后在统计数据之上提供算法挖掘用户偏好行为和画像,为此,我们的关键任务是需要从海量数据里统计分析每项产品的去重用户、新增用户、pv、uv、dau(日活)、mau(月活)等指标,这个过程存储占用越少,计算时间越快越好。Fourinon... 继续阅读 >
201711-08 关于云存储系统的六大技术分析 随着监控领域的飞速发展,新技术的诞生也是接踵而至,云存储是人们最为乐道的高新技术产品。它具有如下几大主要的技术。云存储系统具有如下特点:数据安全,超强的可扩展性,按照使用收费,可跨不同应用,自动切换故障,易于管理等。云存储主要应用于备份、归档、分配和共享协作等四大领域。云存储是在云计算概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不... 继续阅读 >
201710-13 五分钟了解你不得不知道的人工智能热门词汇 编者按:大数据和人工智能的浪潮正在席卷全球,众多热门词汇蜂拥而至:人工智能(ArtificialIntelligence)、大数据(BigData)、云计算(CloudComputing)、机器学习(MachineLearning)、数据挖掘(DataMining)、深度学习(DeepLearning)、强化学习(ReinforcementLearning)和数据库(Databases)。不少人对这些高频词汇的含义及其背后的关系总是似懂非懂、一知半解。为了帮助大家更好地理解人工智能,我们邀请... 继续阅读 >
201708-09 云端的SRE发展与实践 背景SRE(SiteReliabilityEngineering)是Google于2003年提出的概念,将软件研发引入运维工作。现在渐渐已经成为各大互联网公司技术团队的标配。美团点评作为综合性多业务的互联网+生活服务平台,覆盖“吃住行游购娱”各个领域,SRE就会面临一些特殊的挑战。业务量的飞速增长,机器数量剧增,导致人工维护成本增大;而交易额的增长,对SLA的要求也不断提高。与此同时,一些新业务会面临大流量冲击,资源调度... 继续阅读 >
201707-28 9个最佳的大数据处理编程语言 大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。那么,在巨大的数据集中进行筛选的最好工具是什么?通过和数据骇客的交流,我们知道了他们用于硬核数据分析最喜欢的语言和工具包。R语言在这些语言名单中,如果R语言排第二,那就没其他能排第... 继续阅读 >
201701-03 秒杀抢购思路以及高并发下数据安全 我们通常衡量一个Web系统的吞吐率的指标是QPS(QueryPerSecond,每秒处理请求数),解决每秒数万次的高并发场景,这个指标非常关键。举个例子,我们假设处理一个业务请求平均响应时间为100ms,同时,系统内有20台Apache的Web服务器,配置MaxClients为500个(表示Apache的最大连接数目)。那么,我们的Web系统的理论峰值QPS为(理想化的计算方式):20*500/0.1=100000(10万QPS)咦?我们的系统似乎很强大,1秒... 继续阅读 >