硕士开题报告怎么写硕士开题报告一般要写多少字

时间:2024-05-26 14:15:05 作者:小编 字数:7725字

本课题基于作者在学习和实习过程中了解到的两个事实,为自荐题目。

首先,笔者于2011年7月份在XXX公司调研,了解到各行业都面临着数据量的剧增,从而导致业务处理速度慢,数据维护困难等问题。为了应对这一挑战,很多企业开始实施大数据发展战略。当今的大数据发展战略可以概括为两大类。一是纵向扩展。

即使用存储容量更大、处理能力更强的设备。这种方法成本较高,过去很多大公司都是用这种方法处理大数据。但自从2004年Google发表了GFS、MapReduce、BigTable三篇技术论文后,云计算开始兴起,2006年Apache Hadoop项目启动。

而后从2009年开始,随着云计算和大数据的发展,Hadoop作为一种优秀的数据分析处理解决方案开始受到众多IT企业的关注。相较于垂直扩展的高成本,人们更愿意采用这种通过整合廉价的计算资源进行横向扩展的方式。因此,不少IT企业开始探索利用Hadoop框架搭建自己的大数据环境。

其次,在2013年4月份在XXX公司实习期间,笔者进一步了解到,由于关系型数据库在数据存储格式上的限制,以及其Schema机制导致的扩展性的不便,目前大多数大数据应用环境中都采用非结构化数据库,例如采用列存储的Hbase,采用文档存储的MangoDB,以及图数据库neo4j等。

这些非结构化数据库凭借其扩展性强、资源利用率高、并发性高、响应速度快等特点,在大数据应用环境中得到了广泛的应用。但这种应用仅仅解决了前端的业务处理,要真正利用大数据实现商业智能,还需要为决策支持系统、在线分析应用(如数据仓库)提供数据环境。为此,导师指导本文作者提出此课题,研究基于Hadoop框架的数据仓库解决方案。

2.研究目的及意义:

如今,数据已经渗透到每一个行业,成为重要的生产要素。近年来,由于历史的积累和数据的加速增长,各行各业都面临着大数据的问题。其实,大数据既是机遇,也是挑战。合理、充分利用大数据,将其转化为海量、高增长、多样化的信息资产,将使企业拥有更强的决策力、洞察发现力和流程优化能力。

因此,不少IT企业已将大数据作为重要发展战略,例如亚马逊、Facebook等均已布局大数据产业,并取得不俗成绩。其实,并非只有Google、eBay或亚马逊等大型互联网企业才需要发展大数据,任何规模的企业都有机会从大数据中获取优势,为未来的业务分析奠定基础,从而在与同行的竞争中获得显著优势。

相对于大企业,中小企业的大数据发展策略有所不同,大企业可以凭借雄厚的资金和技术实力,根据自身环境和业务,开发自己的软件平台,而中小企业则不具备这样的技术实力和巨大的资金投​​入,更倾向于选择通用且相对便宜的解决方案。

本文旨在分析大数据环境下数据库的特点,结合目前流行的Hadoop框架,提出并实现适合大数据环境的数据仓库解决方案,为中小企业在大数据环境下构建数据仓库提供参考。具体来说有以下三点意义:

首先,目前主流的数据库例如Oracle、SQL Server都有一套完整的与自身数据库平台对应的数据仓库解决方案,而对于其他关系型数据库例如MySQL,虽然没有与数据库平台对应的数据仓库解决方案,但是也有很多集成的数据仓库解决方案。

对于非结构化数据库,由于其数据模型与关系型数据库不同,需要新的解决方案,本文提出的基于Hive/Pentaho的数据仓库实现方案可以为它们提供参考。

其次,通过整合多源非结构化数据库,生成面向主题的、集成的数据仓库,可以为大数据平台上的在线事务处理、决策支持等提供数据环境,从而有效利用数据资源辅助管理决策。

再次,大数据是一个宽泛的概念,包括大数据存储、大数据计算、大数据分析等各个层面的技术细节。本文提出的“大数据环境下的数据仓库解决方案及实现”丰富了大数据应用技术的生态环境,为大数据环境下的数据分析、数据挖掘等提供了支撑。

硕士开题报告多少字_硕士开题报告_硕士开题报告一般要写多少字

3.简述国内外研究现状及发展趋势:

本文主要研究的主题是数据仓库,不同于传统的基于关系型数据库的数据仓库,本文主要研究大数据环境下基于非结构化数据库的数据仓库的构建与实现,因此需要从大数据环境下的数据仓库和数据库两个方面进行阐述。

1.国内外数据仓库研究现状:

自1990年Bill Inmon提出“数据仓库”的概念以来,数据仓库技术开始兴起,给社会带来了新的机遇,并逐渐成为一大技术热点。目前,美国有30%~40%的公司已经建设或正在建设数据仓库。如今,随着数据模型理论的完善、数据库技术、应用程序开发和挖掘技术的不断进步,数据仓库技术不断发展,并在实际应用中发挥着巨大的作用。

以数据仓库为基础、采用联机分析处理和数据挖掘工具的决策支持系统日趋成熟,同时,使用数据仓库带来的巨大效益刺激了数据仓库技术的需求,数据仓库市场发展迅速。

我国企业信息化起步较晚,数据仓库技术在国内的发展还处于积累经验的阶段,近年来,我国大中型企业逐渐意识到使用数据仓库技术的重要性,并开始建设自己的数据仓库系统,如中国移动、中国电信、中国联通、上交所、中国石油等。

但总体来看,我国数据仓库市场还有待进一步发展,数据仓库技术与国外相比还有较大差距。为此,不少我国科技工作者开始对数据仓库相关技术进行深入研究,并通过吸收、借鉴国外技术提出了符合国内需求的技术方案。

2.国内外非结构化数据库研究现状:

随着数据库技术深入应用到各个领域,结构化数据库逐渐显露出一些弊端。例如在生物、地理、气候等领域,研究面临的数据结构并非传统的关系型数据结构,若使用关系型数据库来存储和展现,必须强行由其原有的数据结构转换为关系型数据结构。

使用这种方式处理非结构化数据,无法对非关系型数据进行全生命周期的管理,数据之间的关系也无法充分表达。在这样的背景下,非结构化数据库应运而生。与关系型数据库相比,非结构化数据库字段长度不定,每个字段的记录可以由可重复或不可重复的子字段组成。

这样它不仅可以处理结构化数据,还可以处理文本、图像、声音、电影、超媒体等非结构化数据。近年来,随着大数据的兴起,非结构化数据库开始被广泛用于大数据处理中支持各种结构化数据。

目前非结构化数据库的种类很多,主要分为内存数据库、列存储数据库、文档数据库、图数据库等。按照其存储数据类型又分为内存数据库、列存储数据库、文档数据库、图数据库等。其中常见的内存数据库有SQLite、Redis、Altibase等;列存储数据库有Hbase、Bigtable等;文档数据库有MangoDB、CouchDB、RavenDB等;图数据库有Neo4j等。

近年来,我国的非结构化数据库也有了一定的发展,其中最有代表性的就是国信百世的iBASE数据库。可以预见在不久的将来,随着大数据的应用,非结构化数据库将会得到很大的发展和广泛的应用。