什么是海洋大数据

发布者:陶晓玲发布时间:2019-07-14

引言

信息技术的快速发展, 带动海洋数据快速积累, 海洋已经进入大数据时代。海洋大数据即是在当前大数据时代背景下, 大数据技术在海洋领域的科学实践, 具有大体量 (Volume) 、多样性 (Variety) 、快速流转 (Velocity) 和高价值 (Value) 的“4V”特征, 是在大数据的理论指导和技术支撑下的价值实现, 也是实施海洋强国战略、开发海洋资源、拉动海洋经济、维护国家海洋权益的重要基础。

什么是海洋大数据?

随着互联网、物联网等信息技术的快速发展, 文字、图片、音频、视频等各类半结构化、非结构化的数据大量涌现, 数据种类、规模、存储量飞速增长, 全球已迎来“大数据”时代 (郭华东等, 2014) 。据2014年4月国际数据公司 (International Data Corporation, IDC) 发布的第7份数字宇宙研究报告, 数据量将以超每两年翻一番的速度增长, 到2020年将增长到44 ZB (Turner, 2014) 。IDC在2011年的报告中将大数据技术描述为一个技术和体系的新时代, 通过快速捕获、发现和分析技术, 从大规模、多样化的数据中经济有效地提取数据价值 (Gantz et al, 2011) 。因此, 大数据并不仅仅是指海量数据, 更是指半结构化、非结构化的、数据量之大以至无法在一定时间内用传统方法进行获取、管理和处理的数据集合。Andrea等 (2016) 通过整合大数据重要特征, 将大数据定义为具有大体量 (Volume) 、多样性 (Variety) 、快速流转 (Velocity) 等特征、需运用特定技术和分析方法将其转化为价值 (Value) 的一种信息资产, 该定义囊括了大数据的“4V”特征。

对于约占地表总面积的70%的海洋来说, 已进入大数据时代。目前已具有近海测绘、海岛监视、水下探测、海洋渔业作业、海洋浮标监测、海洋科考、油气平台环境监测、卫星遥感监测等多种海洋观测和调查手段, 形成非常庞大的海洋观测监测体系, 积累了海量的海洋自然科学数据, 包括现场观测监测资料、海洋遥感数据、数值模式数据等。近年来, 海洋观测设备正经历革命性变化, 以卫星遥感数据为代表的海洋数据规模呈爆炸式增长, 海洋数据量增长速度快于其他行业数据增长 (黄冬梅等, 2016) 。网络信息化的高速发展, 也促进了海洋经济、海洋管理、海洋文化、海洋战略等海洋社会科学类数据的快速积累。海洋大数据作为科学大数据的重要组成部分, 也正在从单一的自然科学向自然与社会科学的充分融合方向过渡 (郭华东等, 2014) 。因此可以定义, 海洋大数据是大数据技术在海洋领域的科学实践, 具有海量 (Volume) 、多样 (Variety) 、快速流转 (Velocity) 和高价值 (Value) 的“4V”特征, 是在大数据的理论指导和技术支撑下的价值实现。

  

海洋大数据内涵

依数据类型划分, 可将海洋大数据分为两大类:海洋自然科学类大数据和海洋社会科学类大数据。

(一)海洋自然科学类大数据

海洋自然科学类数据主要是指对海洋自然环境进行观测或模拟而得到的数据, 包含了海洋的水质和生态环境信息 (如叶绿素浓度、悬浮泥沙含量、有色可溶有机物等) 、海洋动力环境信息 (海水温度、海面风场、海面高度、海浪、海流、海洋重力场等) 、以及海洋生物、海洋化学、海底地质、沉积物、水下地形、海冰、海水污染等其他海洋环境信息。海洋自然科学数据的获取手段主要包括实际观测、海洋遥感观测和海洋数值模拟。因此, 可将海洋自然科学类大数据分为海洋实测数据、海洋遥感数据和海洋模式数据。

海洋实测数据

海洋实测调查包括船基观测、定点观测和移动观测等。

船基观测的数据采集主要包括海洋气象 (风场、温度、湿度、气压、太阳辐射) 、物理海洋 (温度、盐度、海流、水位) 、海洋物理 (声、光、电) 、海洋化学 (海水营养盐、溶解氧、二氧化碳) 、海洋生物 (叶绿素、生物量) 、海底地貌、地质和地球物理等, 为海洋资源开发利用、海洋工程技术、海洋环境保护和海上作战、训练、装备研制等提供海洋参数。

海洋环境观测定点平台包括岸基雷达站、岸基海洋观测站 (点) 、河口水文站、海洋气象站、验潮站等, 以及离岸的锚系浮标、潜标、海床基和海底观测网等。雷达观测仪器包括高频地波雷达、X波段测波雷达、C波段或S波段多普勒测波雷达, 主要观测海浪和海表面流场等参数。海洋站是建设在海滨或岛礁固定的海洋环境观测设施, 提供沿海的波浪、潮汐、水温、盐度、风速、风向、气温、相对湿度、气压和降水等水文气象观测数据。海洋浮标是以锚定在海上的观测浮标为主体组成的海洋水文气象自动观测站, 其水上部分为气象要素传感器 (风速、风向、气压、气温、空气湿度等) , 水下部分为水文要素传感器 (水温、盐度、波浪、海流、潮位等) 。海洋潜标系统的主浮体位于水面以下, 主要用于海流和温度、盐度等参数的定点、长时序、剖面测量, 还可配置生物捕集器等开展海洋生态环境观测。海床基是一种坐落在海底对水下环境进行定点、长期、连续观测的海洋技术, 可以测到整个水层里没有接触到的信息。

海洋移动观测能够覆盖更大的区域, 具有更高的灵活性和很强的自主航行能力, 包括水面上或水下的移动观测平台, 如自治式水下潜器、无人遥控潜器、无人水面艇、拖曳式观测平台和载人潜水器。典型的有Argo (Array for Real-time Geostrophic Oceanography, 地转海洋学实时观测阵) 浮标, 可在海洋中自由漂移, 提供海面到水下2000 m水深之间的海水温度、盐度和深度资料, 跟踪其漂移轨迹, 可获取海水的移动速度和方向 (罗续业, 2015) 。

海洋遥感数据

目前, 海洋遥感数据包括卫星遥感数据和航空遥感数据, 其中航空遥感又可分为有人机航空遥感和无人机航空遥感 (徐京萍等, 2016) 。卫星遥感可针对大范围海域进行高频次动态监测, 是及时、连续获取海洋水色、海面温度、海面高度、海面风场、海浪、海流、盐度、海上目标、海岛、海岸带等要素信息的最有效观测手段。航空遥感具有速度快、机动灵活、空间分辨率高的特点, 适用于重点区域的高精度监测, 如近海海洋调查、海岸带制图、资源勘测、海洋动态监管、海洋突发情况应急响应、海洋资源环境监测等。

按照观测的海洋要素和搭载的遥感载荷的不同, 海洋卫星主要分为海洋水色卫星、海洋动力环境卫星和海洋监视监测卫星3类 (林明森等, 2015) 。海洋水色卫星主要搭载光学遥感载荷, 如海洋水色扫描仪、海岸带成像仪、中分辨率光谱仪等, 用于观测海洋水色、水温、透明度、海冰、绿潮、赤潮、海岛海岸带等要素信息。海洋动力环境卫星主要用于全天时、全天候获取海面高度、有效波高、海面风场、海洋锋面、中尺度涡、海面温度、盐度等海洋动力环境信息, 遥感载荷主要包括微波散射计、雷达高度计、微波辐射计、盐度计等。海洋监视监测卫星用于全天时、全天候监视海上目标、溢油、海冰、海岛、海岸带等海洋要素, 并获取海洋浪场、风暴潮漫滩、内波等信息, 遥感载荷主要为多极化多模式合成孔径雷达。

日益增长的海洋研究水平和海洋应用能力对海洋遥感观测的精度提出了更高的要求, 随着海洋遥感平台、载荷技术、地面设备以及数据处理技术不断进步, 海洋遥感数据正在向更高精度与时空分辨率的方向发展。此外, 海洋遥感数据定量化应用的不断深入和个性化服务的不断完善, 也是未来海洋数据发展的重要方向。

海洋模式数据

海洋数值模拟是以现实海洋为基本物理背景, 以高性能计算机为载体, 按照物理规律, 建立数学模型, 从而对海洋状态 (包括海温、盐度、海流、海浪、潮汐等要素) 进行模拟, 参数化、定量化地描述海洋的具体状况。随着计算机计算能力的飞速提升, 海洋数值模拟近年来得到了极大的发展, 逐渐成为海洋大数据的重要来源。首先, 海洋数值模拟生成了大量的海洋数据, 在海洋总数据量中所占比例最大, 且生成速度最快 (Overpeck et al, 2011) , 成为海洋大数据的基础来源之一。其次, 海洋数值模拟将真实的连续的海洋进行了网格化与数字化, 数据具有结构性, 便于后处理、可视化以及各种海洋现象分析。再者, 与现场观测、卫星遥感得到的海洋数据相比, 海洋数值模拟数据具有空间上三维、时间上连续等优势, 可以做到“足不出户便知天下事”, 同时还可以进行海洋状况的预报。

尽管海洋数值模拟结果目前在趋势上逼近真实海洋, 但其准确性仍然需要不断的提高。充分利用卫星遥感、现场观测等数据与海洋数值模拟技术相结合, 对海洋数据同化模型, 进行有效的模型参数校准与模型结果验证, 生成再分析数据产品, 这是海洋数值模拟发展的重要方向, 也是进一步提高模型计算结果可靠性的必要途径。由于不同海洋机构所采用的海洋数值模拟技术具有多样性, 往往在同一区域会得到多种不同的数值模拟结果。因此需要根据卫星遥感与现场观测数据, 对不同的数值模拟结果进行识别与判断, 优选出最贴近真实海洋的数值模拟数据。目前国内外比较常用的数值模拟产品有POM (Princeton Ocean Model) 、FVCOM (An Unstructured Grid, Finite-Volume Coastal Ocean Model) 、HAMSOM (Hamburg Shelf Ocean Model) 、HYCOM (HYbrid Coordinate Ocean Mode) 、ROMS (Regional Ocean Model System) 、SODA (Simple O-cean Data Assimilation) 等 (郑沛楠等, 2008) 。

海洋再分析产品数据

再分析是利用资料同化技术, 将各种来源、各种类型的观测资料与数值预报产品进行融合和最优集成, 可以重建长期历史数据, 同时解决了观测资料时空分布不均的问题。再分析资料是现代气候变化研究中十分重要的数据源, 目前已在大气—海洋—陆地相互作用、气候监测和季节预报、气候变率和变化、全球水循环和能量平衡等诸多研究领域得到了广泛应用。然而, 海洋再分析数据包含了观测系统变更、数值模式和同化方案等所带来的误差, 如何减少和消除这些误差、提高再分析数据质量, 是目前再分析数据制作和应用所面临的主要问题之一 (赵天保等, 2010) 。

常用于海洋模式驱动场的海洋再分析数据包括海洋大气综合数据集ICOADS (International Comprehensive Ocean-Atmosphere Data Set) 资料、美国国家环境预报中心/美国国家大气研究中心 (NECP/NCAR) 资料、欧洲中期天气预报中心ECMWF (The European Centre for Medium-Range Weather Forecasts) 资料, 经同化方法计算得到的海洋模式再分析数据包括SODA海洋再分析数据集、OFES (Dataset of Ocean General Circulation Model for the Earth Simulator) 资料 (李晓婷等, 2010) 。

(二)海洋社会科学类大数据

海洋社会科学类大数据是相对于海洋自然科学类大数据而言, 目前在学术界、政府内并没有明确的范畴定义。依据现有海洋研究进展、海洋事业发展、海洋强国战略所涉内容, 以及高层海洋决策所涉因素而言, 大致可以分为海洋战略数据、海洋经济数据、海洋文化数据三大类。

海洋战略数据通常包含海洋政策信息、海洋法律信息、海洋战略舆情信息。基于海洋问题的全球属性, 这类信息的搜集与管理都应该具备全球视野, 尤其是在海洋战略舆情信息方面, 更应该注重监测和分析全球重点智库、重点媒体、重点政府涉海部门的相关涉华涉海舆情, 以便于对我海洋决策形成全面、综合的信息参考。

海洋经济数据主要指海洋渔业、海盐业、海洋交通运输业、海洋船舶工业、海洋油气业、滨海旅游业、海洋服务业等海洋产业相关信息, 包含从产业研究、产业政策、产业规划、产业运行、产业投资、产业金融的全链条数据信息, 以及重点产业园区、重点产业技术方面的数据信息。

海洋文化数据主要指海洋历史图文资料、海洋文化教育 (海洋意识培育) 等方面的数据信息。就数据管理而言, 前者相对成熟, 后者在大数据时代中的意义逐渐体现, 即国家海洋文化和个体海洋意识的培育, 对于未来中国海洋强国战略的实施至为重要, 在数据统计和数据分析领域也同样面临新的课题。

文章来源:本文节选自《海洋大数据:内涵、应用及平台建设》,原刊于《海洋通报》,2017年04期。

作者:侯雪燕,清华大学水利水电工程系,助理研究员;洪阳,清华大学水利水电工程系,教授;张建民,清华大学土木水利学院院长、中国工程院院士;邹亚荣 中国卫星海洋应用中心,研究员;石晓勇,国家海洋局海洋减灾中心教授;任力波,国观智库总裁兼清华国观海洋研究中心执行主任;程晓,北京师范大学全球变化与地球系统科学研究院院长;张彪,南京信息工程大学海洋科学学院教授;于华明,中国海洋大学海洋与大气学院副教授;郭振华,清华大学深圳研究生院,副研究员;崔要奎 清华大学深圳研究生院。