关键字:大数据;云计算;农产品
1、结论
农业生产既是自然再生产也是经济再生产的特性,使得农业生产与市场流通匹配任务艰巨环节复杂。综合分析人口、资源、环境等各种制约因素,充分运用现代信息技术进行农业生产、流通、消费的信息采集和信息处理,使实现农业生产与市场流通时空匹配成为可能。
但农产品市场流通具有环节多、信息海量且凌乱分散等特点,使得快捷、及时、精准地捕捉到决策支持需求信息的难度加大,农业生产与市场流通不匹配的矛盾日益突出,农业生产与市场的非寻常波动呈突发、多发、并发趋势。特别是随着农业市场化步入快车道,使得提供农产品市场准确快捷信息服务越发显得重要。随着信息技术和互联网技术的日新月异,我国农业信息化获得的长足的发展同时也迎来大数据时代的挑战。互联网的发展使得农民可以通过web检索自己感兴趣的市场信息,但是目前的情况是web上的农业产销信息海量而且繁冗。所以在海量数据信息时代,农民很难获取自己真正所需的信息,这也引发了信息过载和信息爆炸问题。农业工作者获取其所需信息的方式通常是使用通用搜索引擎,但通用搜索引擎缺乏对用户个体的差异性的处理,针对同一查询信息对不同用户返回的结果通常都是相同的海量信息,用户不能逐页查看,一般只会查看前几页信息,这样很难得到自己真止所需信息,严重挫伤农民主动查询信息的积极性。当前面临的另一个问题是网上的信息浩如烟海,据估计,因特网上目前有数千万URL和上百亿页网页文件,而且网页文件数量每年增加一倍,因此大规模数据的存储和运算成为瓶颈问题。
云计算的出现作为崭新的商业计算模型吸引了大众的眼球。Hadoop便是便于开发和并行处理海量数据的云计算平台,其特征为扩展能力强,运行成本不高,处理和计算效率很高同时具有很好的可靠性。依托Hadoop高效的处理能力,可以真正做到实时准确地依照用户实际兴趣从大量的web信息中为其推荐所需信息,解决当前农业信息服务急需解决的问题。
本课题就是主要研究分析现有农业产销信息聚合及推荐系统,利用主题搜索引擎从互联网上采集信息构建农产品生产与市场空间数据仓库和数据集市,研究并提出更加适合农业领域的用户兴趣模型和组合推送算法,在云计算环境下,对现有的农业信息推荐系统进行改进,使其更加适合我国农业产销信息体系,为农业生产流通消费匹配管理决策提供支持。
2、农产品产销分析与研究
2.1 我国农产品产销对接模式
传统“一站式”模式
我国农产品流通起步晚,流通模式相较发达国家也比较落后,在我国呈现为多样化的特点。就我过农产品市场现状,可将产销对接模式细分为一站式”、“二站式”及“多站式”模式。
“一站式”指的是生产者和消费者不通过中间环节直接进行交易,即生通常所说的农产品供应方借助农产品市场或者通过直销的方式和消费者进行交易的方式。“一站式”模式在于农村的小城镇及大城市的郊区地带常见,其特点是流通环节较少,流通损耗不大,而交易成本和物流成本很大,形不成大规模效应,产品附加值太少。模式结构如图1所示。
“二站式”产销对接模式
这是一种伴随着农产品批发市场、大型超市、龙头企业的出现而衍生的模式,具体是生产者通过中间商或企业与消费者见面,将其所生产的农产品卖给消费者,这种模式一般得通过龙头企业或合作组织引导。其具体环节包括农民到零售商到消费者,农民,批发市场,消费者,农民,农产品加工企业和消费者。“农-超(超市)对接”、“农-批(批发市场)对接”模式是二站式流通模式的典型,其优点是由于流通环节不多因此损耗较少,易于大规模应用,效率较高。但不利于保障农民的切身利益,对农民的收入提高益处相对不大。模式结构如图2所示。
“多站式”产销对接模式及其弊端
“多站式”主要是在“二站式”基础上加入了批发和零售市场等多个流通环节。如图3中所示的模式最为常见。
这种模式通常的流程是农户的农产品卖给批发商,通过批发市场卖到零售市场再卖给消费者,在这个环节中批发市场起到了重要作用,该模式在我国大中城市应用普遍,占有很大的市场份额。但是其缺点在于环节比较多,流通路线长,经过多次装卸搬运和包装后产品损耗人,交易费用和流通成本很高,而且经历太多的中间商会瓜分农户的利益。
2.2 农产品产销对接技术研究
产销对接技术研究重点是电子商务相关的交易算法、交易系统与平台开发技术方面。产销对接方面的研究在国外的研究重点是促成成交效率、匹配技术的优化等。英国相关研究人员开发了基于近似匹配的推荐系统,该系统可以快速地对具有千万级别竞标的拍卖进行清算,出错几率微乎其微。系统开发方面,美国康奈尔大学开发了基于多重标准的交易撮合系统,系统可提供包括开放拍卖已经封闭多级拍卖服务,同时可以提供智能以供交易双方协商。国内各大高校以及中科院等科研院所目前从多个方面对交易撮合推荐系统开展研究,如交易协议层面、实现电子商务的综合平台、系统层面、物流供应一体化层面,已经有一些成果应用。其中北京邮电大学在网路集群以及多重代理方面以及高效交易模型构建和商务信息挖掘、多维数据分析等方面都取得了一定的成果。
我国在加入WTO后,农业领域产销脱节现象严重。据此,农业部采取四项措施促进产销衔接,保障农产品生产销售,通过网络、电视、报纸等多种方式发布信息,指导生产和流通。国家部委开发了农产品批发市场的信息监测系统,调动多家农业生产集体参加农业产销对接直销渠道,但是这项工作仍然缺乏技术支撑和有效的信息手段。
2.3 个性化推荐系统研究
随着互联网技术的日新月异,网络信息过载问题越发严重,推荐系统便是在这种背景下应运而生的智能Agent系统,其智能化的方面在于可以使用自定义的推荐算法来解析系统获取的信息,并根据目标用户的偏好,兴趣和习惯推送用户感兴趣的信息。用户为中心的服务,可以满足用户个性化的需求,可以动态调整推荐信息,为用户推荐其切实感兴趣的信息。
几十年代诞生的Tapestry采用协同过滤算法为用户推送邮件,是推荐系统的鼻祖。自那时以来,随着Internet技术的普及和发展,推荐系统已被广泛应用在电子商务领域。随后,ACM数据挖掘集团开发出一个web挖掘的推荐技术,受到各界的广泛关注。至二十一世纪初期NEC研究院搜索引擎中应用个性化技术,实现了个性化的搜索引擎技术(CiteSee),从那以后,推荐系统的发展步入一个新的发展轨道,关于该领域的研究也越来越多,同时也诞生了大量优秀的推荐系统。
近期,越来越多的优秀研究人员继续研究加入个性化推荐系统的研究浪潮中去,对中国的信息推荐系统的发展起到了积极的推动作用。如周涛等人提出了一种基于个性化推荐的网络架构方案,程序将用户/项目关系映射成为一个二维图表示应用程序之间的关系,通过对比试验证明此方案可以大大提高现有个性化推荐效果。同年,清华大学在个性化推荐系统的基础上,提出了混合智能多代理推荐系统,可以通过主动向用户提供不同类型的资源信息,学习用户的兴趣;随后复旦大学针对现有推荐系统存在的协同过滤算法稀疏性的缺点,改进的推荐算法的个性化信息,达到良好的效果。
目前推荐系统在农业领域的研究现状是有一定的研究基础,但是研究范围和深度还不够,庄景明、王明文、叶茂盛等人基于内容过滤构建了一个农业信息个性化推荐平台。从整体而言,该领域的研究范围还很窄研究深度不够,研究成果也捉襟见肘,成功的农业领域个性化推荐系统是少之又少。所以,根据用户的兴趣类型和信息需求,为农业工作者提供更为细致有效的农业产销推荐,关乎农业的可持续发展,对切实保护农民切身利益意义重大,因此,个性化农业产销信息匹配推荐服务对农业市场的繁荣发展意义非凡且迫在眉睫。
2.4云计算研究
分布式搜索引擎
传统的搜索引擎具有很多缺点,其中瓶颈问题是集中式结构,因此分布式搜索引擎应运而生。目前较为成熟的分布式搜索引擎有:
主题检索平台ROADS。该系统由多所大学联合开发,基于较易分布式信息检索协议 WHOIS++协议,该协议允许搜索引擎连接多台数据服务器和索引服务器,可为用户提供检索目录的跨平台检索服务。但该协议存在的缺点是没有提供丰富的查询功能,实现推荐的方式只能是修改用户端的应用程序,操作不便,推荐效果也不尽如人意,系统的可拓展性不理想。所以只是小规模的用于条件成熟的图书馆管理系统中。
美国的Issac项目。该项目的初衷是高校用于发现互联网上资源服务中。项目想链接分布在不同地方的metadata数据集,将这些数据集联系起来构建一个统一可用的数据及集合数据资源库,然后通过通过利用轻量级数据库检索服务实现分布式的检索服务。该项目开发的搜索引擎是分布式搜索引擎的鼻祖,同样,其存在诸多缺陷,如用户常常在查询信息是往往得不到相关性很大的信息 ,用户需要费很大精力分辨信息的相关性。
基于P2P的分布式SE。这种搜索引擎采用对等的全分布式网络结构,避免了使用单一CPU存在的不稳定性。从某种意义上真正实现了分布式的处理,因此节点的电脑配置和节点间的连接方式影响整个分布式搜索引擎的性能。基于的分布式搜索引擎可拓展性非常好,因为其各个节点采用自组织方式相互通信,但是其缺陷是很难协调好各个节点间的信息通信。
上述三个分布式搜索引擎都存在各种各样的缺陷,真正的分布式搜索引擎需要强大的计算能力和存储能力作为支撑,这样才能为目标用户推荐更好的、更及时的信息服务。因此,分布是搜索引擎的发展必须依托云计算技术的发展。
云计算研究
目前,云计算的研究工作正如火如荼的展开着,国内外已有很多研究成果和应用,较为成熟的是Scientific Cloud和Open Nebula。各行各业尤其是互联网产业正耗费巨大精力研究和应用云计算系统,以便其能更快的商用,提出较为成熟的产品的公司有谷歌、IBM、微软、亚马逊等等。
亚马逊弹性云 EC2
亚马逊弹性云EC2,即elastic computing cloud系统,是亚马逊推出主打的弹性计算能力提供web解决方案。首先,用户可以从亚马逊弹性云中得到一个linux的虚拟机以加载Xen软件服务,同时可以在这个虚拟化平台上运行linux程序。然后用户需要运行Amazon machine image镜像,这里面有application、函数库、相关数据等。接着用户可从亚马逊弹性云中获得simple storage service简单存储服务,通过这个web应用用户可以使用快速、可靠、安全的存储服务。最后用户只用把Amazon machine image映像上传到S3简单存储服务中,就可以通过亚马逊提供的各种Web服务API来操作Amazone machine image实例进程。
GAE (Google App Engine)
GAE是谷歌推出的云计算服务,用户可以在该框架下运行自己编写的web应用程序,前提是这些应用是通过Python脚本编写的。同时GAE框架还为用户提供可以访问数据、空间和谷歌邮件服务的应用程序接口,而且用户还可以在这个框架的管理界面控制用户的网络应用。
微软Azure云服务
Azure以MS数据中心为基础,为用户提供云计算应用服务,其可以提供多种服务,比如云服务OS和API服务。该框架为用户提供微软的主流应用,比如.NET框架、SQL服务等服务。程序开发人员可以依托这些基本服务来开发自己的云计算应用,在其数据中心创建管理和拓展自己开发的应用非常便捷。
Hadoop研究
Hadoop作为一种主流的云计算解决方案,已经在各个领域得到非常广泛的应用,很多互联网企业已经在Hadoop分布式平台上进行分布式应用开发分布式搜索引擎解决方案。雅虎公司基于Hadoop构建云计算集群开发了自己的网络搜索和广告推荐服务;Facebook也通过Hadoop集群构建了自己的大数据分析和机器学习服务;中国的百度公司则在Hadoop集群上构建了海量数据日志搜索分析以及挖掘服务;阿里巴巴公司在Hadoop集群上开发了电子商务大数据存储与处理解决方案;中国移动则在Hadoop集群上构建了大数据分析服务系统。
3、农产品产销推荐系统的设计建设
3.1推荐系统总体结构
在农产品产销分析与推荐系统中,应该有严格的数据流、信息流的流动方向,以及各个业务层级之间的划分和逻辑关联。因此,本课题将农产品产销分析与推荐系统划分个层级。基础数据层,主要进行粮食、蔬菜、水果、畜产品的市场数据的采集存储;数据处理层,通过模型算法库对上传的数据进行加工、处理、聚类和分类,将处理后的数据釆用分布式存储,构建基本的数据仓库;应用层,通过平台技术的整合,将数据仓库里的数据经行特征提取构建向量空间模型,并通过匹配推荐算法库与用户兴趣模型经行匹配,将匹配结果通过系统进行下一步的报送工作;展示层,通过手机、电脑、电视等媒体中介工具,将测报结果传送至农户、政府机构、科研机构以及消费者等主体,真正实现“产销相结合,服务全社会”的目标。其中涉及到了Nutch开源搜索引擎、Hadoop分布式集群、HTML内容提取与处理、用户兴趣模型构建、信息推荐与匹配算法等关键技术。通过模型组合分析与算法优化,并且通过数据库技术、系统构建技术将模型实现为一个真正的、可用的实体系统。整个过程的技术框架和技术路线如图4、图5所示。
3.2系统的主要内容
1、跨平台决策数据抓取技术
选择国内政府部门权威市场信息发布网站作为源URL,采用开源搜索引擎Nutch在此基础上进行二次开发,并将其以Deploy方式集成到Hadoop分布式环境以完成基本源信息分布式釆集工作,并在此分布式集群上采用结构化页面的分析提取技术,创建农产品市场数据抓取页面模板,分析站点HTML页面源文件,提取粮食、蔬菜、水果、畜产品的市场数据。对抓取的原始市场数据进行无需人工干预的数据加工、处理、聚类和分类,确定数据时间维和空间维信息,实现多种专业信息的逻辑关联,构建农产品生产、市场数据集市和数据仓库,并将数据进行HDFS分布式存储,为多维度、复杂趋势分析的农产品生产与市场流通匹配决策提供依据。
2、用户兴趣模型的构建
主要用来为用户提供个性化服务奠定基础,通过用户注册及web日志分析,釆用向量空间模型方法构建用户兴趣模型。
3、信息推荐推荐算法
通过对比现有的基于内容的推荐算法和基于协同过滤算法等的推荐算法的不足与优点,结合组合模型技术,将各种推荐算法组合使用,取长补短,为本系统设计一种可以高效准确推荐信息的推荐算法。
4、农产品生产与市场流通数据推荐平台及其开发与可视化技术研究
系统的推荐结果需要以一种形象可接受的方式推荐给目标用户,一次系统与用户的交互方式是举足轻重的,系统通过设计一种合适的系统,可以通过浏览器将推荐的结果有好的推荐个用户,以期结合个性化服务模块为用户提供较丰富的使用体验,并通过开发方式实现多种智能终端并发访问。
4、总结
通过研究分析现有农业产销信息聚合及推荐系统,利用主题搜索引擎从互联网上采集信息构建农产品生产与市场空间数据仓库和数据集市,研究并提出更加适合农业领域的用户兴趣模型和组合推送算法,在云计算环境下,对现有的农业信息推荐系统进行改进,使其更加适合我国农业产销信息体系,为农业生产流通消费匹配管理决策提供支持。为从事农业的用户在互联网中匹配所需的产销信息提供了有效的解决方案,降低农产品营销成本,为解决农产品的买难卖难问题提供技术支撑。
参考文献
[1]刘家贵,叶中华,苏毅清.农业大数据技术的伦理问题[J].自然辩证法通讯,2019,41(12):84-89.
[2]王伟.黑龙江省农业大数据建设应用的现状和建议[J/OL].农机使用与维修,2019(11):15[2019-11-22].
[3]裘进,章珺彧.基于大数据与精确农业的农作物种植推荐系统研究[J].产业与科技论坛,2018,17(19):44-45.
[4]曾磊,任颖超.基于大数据技术的农业信息管理平台设计[J].南方农机,2018,49(01):57+67.
[5]李巧丹.基于大数据的特色农产品精准营销创新研究———以广东省中山市为例[J].江苏农业科学,2017,45(06):318-321.
论文作者:黄文康
论文发表刊物:《科学与技术》2019年第15期
论文发表时间:2019/12/12
标签:系统论文; 信息论文; 产销论文; 数据论文; 分布式论文; 用户论文; 搜索引擎论文; 《科学与技术》2019年第15期论文;