CN113672437A - 一种分布式存储系统的磁盘故障处理方法及装置 - Google Patents

一种分布式存储系统的磁盘故障处理方法及装置 Download PDF

Info

Publication number
CN113672437A
CN113672437A CN202110876908.9A CN202110876908A CN113672437A CN 113672437 A CN113672437 A CN 113672437A CN 202110876908 A CN202110876908 A CN 202110876908A CN 113672437 A CN113672437 A CN 113672437A
Authority
CN
China
Prior art keywords
disk
failure
data
target
target disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110876908.9A
Other languages
English (en)
Inventor
张义坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN202110876908.9A priority Critical patent/CN113672437A/zh
Publication of CN113672437A publication Critical patent/CN113672437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operations
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • G06F3/0676Magnetic disk device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式存储系统的磁盘故障处理方法及装置,在从分布式存储系统中的目标磁盘上读取数据失败时,根据数据读取失败的情况,确定导致数据读取失败的故障类型;根据故障类型,判断目标磁盘是否仍可用;若是,则按照故障类型对应的故障处理策略,处理目标磁盘的故障,并保持目标磁盘的可用状态;若否,则将目标磁盘的原有数据重构至分布式存储系统中剩余可用的磁盘上,并将目标磁盘标记为不可用状态。可见,本申请根据磁盘的故障类型识别出磁盘是否仍可用,只有在磁盘不可用时才换盘恢复不可用磁盘的数据,减少了数据重构量,节约了系统带宽。

Description

一种分布式存储系统的磁盘故障处理方法及装置
技术领域
本发明涉及分布式存储领域,特别是涉及一种分布式存储系统的磁盘故障处理方法及装置。
背景技术
目前,基于机械硬盘(磁盘的一种)的低成本优势,分布式存储系统大都使用机械硬盘来存储数据。但机械硬盘在实际使用过程中的年故障率在2%左右,这就说明系统存储的数据容易因机械硬盘损坏而丢失,因此仅仅靠单个机械硬盘存储很难保证存储数据的安全。
现有技术中,在分布式存储系统中,通常采用多副本的方式保存数据,即将同一数据同时保存在不同的磁盘上(这些磁盘互为备用关系),以通过一份数据多次存储的方式提高存储系统的可靠性。基于此,在从一磁盘上读取数据失败时,认为此磁盘故障,并切换至此磁盘的备用磁盘重新读取数据。对于故障的磁盘,目前采用换盘恢复数据的方式进行故障处理,即将故障磁盘的原有数据重构至系统的其它磁盘上。但是,磁盘故障并不代表磁盘完全不可用,可能只是读取故障的那部分存储不可用,此情况下直接换盘恢复数据会造成大量不必要的数据重构,浪费系统的带宽。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种分布式存储系统的磁盘故障处理方法及装置,根据磁盘的故障类型识别出磁盘是否仍可用,只有在磁盘不可用时才换盘恢复不可用磁盘的数据,减少了数据重构量,节约了系统带宽。
为解决上述技术问题,本发明提供了一种分布式存储系统的磁盘故障处理方法,包括:
在从分布式存储系统中的目标磁盘上读取数据失败时,根据数据读取失败的情况,确定导致数据读取失败的故障类型;
根据所述故障类型,判断所述目标磁盘是否仍可用;
若是,则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障,并保持所述目标磁盘的可用状态;
若否,则将所述目标磁盘的原有数据重构至所述分布式存储系统中剩余可用的磁盘上,并将所述目标磁盘标记为不可用状态。
优选地,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为读取目标数据时的数据校验信息与写入所述目标数据时的数据校验信息不一致,则确定导致数据读取失败的故障类型为数据校验错误。
优选地,在所述数据校验错误的故障类型下,所述目标磁盘仍可用;
则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障的过程,包括:
从所述目标磁盘的备用磁盘中重新读取所述目标数据,并将数据校验错误的数据对象添加到所述目标磁盘的数据恢复任务队列中,以将重新读取的目标数据重新写入所述目标磁盘的剩余存储空间中。
优选地,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为未读取到目标数据,则确定导致数据读取失败的故障类型为磁盘坏道。
优选地,在所述磁盘坏道的故障类型下,所述目标磁盘仍可用;
则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障的过程,包括:
从所述目标磁盘的备用磁盘中重新读取所述目标数据,并将磁盘坏道的数据对象添加到所述目标磁盘的数据恢复任务队列中,以将重新读取的目标数据重新写入所述目标磁盘的剩余存储空间中。
优选地,所述分布式存储系统的磁盘故障处理方法还包括:
在每次确定导致数据读取失败的故障类型为磁盘坏道时,将所述目标磁盘的坏道个数加1;
当所述坏道个数超过预设坏道阈值时,将所述目标磁盘标记为不可用状态。
优选地,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为在预设时间内所述目标磁盘的读写故障次数突增超过预设次数阈值,则确定导致数据读取失败的故障类型为磁盘瞬时故障。
优选地,在所述磁盘瞬时故障的故障类型下,所述目标磁盘仍可用;
则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障的过程,包括:
从所述目标磁盘的备用磁盘中重新读取所述目标数据,并将所述目标磁盘暂时标记为不可用状态;
待所述目标磁盘的瞬时故障恢复后,将所述目标磁盘重新标记为可用状态。
优选地,根据所述故障类型,判断所述目标磁盘是否仍可用的过程,包括:
判断所述故障类型是否属于数据校验错误、磁盘坏道及磁盘瞬时故障中的任一种故障类型;
若是,则确定所述目标磁盘仍可用;
若否,则确定所述目标磁盘不可用。
为解决上述技术问题,本发明还提供了一种分布式存储系统的磁盘故障处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种分布式存储系统的磁盘故障处理方法的步骤。
本发明提供了一种分布式存储系统的磁盘故障处理方法,在从分布式存储系统中的目标磁盘上读取数据失败时,根据数据读取失败的情况,确定导致数据读取失败的故障类型;根据故障类型,判断目标磁盘是否仍可用;若是,则按照故障类型对应的故障处理策略,处理目标磁盘的故障,并保持目标磁盘的可用状态;若否,则将目标磁盘的原有数据重构至分布式存储系统中剩余可用的磁盘上,并将目标磁盘标记为不可用状态。可见,本申请根据磁盘的故障类型识别出磁盘是否仍可用,只有在磁盘不可用时才换盘恢复不可用磁盘的数据,减少了数据重构量,节约了系统带宽。
本发明还提供了一种分布式存储系统的磁盘故障处理装置,与上述磁盘故障处理方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式存储系统的磁盘故障处理方法的流程图;
图2为本发明实施例提供的一种分布式存储系统的磁盘故障处理装置的结构示意图。
具体实施方式
本发明的核心是提供一种分布式存储系统的磁盘故障处理方法及装置,根据磁盘的故障类型识别出磁盘是否仍可用,只有在磁盘不可用时才换盘恢复不可用磁盘的数据,减少了数据重构量,节约了系统带宽。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种分布式存储系统的磁盘故障处理方法的流程图。
该分布式存储系统的磁盘故障处理方法包括:
步骤S1:在从分布式存储系统中的目标磁盘上读取数据失败时,根据数据读取失败的情况,确定导致数据读取失败的故障类型。
步骤S2:根据故障类型,判断目标磁盘是否仍可用;若是,则执行步骤S3;若否,则执行步骤S4。步骤S3:按照故障类型对应的故障处理策略,处理目标磁盘的故障,并保持目标磁盘的可用状态。步骤S4:将目标磁盘的原有数据重构至分布式存储系统中剩余可用的磁盘上,并将目标磁盘标记为不可用状态。
具体地,对于分布式存储系统中的任一磁盘(称为目标磁盘),本申请均执行如下操作:在从目标磁盘上读取数据失败时,首先根据数据读取失败的情况,确定导致数据读取失败的故障类型(即具体是哪种故障导致数据读取失败),然后根据故障类型判断目标磁盘是否仍可用;若目标磁盘仍可用,则按照故障类型对应的故障处理策略,处理目标磁盘的故障,并保持目标磁盘的可用状态;若目标磁盘不可用,则将目标磁盘的原有数据重构至分布式存储系统中剩余可用的磁盘上,并将目标磁盘标记为不可用状态,即只有在磁盘不可用时才换盘恢复不可用磁盘的数据。
本发明提供了一种分布式存储系统的磁盘故障处理方法,在从分布式存储系统中的目标磁盘上读取数据失败时,根据数据读取失败的情况,确定导致数据读取失败的故障类型;根据故障类型,判断目标磁盘是否仍可用;若是,则按照故障类型对应的故障处理策略,处理目标磁盘的故障,并保持目标磁盘的可用状态;若否,则将目标磁盘的原有数据重构至分布式存储系统中剩余可用的磁盘上,并将目标磁盘标记为不可用状态。可见,本申请根据磁盘的故障类型识别出磁盘是否仍可用,只有在磁盘不可用时才换盘恢复不可用磁盘的数据,减少了数据重构量,节约了系统带宽。
在上述实施例的基础上:
作为一种可选的实施例,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为读取目标数据时的数据校验信息与写入目标数据时的数据校验信息不一致,则确定导致数据读取失败的故障类型为数据校验错误。
具体地,在从目标磁盘上读取目标数据时,若数据读取失败的情况为:从目标磁盘中读取目标数据时的数据校验信息与向目标磁盘中写入目标数据时的数据校验信息不一致,导致数据读取失败,则确定导致数据读取失败的故障类型为数据校验错误。
作为一种可选的实施例,在数据校验错误的故障类型下,目标磁盘仍可用;
则按照故障类型对应的故障处理策略,处理目标磁盘的故障的过程,包括:
从目标磁盘的备用磁盘中重新读取目标数据,并将数据校验错误的数据对象添加到目标磁盘的数据恢复任务队列中,以将重新读取的目标数据重新写入目标磁盘的剩余存储空间中。
具体地,若导致目标磁盘数据读取失败的故障类型为数据校验错误,则认为目标磁盘仍可用,此情况下处理目标磁盘的故障的过程为:从目标磁盘的备用磁盘中重新读取目标数据,并将数据校验错误的数据对象添加到目标磁盘的数据恢复任务队列中,从而实现:将重新读取的目标数据重新写入目标磁盘的剩余存储空间中,以恢复目标磁盘的故障数据。
需要说明的是,在分布式存储系统中,采用多副本的方式保存数据,即将同一数据同时保存在不同的磁盘上,这些磁盘互为备用关系,需提前设定好主磁盘和备用磁盘,优先从主磁盘中读取数据,当从主磁盘中读取数据失败时,再从备用磁盘中选择一磁盘作为新主磁盘,并从新主磁盘中重新读取数据。由于本申请将虽然故障但仍可用的磁盘继续留在存储集群中,并恢复磁盘的故障数据,所以本申请尽可能保证了备用磁盘的数量,提高了存储系统的可靠性及稳定性。
作为一种可选的实施例,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为未读取到目标数据,则确定导致数据读取失败的故障类型为磁盘坏道。
具体地,在从目标磁盘上读取目标数据时,若数据读取失败的情况为:从目标磁盘中根本没读取到数据,导致数据读取失败,则确定导致数据读取失败的故障类型为磁盘坏道。
作为一种可选的实施例,在磁盘坏道的故障类型下,目标磁盘仍可用;
则按照故障类型对应的故障处理策略,处理目标磁盘的故障的过程,包括:
从目标磁盘的备用磁盘中重新读取目标数据,并将磁盘坏道的数据对象添加到目标磁盘的数据恢复任务队列中,以将重新读取的目标数据重新写入目标磁盘的剩余存储空间中。
具体地,若导致目标磁盘数据读取失败的故障类型为磁盘坏道,则认为目标磁盘仍可用,此情况下处理目标磁盘的故障的过程为:从目标磁盘的备用磁盘中重新读取目标数据,并将磁盘坏道的数据对象添加到目标磁盘的数据恢复任务队列中,从而实现:将重新读取的目标数据重新写入目标磁盘的剩余存储空间中,以恢复目标磁盘的故障数据。
作为一种可选的实施例,分布式存储系统的磁盘故障处理方法还包括:
在每次确定导致数据读取失败的故障类型为磁盘坏道时,将目标磁盘的坏道个数加1;
当坏道个数超过预设坏道阈值时,将目标磁盘标记为不可用状态。
进一步地,本申请还在每次确定导致数据读取失败的故障类型为磁盘坏道时,将目标磁盘的坏道个数加1,即累计目标磁盘的坏道总个数,若目标磁盘的坏道总个数超过预设坏道阈值时,认为目标磁盘不再可用,则将目标磁盘标记为不可用状态,并将目标磁盘的原有数据重构至分布式存储系统中剩余可用的磁盘上,以换盘恢复数据。
作为一种可选的实施例,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为在预设时间内目标磁盘的读写故障次数突增超过预设次数阈值,则确定导致数据读取失败的故障类型为磁盘瞬时故障。
具体地,在从目标磁盘上读取目标数据时,若数据读取失败的情况为:在预设时间内目标磁盘的读写故障次数(包含此次数据读取失败)突增超过预设次数阈值(如目标磁盘的读写故障次数突增,在5s内超过100次),则确定导致数据读取失败的故障类型为磁盘瞬时故障。
作为一种可选的实施例,在磁盘瞬时故障的故障类型下,目标磁盘仍可用;
则按照故障类型对应的故障处理策略,处理目标磁盘的故障的过程,包括:
从目标磁盘的备用磁盘中重新读取目标数据,并将目标磁盘暂时标记为不可用状态;
待目标磁盘的瞬时故障恢复后,将目标磁盘重新标记为可用状态。
具体地,若导致目标磁盘数据读取失败的故障类型为磁盘瞬时故障,则认为目标磁盘仍可用,此情况下处理目标磁盘的故障的过程为:从目标磁盘的备用磁盘中重新读取目标数据,并将目标磁盘暂时标记为不可用状态,待目标磁盘的瞬时故障恢复后(即在连续的多个预设时间内目标磁盘的读写故障次数一直小于预设次数阈值),将目标磁盘重新标记为可用状态。
作为一种可选的实施例,根据故障类型,判断目标磁盘是否仍可用的过程,包括:
判断故障类型是否属于数据校验错误、磁盘坏道及磁盘瞬时故障中的任一种故障类型;
若是,则确定目标磁盘仍可用;
若否,则确定目标磁盘不可用。
具体地,在数据校验错误、磁盘坏道及磁盘瞬时故障的故障类型下,磁盘仍可用;在其余故障类型下,认为磁盘永久故障,即磁盘不可用。基于此,本申请判断故障类型是否属于数据校验错误、磁盘坏道及磁盘瞬时故障中的任一种故障类型;若故障类型属于数据校验错误、磁盘坏道及磁盘瞬时故障中的任一种故障类型,则确定目标磁盘仍可用;若故障类型不属于数据校验错误、磁盘坏道及磁盘瞬时故障中的任一种故障类型,则确定目标磁盘不可用。
请参照图2,图2为本发明实施例提供的一种分布式存储系统的磁盘故障处理装置的结构示意图。
该分布式存储系统的磁盘故障处理装置包括:
存储器100,用于存储计算机程序;
处理器200,用于在执行计算机程序时实现上述任一种分布式存储系统的磁盘故障处理方法的步骤。
本申请提供的磁盘故障处理装置的介绍请参考上述磁盘故障处理方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式存储系统的磁盘故障处理方法,其特征在于,包括:
在从分布式存储系统中的目标磁盘上读取数据失败时,根据数据读取失败的情况,确定导致数据读取失败的故障类型;
根据所述故障类型,判断所述目标磁盘是否仍可用;
若是,则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障,并保持所述目标磁盘的可用状态;
若否,则将所述目标磁盘的原有数据重构至所述分布式存储系统中剩余可用的磁盘上,并将所述目标磁盘标记为不可用状态。
2.如权利要求1所述的分布式存储系统的磁盘故障处理方法,其特征在于,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为读取目标数据时的数据校验信息与写入所述目标数据时的数据校验信息不一致,则确定导致数据读取失败的故障类型为数据校验错误。
3.如权利要求2所述的分布式存储系统的磁盘故障处理方法,其特征在于,在所述数据校验错误的故障类型下,所述目标磁盘仍可用;
则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障的过程,包括:
从所述目标磁盘的备用磁盘中重新读取所述目标数据,并将数据校验错误的数据对象添加到所述目标磁盘的数据恢复任务队列中,以将重新读取的目标数据重新写入所述目标磁盘的剩余存储空间中。
4.如权利要求1所述的分布式存储系统的磁盘故障处理方法,其特征在于,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为未读取到目标数据,则确定导致数据读取失败的故障类型为磁盘坏道。
5.如权利要求4所述的分布式存储系统的磁盘故障处理方法,其特征在于,在所述磁盘坏道的故障类型下,所述目标磁盘仍可用;
则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障的过程,包括:
从所述目标磁盘的备用磁盘中重新读取所述目标数据,并将磁盘坏道的数据对象添加到所述目标磁盘的数据恢复任务队列中,以将重新读取的目标数据重新写入所述目标磁盘的剩余存储空间中。
6.如权利要求5所述的分布式存储系统的磁盘故障处理方法,其特征在于,所述分布式存储系统的磁盘故障处理方法还包括:
在每次确定导致数据读取失败的故障类型为磁盘坏道时,将所述目标磁盘的坏道个数加1;
当所述坏道个数超过预设坏道阈值时,将所述目标磁盘标记为不可用状态。
7.如权利要求1所述的分布式存储系统的磁盘故障处理方法,其特征在于,根据数据读取失败的情况,确定导致数据读取失败的故障类型的过程,包括:
若数据读取失败的情况为在预设时间内所述目标磁盘的读写故障次数突增超过预设次数阈值,则确定导致数据读取失败的故障类型为磁盘瞬时故障。
8.如权利要求7所述的分布式存储系统的磁盘故障处理方法,其特征在于,在所述磁盘瞬时故障的故障类型下,所述目标磁盘仍可用;
则按照所述故障类型对应的故障处理策略,处理所述目标磁盘的故障的过程,包括:
从所述目标磁盘的备用磁盘中重新读取所述目标数据,并将所述目标磁盘暂时标记为不可用状态;
待所述目标磁盘的瞬时故障恢复后,将所述目标磁盘重新标记为可用状态。
9.如权利要求1-8任一项所述的分布式存储系统的磁盘故障处理方法,其特征在于,根据所述故障类型,判断所述目标磁盘是否仍可用的过程,包括:
判断所述故障类型是否属于数据校验错误、磁盘坏道及磁盘瞬时故障中的任一种故障类型;
若是,则确定所述目标磁盘仍可用;
若否,则确定所述目标磁盘不可用。
10.一种分布式存储系统的磁盘故障处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-9任一项所述的分布式存储系统的磁盘故障处理方法的步骤。
CN202110876908.9A 2021-07-31 2021-07-31 一种分布式存储系统的磁盘故障处理方法及装置 Pending CN113672437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110876908.9A CN113672437A (zh) 2021-07-31 2021-07-31 一种分布式存储系统的磁盘故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110876908.9A CN113672437A (zh) 2021-07-31 2021-07-31 一种分布式存储系统的磁盘故障处理方法及装置

Publications (1)

Publication Number Publication Date
CN113672437A true CN113672437A (zh) 2021-11-19

Family

ID=78541122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110876908.9A Pending CN113672437A (zh) 2021-07-31 2021-07-31 一种分布式存储系统的磁盘故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN113672437A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563034A (zh) * 2022-08-25 2023-01-03 曙光信息产业(北京)有限公司 消息帧传输方法、装置、计算机设备和存储介质
CN118733201A (zh) * 2024-06-11 2024-10-01 福建天晴在线互动科技有限公司 一种提高任务稳定性的优化方法及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170375A (zh) * 2017-12-21 2018-06-15 创新科存储技术有限公司 一种分布式存储系统中的超限保护方法和装置
CN109308238A (zh) * 2018-12-03 2019-02-05 郑州云海信息技术有限公司 一种存储系统磁盘阵列坏盘调节的方法、装置及设备
CN110968456A (zh) * 2018-09-30 2020-04-07 阿里巴巴集团控股有限公司 分布式存储系统中故障磁盘的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170375A (zh) * 2017-12-21 2018-06-15 创新科存储技术有限公司 一种分布式存储系统中的超限保护方法和装置
CN110968456A (zh) * 2018-09-30 2020-04-07 阿里巴巴集团控股有限公司 分布式存储系统中故障磁盘的处理方法及装置
CN109308238A (zh) * 2018-12-03 2019-02-05 郑州云海信息技术有限公司 一种存储系统磁盘阵列坏盘调节的方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563034A (zh) * 2022-08-25 2023-01-03 曙光信息产业(北京)有限公司 消息帧传输方法、装置、计算机设备和存储介质
CN118733201A (zh) * 2024-06-11 2024-10-01 福建天晴在线互动科技有限公司 一种提高任务稳定性的优化方法及终端
CN118733201B (zh) * 2024-06-11 2025-12-12 福建天晴在线互动科技有限公司 一种提高任务稳定性的优化方法及终端

Similar Documents

Publication Publication Date Title
US10643668B1 (en) Power loss data block marking
CN101782875B (zh) 存储设备和数据存储方法
CN102508620B (zh) 一种处理raid5坏扇区的方法
KR20150017672A (ko) 톤 라이트 완화
CN118779146B (zh) 数据存储方法、设备、介质及产品
CN104050056A (zh) 多存储介质设备的文件系统备份
CN102508733A (zh) 一种基于磁盘阵列的数据处理方法及磁盘阵列管理器
CN102999564A (zh) 写入数据的方法、装置和设备
CN115599607B (zh) 一种raid阵列的数据恢复方法及相关装置
CN118466862B (zh) 一种数据存储方法、产品、装置以及介质
CN110333971A (zh) Ssd坏块表备份方法、装置、计算机设备及存储介质
CN113672437A (zh) 一种分布式存储系统的磁盘故障处理方法及装置
US20250165180A1 (en) Recovery method for all-flash storage system, and related apparatus
CN117472292B (zh) 独立磁盘冗余阵列的数据重构方法及存储系统、控制器
CN118152181A (zh) 固态硬盘数据恢复方法、终端设备、电子设备及存储介质
CN113360312A (zh) 一种硬盘故障处理方法、装置、设备及存储介质
CN113391941B (zh) 一种raid的读写超时处理方法、装置、设备及介质
US20220374310A1 (en) Write request completion notification in response to partial hardening of write data
CN101599032A (zh) 存储节点管理方法、控制子系统和存储系统
CN105183590A (zh) 一种磁盘阵列的容错处理方法
JP4143040B2 (ja) ディスクアレイ制御装置、同装置に適用されるデータ欠損検出時の処理方法及びプログラム
US20060259812A1 (en) Data protection method
CN110309012B (zh) 一种数据处理方法及其装置
CN116431067A (zh) 一种分布式存储系统换盘方法、装置以及介质
CN114064346B (zh) 一种纠删码数据一致性保障方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211119

RJ01 Rejection of invention patent application after publication