Mining Schema

各々のモデルは、そのモデルの中で使用されるようなフィールドをリストする、1つのマイニングスキーマを含んでいます。これはデータ・ディクショナリーで定義されるようなフィールドの部分集合です。マイニングスキーマがあるモデルを特定する情報を含んでいる一方、データ・ディクショナリーはモデルによって変わらないデータ定義を含んでいます。マイニングスキーマの主な目的はモデルを適用するためにユーザが与えなければならないフィールドをリストすることです。


<!ENTITY % FIELD-USAGE-TYPE "(active |
				predicted |
				supplementary)" >

<!ENTITY % OUTLIER-TREATMENT-METHOD "( asIs |
					asMissingValues |
					asExtremeValues ) " >

<!ENTITY % MISSING-VALUE-TREATMENT-METHOD "(asIs | asMean |
						asMode | asMedian |
						asValue) " >

<!ELEMENT MiningField (Extension*)>
<!ATTLIST MiningField
	name 			%FIELD-NAME; 			#REQUIRED
	usageType 		%FIELD-USAGE-TYPE; 		"active"
	outliers 		%OUTLIER-TREATMENT-METHOD;	"asIs"
	lowValue 		%NUMBER; 			#IMPLIED
	highValue 		%NUMBER; 			#IMPLIED
	missingValueReplacement	CDATA 				#IMPLIED 
	missingValueTreatment 	%MISSING-VALUE-TREATMENT-METHOD; #IMPLIED 

<!ELEMENT MiningSchema (MiningField+) >

usageType

active:入力として使用されるフィールド(独立したフィールド)。

predicted:その値がモデルによって予\測されるフィールド。

supplementary: 付加的で記述的な情報を保持するフィールド。

Supplementaryフィールドはモデルを適用するためには要求されません。しかしながら、それらは説明の目的のための付加情報として与えられます。モデルが構\築される前に、あるフィールドが、予\備処理のtransformationを詳細に調べる時に、付加的なSupplementaryフィールドは典型的には、オリジナルのフィールド値に対する統計についての記述のために使用されます。

outliers

asIs:フィールド値をそのものとして扱う。

asMissingValues:outlier値を欠損値と同じように扱う。

asExtremeValues:outlier値は、MiningFieldに定義された特定の高い値もしくは低い値に変更されます。

name:フィールドのsymbolic name。データ・ディクショナリー中のフィールドを参照しなければなりません。

highValuelowValue: %outlierTreatmentMethodと共に使用されます;このフィールドでのoutliersをもつレコードに対する値としての「asExtremeValues」。 x < lowValue ならば x=lowValue。

missingValueReplacement:この属性がそのとき指定される場合、欠損している入力値は与えられた値と自動的に置き換えられます。すなわち、モデルそれ自身は、あたかも与えられた値が初めの入力で含まれていたかのように働きます。例えば、MiningFieldが置き換えた値を指定するなら、TreeModelの中の代理演算子(surrogate operator)は適用されません。

missingValueTreatment:PMML利用者にとって、このフィールドは「情報だけのため」のものです。利用者はmissingValueReplacementだけを見ます。値が存在する場合、それは欠損値に置き換えます。missingValueTreatment属性は、missingValueReplacementがどのように導かれ、利用者に何も作業要求を課さないという事を指し示すだけである。

欠損値の詳細はPMMLの中に数箇所現れます。

1.欠損値の外部表\現は、PMMLによって直接的には定義されません。PMML利用者のシステムは、データ・ベース中のnull値として、あるいはファイル中のブランクの文字列、等々として、それらを含意しているでしょう。

2.PMMLデータ・ディクショナリーは、欠損値を示す値のオプションのリストを考慮に入れます。例えば、データソ\ースは文字列「-」もしくは「NA」を使用することもあるでしょう。もし、そのような値が入力データ中に現れたなら、PMML利用者は欠損値としてそれを扱わなければなりません。

3.モデル内のPMMLマイニングスキーマは選択的(optional)に置き換えられた値を定義するかもしれません。入力値が欠損しているなら、PMML利用者はそれを指定された値に置き換えなければなりません。

4.PMMLモデルの各々のタイプに対して、欠損値をスコア結果の計算の中で扱う特定の手法が存在します。

適合

outlier処理「asIs」(すなわち、MiningFieldの中の属性outlierのデフォルト価)は、非常に重要である。他のオプションはさほど重要ではない。