分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。
データとしてスペクトルデータや時系列データを扱うとき、一般的にデータの前処理として平滑化(スムージング)を行います。方法の詳細についてはこちらをご覧ください。

ここでは、スペクトルデータ・時系列データを平滑化する3つの理由について考えます。
1. なめらかな曲線にするため
スペクトルデータにも時系列データにも、測定ノイズが含まれていることが多いです。平滑化をすることでノイズの影響を低減でき、なめらかな曲線にできます。これにより、データの解釈をしやすくなったり、x と y の間の関係を構築しやすくなったりします。
2. ノイズ的な波長シフト・時間シフトの影響を減らすため
ノイズ的にスペクトルの波長がシフトしてしまったり、時系列データにおける x と y の時間遅れにズレが生じてしまったりすることもあります。スペクトルデータにおける平滑化では、ある波長 (波数) の周辺波長も考慮して強度の値を修正する手法といえますので、単独の波長だけでなく周辺波長も考慮することで、ノイズ的な波長シフトの影響を低減できます。時系列データにおいては、扱うサンプルやプロセス状態によって x と y の間の時間遅れが多少変わることもありますので、1つのモデルを構築するときにその変化がノイズとして作用してしまいます。時系列データのある時刻の周辺の時刻のデータを使って平滑化することで、時間遅れをならすことができ、時間遅れを考慮した x と y の間の関係を構築しやすくなります。
3. 半教師あり学習の教師なしデータとして使うため [主に時系列データ]
時系列データでは、y が測定された時刻と比較して、x が測定された時刻が多く、x のみの教師なしデータが多く存在する状態といえます。教師なしデータで学習した後に教師ありデータと合わせて再学習させるように、x のみ測定された時刻を含む時系列データで平滑化して、その後 y が測定された時刻のみを使用して x と y の間の関係を構築するといった半教師ありのやり方が可能です。

以上です。
質問やコメントなどありましたら、X, facebook, メールなどでご連絡いただけるとうれしいです。