DS検定

  1. テンプレート

データサイエンス力

数学的理解

  1. ユークリッドノルム

    全要素を二乗して足す。最後に平方根をとる。

  2. 半径が4の円を表す式

    x2 + y2 = 4

  3. 行列式

    |A| = ad - bc

  4. 転置行列

    横ならびを縦ならびにするだけ。

  5. 【難】固有値・固有ベクトル

    行列による変換後、角度は変わらず、長さは変わる。主成分分析で用いられる。高次元のデータの性質を低次元で説明するときに使う?

  6. 勾配ベクトルの求め方

    x で偏微分した偏導関数に x と y を代入して得られる値を x とし、y で偏微分した偏導関数に x と y を代入して得られる値を y とする。

データの理解・検証

  1. 差分系列

    時点が異なるデータとの差をとったもの。局所的な傾向を見れる。

  2. 高速フーリエ変換

    離散的な信号を複数の周波数成分に分解すること。

予測

  1. 最小二乗法と最尤法


    最小二乗法: y = ax + b において、y と ax + b の差 (残差) の二乗がもっとも小さくなる a と b を求めること。
    最尤法: よくわからないが、確率的に特定のデータがいちばん出やすい場合を探すこと。

  2. 重回帰分析、偏回帰係数、標準偏回帰係数、重相関係数


    重回帰分析: 複数の説明変数でひとつの目的変数を予測する。y = ax + bx + cx + d。
    偏回帰係数: a のこと。
    標準偏回帰係数: 標準化したあとの a のこと。
    重相関係数: 目的変数の実測値と予測値の相関係数。

  3. 混合行列、実測値と予測値の組み合わせ


    混合行列: 正誤分布のクロス表。
    True Positive: 正解だと予測して、実際に正解である。
    True Negative: 不正解だと予測して、実際に不正解である。
    False Positive: 正解だと予測したが、実際には不正解である。
    False Negative: 不正解だと予想したが、実際には正解である。

  4. 正解率、適合率、再現率、F 値


    正解率: (TP + TN) / ALL
    適合率: TP / (TP + FP)
    再現率: TP / (TP + FN)
    F 値: (2 * 適合率 * 再現率) / (適合率 + 再現率)

  5. ROC と AUC


    ROC: Receiver Operating Characteristic の略。グループ分けの精度を (0, 0) と (1, 1) を通る曲線で表したもの。
    AUC: Area Under the Curve の略。ROC 曲線の下側の面積。

  6. RMSE と MAE と MAPE


    RMSE: Root Mean Squared Error の略。平均平方二乗誤差。
    MAE: Mean Absolute Error の略。平均絶対誤差。
    MAPE: Mean Absolute Percentage Error の略。平均絶対誤差率。

科学的解析の基礎

  1. 帰無仮説と対立仮説


    帰無仮説: 否定したい仮説。「正しければ検定が無に帰す」と覚える。
    対立仮説: 主張したい仮説。

  2. 第1種の過誤と第2種の過誤


    第1種の過誤: 正しい帰無仮説を棄却すること。逆張り。
    第2種の過誤: 誤った帰無仮説を受け入れること。鵜呑み。

  3. 期待値の求め方

    全事象の値とその確率をかけて足し合わせる。

  4. 不偏分散の求め方

    標本分散を求めるときの分母を n から n-1 に変えるだけ。母分散の推定値を求めることができる。

  5. 【難】正規分布の式

    f(x) = (1 / √2πσ2) exp ((- (x - μ)2) / 2σ2)

  6. 【難】正規分布の標準化

    Z = (X - μ) / σ

  7. 尺度


    間隔尺度: 倍できない。マイナスもある。
    比例尺度: 倍できる。0で消失。
    名義尺度: 大人と子どもを1と0で表す。
    順序尺度: レベル。レベル1-3の人数で平均はとれない。

  8. 相関係数の求め方

    「Sxy / SxSy」で求められる。要するに、x と y の共分散を x の標準偏差と y の標準偏差で割ればよい。

  9. 離散型確率分布と連続型確率分布


    離散型確率分布: 確率変数が自然数。ベルヌーイ分布、二項分布、ポアソン分布。
    連続型確率分布: 確率変数が実数。正規分布、指数分布、カイ二乗分布。
    二項分布はサンプルが増えると正規分布に近づく。

  10. ピアソンとスピアマン


    ピアソンの積率相関: 量的データの線形関係を示す。
    スピアマンの順位相関: 質的データの単調関係を示す。

  11. ベイズの定理

    P(B|A) = (P(B) * P(A|B)) / P(A)。P(A) を条件付き確率を使って求めることもできる。

グルーピング

  1. 階層クラスター分析

    データ同士の特性の差を距離で表し、デンドログラムをつくる。デンドログラムを横切るように線を引いたとき、交点の数がクラスター数になる。

  2. k-means法

    非階層クラスター分析において、データの重心を求めてクラスタリングするのを繰り返す。

サンプリング

  1. 標本誤差

    標本を調べたときと母集団すべてを調べたときの差。

  2. 実験計画法

    フィッシャーの三原則「反復」「無作為化」「局所管理」にもとづく統計手法。

データ加工

  1. 標準化と正規化


    標準化: 平均を0、標準偏差を1にする操作。「(X - μ) / σ」で求める。
    正規化: 最小値を0、最大値を1にする操作。「(X - minX) / maxX」で求める。

  2. ダミー変数

    「大人 or 子ども」のようなニ項目を「0 or 1」で表すこと。「中学生 or 高校生 or 大学生」の場合は「中学生 (0/1)」「高校生 (0/1)」とニ項目だけダミー変数にすればよい。「中学生 (0)」「高校生 (0)」の場合は「大学生」だとわかるからだ。

  3. 外れ値への対処

    0-1正規化によって外れ値を特定し、除去する。

  4. ビニング

    量的変数を等間隔に区分すること。

  5. 単純無作為・系統・層別・集落・多段


    単純無作為: 母集団からランダムに抽出。
    系統: 一定間隔で抽出。
    層別: グループ分けし、全グループで単純無作為。
    集落: クラスターに分けて、クラスターを無作為抽出し、全数調査。
    多段: グループに分けて、グループを無作為抽出し、単純無作為。

データ可視化

  1. ボロノイ図

    データを母点という点で表し、母点と母点のあいだに線を引いたもの。細胞みたい。

  2. 平行座標プロット

    「身長」「体重」「年齢」のようなデータセットを折れ線グラフのように表したもの。項目の並び順に意味はない。

モデル化

  1. ホールドアウト法と交差検証法


    ホールドアウト法: 学習用・検証用・テスト用というようにデータを分割するというやり方。
    交差検証法: 学習用・検証用にデータを分割するのを繰り返すというやり方。

  2. ランダムフォレスト

    ランダムで決定木を生成し、アンサンブル学習をする。

  3. サポートベクターマシン

    データの点と境界線との距離をマージンと呼び、そのマージンを最大化するというアルゴリズム。教師あり学習。

  4. カーネルトリック

    線形分類を可能にするための式変形。

  5. 次元の呪い

    次元 (= 変数や特徴量) を増やすことによって、計算量が指数関数的に増え、問題の解決が阻まれること。

  6. 大域的な説明

    複雑化する機械学習のモデルがモデル全体としてどのような予測をするかを説明すること。人間にとってわかりやすいかたちで。

  7. 隠れ層

    ニューラルネットワークの入力層と出力層のあいだ。ReLU などの活性化関数が適用される。

  8. 勾配ブースティング決定木

    決定木の学習を繰り返して、モデルの認識精度を上げること。

  9. マルコフ性

    強化学習において仮定される「遷移先の状態が直前の状態とそこでの行動にのみ依存する」という性質。

  10. シグモイド関数

    グラフ化すると、すべり台みたいになる関数。0か1かを予測するロジスティック回帰分析で用いる。

自然言語処理

  1. 形態素解析

    文を形態素に分割し、品詞を判定すること。

  2. 形態素解析機 (3)

    MeCab, Janome, JUMAN。

  3. 係り受け解析

    文を分析に分けて、文節どうしの関係を調べること。

  4. 係り受け解析ツール (2)

    KNP, CaboCha。

  5. GLUE

    言語理解度を測定するためのベンチマーク。課せられるタスクがたくさんある。
    CoLA: 英文法的に正しいかどうか。Acceptability。
    SST-2: ポジティブがネガティブか? Sentiment。
    MRPC: 意味が同じかどうか。Paraphrase。
    STS: 類似性。Similarity。
    QQP: 質問文の意味が同じかどうか。Question。
    MNLI: 含意関係。Inference。
    QNLI: 文章が質問の答えを含むか。
    RTE: 含意関係。Entailment。
    WNLI: 代名詞の指示対象。

画像・映像認識

  1. JPEG と PNG

    いずれも画像データのフォーマット。JPEG は保存するたびに目に見えないレベルの圧縮をするため、保存を繰り返すと画質が劣化する。それに対して、PNG は何度保存しても画質が劣化しない。

パターン発見

  1. 信頼度、支持度、リフト値


    信頼度: 事象 X が起こったあとに事象 Y が起こるという確率。
    支持度: 事象 X と事象 Y が同時に起こるという確率。
    リフト値: 信頼度 / 事象 Y が起こる確率。

データエンジニアリング力

環境構築

  1. Docker

    コンテナ方式の仮想化ソフト。

  2. RESAS と e-Stat

    いずれも営利目的・非営利目的を問わず無償で二次利用が可能。
    RESAS: リーサス。地域経済分析システム。
    e-Stat: イースタット。政府統計の総合窓口。

データ収集

  1. Web クローラー・スクレイピングツール

    インターネット上のウェブページの情報を収集するツール。収集にあたっては、ウェブページの情報を利用してよいかを確認する必要がある。

データ構造

  1. 部分関数従属と推移関数従属


    部分関数従属: 非キーが主キーの一部に関数従属すること。
    推移関数従属: 非キーが非キーに関数従属すること。

  2. 非正規形から第三正規形まで


    非正規形: 繰り返される項目を別項目として切り出さず、そのままにした状態。
    第一正規形: 繰り返される項目を別項目として切り出した状態。
    第二正規形: 部分関数従属がなくなるように切り出した状態。
    第三正規形: 推移関数従属がなくなるように切り出した状態。

  3. 構造化データと非構造化データ


    構造化データ: 行と列で表すことができるデータ。表。
    非構造化データ: 行と列で表すことができないデータ。音声、画像。

データ蓄積

  1. RDBMS と NoSQL

    RDBMS は Relational DataBase Management System の略。いずれもデータベース管理方式。RDBMS はいわば表で、NoSQL はかならずしも表ではない?

  2. Hadoop と Spark


    Hadoop: データを分散処理するためのソフトウェア基盤。
    Spark: 分散処理フレームワーク。インメモリ型で Hadoop よりも高速。

プログラミング

  1. Jupyter Notebook と RStudio


    Jupyter Notebook: Python や Ruby の開発環境。ブラウザ上でも利用可能。
    RStudio: R の開発環境。

  2. HeidiSQL

    RDBMS を実行中のコンピューターに接続し、データの閲覧や編集ができる。データ構築ではない?

IT セキュリティ

  1. アクセス制御の三要素

    認証、認可、監査。それぞれ、本人確認、アクセス許可確認、アクセス履歴監視。

  2. 共通鍵暗号方式と公開鍵暗号方式


    共通鍵: 暗号鍵と複合鍵が共通。
    公開鍵: 公開鍵と秘密鍵に分ける。

AI システム運用

  1. MLOps

    Machine Learning と Operations を組み合わせたことば。機械学習エンジニアとシステム運用社を効率的につなぐ。

ビジネス力

行動規範

  1. 仮名加工情報と匿名加工情報


    仮名加工情報: 個人情報を個人識別不可能にしたもの。ただし、ほかの情報と照合すれば復元可能。
    匿名加工情報: 個人情報を個別識別不可能にしたもの。ほかの情報と照合しても復元不可能。

  2. オプトインとオプトアウト


    オプトイン: 事前に通知すれば、個人情報を第三者に提供できるという制度。opt in (参加する)。
    オプトアウト: 一定の条件を満たせば、本人の許可なしに個人情報を第三者に提供できるという制度。opt out (取りやめる、管理から離れ独立する)。

  3. 一次情報、二次情報、三次情報


    一次情報: 実際にデータ収集した情報。Web クローリングによる情報収集は一次扱い。
    二次情報: 他者から得た情報、一次情報をもとに編集された情報。
    三次情報: 情報源がわからない情報。

  4. GAN と VAE


    GAN: Generative Adversarial Network の略。敵対的生成ネットワーク。本物の画像とフェイク画像を競い合わせて学習させる。
    VAE: Variational AutoEncoder の略。未知のデータを確率的に生成する。こちらも画像生成に使われる。

論理的思考

  1. MECE

    ミーシー。Mutually Exclusive Collectively Exhaustive の頭文字をとったもの。

スコーピング

  1. 5フォース分析

    「業界内での競争」「新規参入者の脅威」「代替品の脅威」「売り手の交渉力」「買い手の交渉力」という五つの競争要因から業界構造を分析すること。