全要素を二乗して足す。最後に平方根をとる。
x2 + y2 = 4
|A| = ad - bc
横ならびを縦ならびにするだけ。
行列による変換後、角度は変わらず、長さは変わる。主成分分析で用いられる。高次元のデータの性質を低次元で説明するときに使う?
x で偏微分した偏導関数に x と y を代入して得られる値を x とし、y で偏微分した偏導関数に x と y を代入して得られる値を y とする。
時点が異なるデータとの差をとったもの。局所的な傾向を見れる。
離散的な信号を複数の周波数成分に分解すること。
最小二乗法: y = ax + b において、y と ax + b の差 (残差) の二乗がもっとも小さくなる a と b を求めること。
最尤法: よくわからないが、確率的に特定のデータがいちばん出やすい場合を探すこと。
重回帰分析: 複数の説明変数でひとつの目的変数を予測する。y = ax + bx + cx + d。
偏回帰係数: a のこと。
標準偏回帰係数: 標準化したあとの a のこと。
重相関係数: 目的変数の実測値と予測値の相関係数。
混合行列: 正誤分布のクロス表。
True Positive: 正解だと予測して、実際に正解である。
True Negative: 不正解だと予測して、実際に不正解である。
False Positive: 正解だと予測したが、実際には不正解である。
False Negative: 不正解だと予想したが、実際には正解である。
正解率: (TP + TN) / ALL
適合率: TP / (TP + FP)
再現率: TP / (TP + FN)
F 値: (2 * 適合率 * 再現率) / (適合率 + 再現率)
ROC: Receiver Operating Characteristic の略。グループ分けの精度を (0, 0) と (1, 1) を通る曲線で表したもの。
AUC: Area Under the Curve の略。ROC 曲線の下側の面積。
RMSE: Root Mean Squared Error の略。平均平方二乗誤差。
MAE: Mean Absolute Error の略。平均絶対誤差。
MAPE: Mean Absolute Percentage Error の略。平均絶対誤差率。
帰無仮説: 否定したい仮説。「正しければ検定が無に帰す」と覚える。
対立仮説: 主張したい仮説。
第1種の過誤: 正しい帰無仮説を棄却すること。逆張り。
第2種の過誤: 誤った帰無仮説を受け入れること。鵜呑み。
全事象の値とその確率をかけて足し合わせる。
標本分散を求めるときの分母を n から n-1 に変えるだけ。母分散の推定値を求めることができる。
f(x) = (1 / √2πσ2) exp ((- (x - μ)2) / 2σ2)
Z = (X - μ) / σ
間隔尺度: 倍できない。マイナスもある。
比例尺度: 倍できる。0で消失。
名義尺度: 大人と子どもを1と0で表す。
順序尺度: レベル。レベル1-3の人数で平均はとれない。
「Sxy / SxSy」で求められる。要するに、x と y の共分散を x の標準偏差と y の標準偏差で割ればよい。
離散型確率分布: 確率変数が自然数。ベルヌーイ分布、二項分布、ポアソン分布。
連続型確率分布: 確率変数が実数。正規分布、指数分布、カイ二乗分布。
二項分布はサンプルが増えると正規分布に近づく。
ピアソンの積率相関: 量的データの線形関係を示す。
スピアマンの順位相関: 質的データの単調関係を示す。
P(B|A) = (P(B) * P(A|B)) / P(A)。P(A) を条件付き確率を使って求めることもできる。
データ同士の特性の差を距離で表し、デンドログラムをつくる。デンドログラムを横切るように線を引いたとき、交点の数がクラスター数になる。
非階層クラスター分析において、データの重心を求めてクラスタリングするのを繰り返す。
標本を調べたときと母集団すべてを調べたときの差。
フィッシャーの三原則「反復」「無作為化」「局所管理」にもとづく統計手法。
標準化: 平均を0、標準偏差を1にする操作。「(X - μ) / σ」で求める。
正規化: 最小値を0、最大値を1にする操作。「(X - minX) / maxX」で求める。
「大人 or 子ども」のようなニ項目を「0 or 1」で表すこと。「中学生 or 高校生 or 大学生」の場合は「中学生 (0/1)」「高校生 (0/1)」とニ項目だけダミー変数にすればよい。「中学生 (0)」「高校生 (0)」の場合は「大学生」だとわかるからだ。
0-1正規化によって外れ値を特定し、除去する。
量的変数を等間隔に区分すること。
単純無作為: 母集団からランダムに抽出。
系統: 一定間隔で抽出。
層別: グループ分けし、全グループで単純無作為。
集落: クラスターに分けて、クラスターを無作為抽出し、全数調査。
多段: グループに分けて、グループを無作為抽出し、単純無作為。
データを母点という点で表し、母点と母点のあいだに線を引いたもの。細胞みたい。
「身長」「体重」「年齢」のようなデータセットを折れ線グラフのように表したもの。項目の並び順に意味はない。
ホールドアウト法: 学習用・検証用・テスト用というようにデータを分割するというやり方。
交差検証法: 学習用・検証用にデータを分割するのを繰り返すというやり方。
ランダムで決定木を生成し、アンサンブル学習をする。
データの点と境界線との距離をマージンと呼び、そのマージンを最大化するというアルゴリズム。教師あり学習。
線形分類を可能にするための式変形。
次元 (= 変数や特徴量) を増やすことによって、計算量が指数関数的に増え、問題の解決が阻まれること。
複雑化する機械学習のモデルがモデル全体としてどのような予測をするかを説明すること。人間にとってわかりやすいかたちで。
ニューラルネットワークの入力層と出力層のあいだ。ReLU などの活性化関数が適用される。
決定木の学習を繰り返して、モデルの認識精度を上げること。
強化学習において仮定される「遷移先の状態が直前の状態とそこでの行動にのみ依存する」という性質。
グラフ化すると、すべり台みたいになる関数。0か1かを予測するロジスティック回帰分析で用いる。
文を形態素に分割し、品詞を判定すること。
MeCab, Janome, JUMAN。
文を分析に分けて、文節どうしの関係を調べること。
KNP, CaboCha。
言語理解度を測定するためのベンチマーク。課せられるタスクがたくさんある。
CoLA: 英文法的に正しいかどうか。Acceptability。
SST-2: ポジティブがネガティブか? Sentiment。
MRPC: 意味が同じかどうか。Paraphrase。
STS: 類似性。Similarity。
QQP: 質問文の意味が同じかどうか。Question。
MNLI: 含意関係。Inference。
QNLI: 文章が質問の答えを含むか。
RTE: 含意関係。Entailment。
WNLI: 代名詞の指示対象。
いずれも画像データのフォーマット。JPEG は保存するたびに目に見えないレベルの圧縮をするため、保存を繰り返すと画質が劣化する。それに対して、PNG は何度保存しても画質が劣化しない。
信頼度: 事象 X が起こったあとに事象 Y が起こるという確率。
支持度: 事象 X と事象 Y が同時に起こるという確率。
リフト値: 信頼度 / 事象 Y が起こる確率。
コンテナ方式の仮想化ソフト。
いずれも営利目的・非営利目的を問わず無償で二次利用が可能。
RESAS: リーサス。地域経済分析システム。
e-Stat: イースタット。政府統計の総合窓口。
インターネット上のウェブページの情報を収集するツール。収集にあたっては、ウェブページの情報を利用してよいかを確認する必要がある。
部分関数従属: 非キーが主キーの一部に関数従属すること。
推移関数従属: 非キーが非キーに関数従属すること。
非正規形: 繰り返される項目を別項目として切り出さず、そのままにした状態。
第一正規形: 繰り返される項目を別項目として切り出した状態。
第二正規形: 部分関数従属がなくなるように切り出した状態。
第三正規形: 推移関数従属がなくなるように切り出した状態。
構造化データ: 行と列で表すことができるデータ。表。
非構造化データ: 行と列で表すことができないデータ。音声、画像。
RDBMS は Relational DataBase Management System の略。いずれもデータベース管理方式。RDBMS はいわば表で、NoSQL はかならずしも表ではない?
Hadoop: データを分散処理するためのソフトウェア基盤。
Spark: 分散処理フレームワーク。インメモリ型で Hadoop よりも高速。
Jupyter Notebook: Python や Ruby の開発環境。ブラウザ上でも利用可能。
RStudio: R の開発環境。
RDBMS を実行中のコンピューターに接続し、データの閲覧や編集ができる。データ構築ではない?
認証、認可、監査。それぞれ、本人確認、アクセス許可確認、アクセス履歴監視。
共通鍵: 暗号鍵と複合鍵が共通。
公開鍵: 公開鍵と秘密鍵に分ける。
Machine Learning と Operations を組み合わせたことば。機械学習エンジニアとシステム運用社を効率的につなぐ。
仮名加工情報: 個人情報を個人識別不可能にしたもの。ただし、ほかの情報と照合すれば復元可能。
匿名加工情報: 個人情報を個別識別不可能にしたもの。ほかの情報と照合しても復元不可能。
オプトイン: 事前に通知すれば、個人情報を第三者に提供できるという制度。opt in (参加する)。
オプトアウト: 一定の条件を満たせば、本人の許可なしに個人情報を第三者に提供できるという制度。opt out (取りやめる、管理から離れ独立する)。
一次情報: 実際にデータ収集した情報。Web クローリングによる情報収集は一次扱い。
二次情報: 他者から得た情報、一次情報をもとに編集された情報。
三次情報: 情報源がわからない情報。
GAN: Generative Adversarial Network の略。敵対的生成ネットワーク。本物の画像とフェイク画像を競い合わせて学習させる。
VAE: Variational AutoEncoder の略。未知のデータを確率的に生成する。こちらも画像生成に使われる。
ミーシー。Mutually Exclusive Collectively Exhaustive の頭文字をとったもの。
「業界内での競争」「新規参入者の脅威」「代替品の脅威」「売り手の交渉力」「買い手の交渉力」という五つの競争要因から業界構造を分析すること。