învățare automată sau învățarea automată constă practic în automatizarea, utilizând diferiți algoritmi, a identificării tiparelor sau tendințelor „ascunse” în date. Din acest motiv, este foarte important nu numai să alegeți cel mai potrivit algoritm (și parametrizarea ulterioară a acestuia pentru fiecare problemă specifică), ci și să aveți un volum mare de date de o calitate suficientă.

învățarea

În ultimii ani, învățare automată a devenit foarte important în lumea afacerilor, deoarece utilizarea inteligentă a analizei datelor este cheia succesului în afaceri. Previziunile Gartner pentru 2020 dezvăluie că, pe lângă beneficiile sale în domenii precum luarea deciziilor inteligente, robotică, vehicule autonome și hiper-automatizare, domeniul securității se dezvoltă cu mare forță. În special, aplicațiile de inteligență artificială pentru protecția sistemelor conectate IoT.

În acest post vom explica în ce constă învățarea automată, ce tipuri de învățare există, cum funcționează și pentru ce sunt folosite.

Într-adevăr, ce este învățarea automată?

Este o ramură a inteligenței artificiale care a început să capete importanță în anii 80. Este un tip de AI care nu mai depinde de reguli și de un programator, ci mai degrabă computerul își poate stabili propriile reguli și poate învăța de la sine.

Învățarea automată are loc prin algoritmi. Un algoritm nu este altceva decât o serie de pași ordonați luați pentru a efectua o sarcină.

Obiectivul învățare automată este de a crea un model care ne permite să rezolvăm o sarcină dată. Atunci știu tren modelul folosind cantități mari de date. Modelul aflați din aceste date și este capabil să facă predicții. În funcție de sarcina pe care doriți să o efectuați, va fi mai potrivit să lucrați cu un algoritm sau altul.

Alegerea algoritmului nu este ușoară. Dacă căutăm informații pe internet, putem găsi o adevărată avalanșă de articole foarte detaliate, care uneori, mai degrabă decât să ne ajute, ne încurcă. Prin urmare, vom încerca să oferim câteva linii directoare de bază pentru a începe să lucrăm.

Există două întrebări fundamentale pe care trebuie să ni le punem. Primul este:

Ce vrem să facem?

Faptul este că definește clar obiectivul. Atunci, pentru a ne rezolva problema, ne vom întreba ce fel de sarcină va trebui să ne asumăm. Poate fi, de exemplu, din:

  • Probleme de clasificare, cum ar fi detectarea spamului sau a mesajelor nedorite.
  • Probleme de grupare, cum ar fi recomandarea unei cărți unui utilizator pe baza achizițiilor anterioare (sistem de recomandare) f
  • Probleme de regresie, cum ar fi aflarea cât de mult va folosi un anumit client un serviciu (determinarea unei valori)

Dacă luăm în considerare problema clasică a păstrarea clientului, Vedem că o putem aborda din diferite abordări. Vrem să facem o segmentare a clienților, da, dar care strategie este cea mai potrivită? Este mai bine să o tratați ca pe o problemă de clasificare, grupare sau chiar regresie? Indiciul cheie va fi dat punându-ne a doua întrebare.

Ce informații am pentru a-mi atinge scopul?

Dacă mă întreb: „Clienții mei, sunt grupați într-un fel, în mod natural?”, Nu am definit niciun obiectiv (țintă) pentru grupare.

Cu toate acestea, dacă pun întrebarea în acest alt mod: putem identifica grupuri de clienți cu o mare probabilitate de a solicita rezilierea serviciului de îndată ce contractul lor se încheie? ţintă perfect definit: clientul va fi dezabonat? și dorim să acționăm în funcție de răspunsul pe care îl primim.

În primul caz, ne confruntăm cu un exemplu de învățare nesupravegheat, în timp ce al doilea este din învățare supravegheată.

În fazele inițiale ale procesului de știință a datelor, este foarte important să se decidă dacă „strategia de atac” va fi supravegheată sau nesupravegheată și, în acest din urmă caz, să se definească cu precizie care va fi strategia de atac. variabilă țintă. Pe măsură ce decidem, vom lucra cu o familie de algoritmi sau cu alta.

Odată ce cele de mai sus au fost identificate, vor fi folosiți algoritmi presetați, astfel încât să puteți alege cu care să lucrați. Printre cele mai cunoscute se numără: scikit-learning, învățare automată algoritm cheat vezi, printre altele.

Tipuri de învățare automată

Tipurile de implementare a învățare automată Acestea pot fi clasificate în trei categorii diferite:

  • Învățare supravegheată
  • Învățare nesupravegheată
  • Învățarea prin întărire în funcție de natura datelor pe care le primiți.

Învățare supravegheată

La învățare supravegheată, algoritmii funcționează cu date „etichetate” (date etichetate), încercând să găsească o funcție care, date fiind variabilele de intrare (date de intrare), le atribuie eticheta de ieșire corespunzătoare. Algoritmul este instruit cu un „istoric” al datelor și astfel „învață” să atribuie eticheta de ieșire corespunzătoare unei noi valori, adică, prezice valoarea de ieșire. (Simeone, 2018)

De exemplu, un detector de spam analizează istoricul mesajelor, văzând ce funcție poate reprezenta, în funcție de parametrii de intrare care sunt definiți (expeditorul, dacă destinatarul este un individ sau face parte dintr-o listă, dacă subiectul conține anumiți termeni etc.) .), atribuirea etichetei „spam” sau „nu spam”. Odată ce această funcție este definită, atunci când introduceți un nou mesaj neetichetat, algoritmul îi poate atribui eticheta corectă.

învățare supravegheată Se folosește de obicei în:

  • Probleme de clasificare (identificarea cifrelor, diagnosticarea sau detectarea fraudelor de identitate).
  • Probleme de regresie (predicții meteo, speranță de viață, creștere etc.).

Aceste două tipuri principale de învățare supravegheată, clasificare și regresie, se disting prin tipul de variabilă țintă. În cazurile de clasificare, este categoric, în timp ce în cazurile de regresie, variabila țintă este numerică.

Cei mai comuni algoritmi care se aplică învățării supravegheate sunt:

  1. Arborii de decizie.
  2. Clasificarea Naïve Bayes.
  3. Regresia celor mai mici pătrate.
  4. Regresie logistică.
  5. Suport pentru mașini vectoriale (SVM).
  6. Metode de ansamblu (seturi de clasificatoare).

Învățare nesupravegheată

Învățarea nesupravegheată apare atunci când datele „etichetate” nu sunt disponibile pentru instruire. Știm doar datele de intrare, dar nu există date de ieșire care să corespundă unei anumite intrări. Prin urmare, putem doar descrie structura datelor, pentru a încerca să găsim un fel de organizație care să simplifice analiza. Prin urmare, au un caracter exploratorie.

De exemplu, sarcinile de grupare caută grupări bazate pe similarități, dar nimic nu garantează că acestea au vreun sens sau utilitate. Uneori, atunci când explorați datele fără un obiectiv definit, puteți găsi corelații false false, dar impracticabile.

Învățarea nesupravegheată este adesea utilizată în:

  • Probleme de grupare
  • Gruparile concomitente
  • Profilare sau profilare.

Cu toate acestea, problemele care implică găsirea similitudinii, prezicerea legăturilor sau reducerea datelor pot fi sau nu monitorizate.

Cele mai frecvente tipuri de algoritmi în învățarea nesupravegheată sunt:
1. Clustering algoritmi
2. Analiza componentelor principale
3. Descompunerea valorii unice
4. Analiza componentelor principale (Analiza componentelor independente)

Deci, ce este învățarea prin întărire?

Nu toți algoritmii ML pot fi clasificați ca algoritmi de învățare supravegheați sau nesupravegheați. Există un „pământ al nimănui”, care este locul în care tehnicile Consolidarea învățării.

Acest tip de învățare se bazează pe îmbunătățiți răspunsul modelului folosind un proces de feedback. Algoritmul învață observând lumea din jur. Informațiile dvs. de intrare sunt feedback-ul pe care îl primiți din lumea exterioară ca răspuns la acțiunile dvs. Prin urmare, sistemul învață pe baza încercare-eroare.

Nu este un tip de învățare supravegheată, deoarece nu se bazează strict pe un set de date etichetate, ci pe monitorizarea răspunsului la acțiunile întreprinse. Nici nu este o învățare nesupravegheată, deoarece atunci când ne modelăm „ucenicul” știm dinainte care este recompensa așteptată.

Dacă doriți să aflați mai multe despre tipurile de învățare, nu ratați această altă postare, unde vă explicăm ce învățarea prin transfer.

Utilizări practice ale învățării automate

Pentru a termina, să ne uităm la unele dintre cele mai frecvente utilizări practice ale învățării automate.

  • Securitatea computerului, diagnosticarea atacurilor, prevenirea fraudelor online, detectarea anomaliilor etc.
  • Recunoașterea imaginilor sau modelelor (faciale, amprente digitale, obiecte, voce etc.)
  • Conducere autonomă, folosind algoritmi de învățare profundă: identificarea imaginilor în timp real, detectarea obstacolelor și a semnelor de circulație, prevenirea accidentelor ...
  • Sănătate: evaluare automată a testelor de diagnostic, robotică medicală etc.
  • Analiza pieței bursiere (previziuni financiare, evoluția pieței etc.)
  • Motoare de recomandare

Este esențial să fie clare în orice moment obiectivele căutate de companie atunci când utilizează aceste tehnici, pentru a putea pune întrebările corespunzătoare datelor. Și, desigur, lucrați întotdeauna cu date de calitate.

Pentru a fi la curent cu LUCA vizitați site-ul nostru web, abonați-vă la LUCA Data Speaks sau urmați-ne pe Twitter, LinkedIn și YouTube.